> ## Documentation Index
> Fetch the complete documentation index at: https://docs.cloudthinker.io/llms.txt
> Use this file to discover all available pages before exploring further.

# Kai

> EKS、GKE、AKS の Kubernetes クラスターを管理し、コンテナワークロードを最適化し、トラブルシューティングを行います。

Kai は CloudThinker のコンテナオーケストレーション専門家であり、EKS、GKE、AKS、およびセルフマネージドクラスター全体で Kubernetes クラスター管理、ワークロード最適化、オートスケーリング、運用トラブルシューティングを専門としています。

***

## Kai が解決する問題

Kubernetes は強力ですが、非常に複雑です。ほとんどのチームはリソースリクエストとリミットを一度設定（またはテンプレートからコピー）した後、二度と見直しません。リミットが低すぎて Pod が OOMKilled されます。リクエストが高すぎてノードが十分に活用されません。クラスターオートスケーラーはワークロードの適正サイズを調整する代わりにノードを追加します。RBAC 設定はサービスアカウントに権限が蓄積されるにつれ、最小権限の原則からずれていきます。

Kubernetes を適切に運用するには、深い専門知識を持つ人物の日々の注意が必要です：

* 複数の名前空間にわたる数百の Pod でリソース使用率を監視する
* ログ、イベント、リソース制約を読んでクラッシュループを診断する
* HPA のしきい値、VPA の推奨事項、Cluster Autoscaler の動作をチューニングする
* セキュリティギャップを見つけるため RBAC 設定とネットワークポリシーを監査する

ほとんどのチームには 1〜2 名の Kubernetes エンジニアしかおらず、すでにインフラ変更の管理で手一杯です。プロアクティブな最適化はほとんど行われません。

***

## 他のツールが見逃すこと

| ツール                                | できること                   | 不足していること                         |
| ---------------------------------- | ----------------------- | -------------------------------- |
| **kubectl**                        | クラスター API への直接アクセス      | 生ツール、深い専門知識が必要、分析や推奨なし           |
| **Lens / k9s**                     | Kubernetes ダッシュボードと CLI | 可視化のみ、AI 分析なし、推奨なし               |
| **Kubecost**                       | Kubernetes のコスト配分とレポート  | コストの可視化のみ、トラブルシューティングや最適化ガイダンスなし |
| **Datadog / Prometheus + Grafana** | Kubernetes メトリクスとアラート   | 監視のみ、対処するには依然として専門家の解釈が必要        |
| **KEDA / VPA**                     | オートスケーリングの自動化           | 単一目的ツール、包括的なクラスター分析なし            |

Kai は通常、kubectl の専門知識、監視ダッシュボード、コストツール、セキュリティスキャナーが必要とすることを、問題を説明し具体的な修正を推奨する単一の会話型インターフェースに集約します。

***

## Kai の仕組み

1. **Kubernetes API への接続** — すべての名前空間で Pod、ノード、デプロイメント、サービス、イベント、RBAC 設定を読み取ります
2. **メトリクスの取得** — Kubernetes API の状態と metrics-server データ（CPU/メモリの実績対リクエスト）を相関させます
3. **非効率パターンの特定** — OOMKill の履歴、保留中の Pod、低稼働ノード、誤設定されたオートスケーリングポリシーを検出します
4. **精度の高い推奨の生成** — 実際の P95 使用率に基づく具体的なリソースリクエスト/リミット値、HPA しきい値の調整、RBAC ポリシーの変更を生成します
5. **コンテキストを踏まえたトラブルシューティング** — Pod が失敗した場合、Kai はログ、イベント、リソース状態を同時に読み取り、手動で相関させる代わりに根本原因を特定します

***

## 機能

| ドメイン            | 機能                                         |
| --------------- | ------------------------------------------ |
| **クラスター管理**     | ヘルス監視、ノード管理、リソース配分、アップグレード                 |
| **ワークロード最適化**   | Pod の適正サイズ調整、リソースリクエスト/リミット、スケジューリング効率     |
| **オートスケーリング**   | HPA/VPA/Cluster Autoscaler の最適化、スケーリングポリシー |
| **セキュリティ**      | RBAC 監査、ネットワークポリシー、Pod セキュリティ、シークレット管理     |
| **トラブルシューティング** | クラッシュループ、OOMKill、スケジューリング失敗、ネットワーク問題       |

***

## 対応プラットフォーム

| プラットフォーム       | サポートレベル                                |
| -------------- | -------------------------------------- |
| **Amazon EKS** | AWS 統合によるフルサポート                        |
| **Google GKE** | GCP 統合によるフルサポート                        |
| **Azure AKS**  | Azure 統合によるフルサポート                      |
| **セルフマネージド**   | metrics-server を備えた Kubernetes 1.24 以上 |

***

## プロンプトパターン

### クラスターヘルス

```text theme={null}
# ヘルスチェック
@kai check EKS cluster health and pod distribution

# リソース使用率
@kai analyze cluster resource utilization and identify bottlenecks

# ノード分析
@kai identify nodes with <30% CPU utilization for consolidation

# マルチクラスタービュー
@kai provide health summary across all Kubernetes clusters
```

### ワークロード最適化

```text theme={null}
# Pod の適正サイズ調整
@kai analyze pod resource requests/limits and recommend right-sizing

# スケジューリング効率
@kai identify pods with resource requests far exceeding actual usage

# コスト最適化
@kai identify underutilized nodes and recommend consolidation strategy

# 名前空間分析
@kai analyze resource allocation across namespaces
```

### オートスケーリング

```text theme={null}
# HPA レビュー
@kai review Horizontal Pod Autoscaler policies and recommend improvements

# スケーリング分析
@kai analyze scaling patterns and recommend threshold adjustments

# VPA 評価
@kai evaluate whether Vertical Pod Autoscaler would benefit our workloads

# クラスターオートスケーリング
@kai review Cluster Autoscaler configuration for cost efficiency
```

### トラブルシューティング

```text theme={null}
# クラッシュ調査
@kai investigate pod crash loops in payment namespace

# OOM 分析
@kai identify pods experiencing OOMKilled events and recommend fixes

# スケジューリング問題
@kai analyze pending pods and identify scheduling constraints

# ネットワーク問題
@kai investigate network connectivity issues between services
```

### セキュリティ

```text theme={null}
# RBAC 監査
@kai audit RBAC configuration against least-privilege principles

# ネットワークポリシー
@kai analyze network policies and recommend security improvements

# Pod セキュリティ
@kai identify pods running with excessive privileges

# シークレット監査
@kai audit secrets management and recommend rotation strategy
```

***

## ツールの使い方

| ツール          | Kai のユースケース                       |
| ------------ | --------------------------------- |
| `#dashboard` | クラスターヘルス、ノード状況、リソース使用率、Pod メトリクス  |
| `#report`    | 最適化分析、セキュリティ監査、キャパシティプランニング       |
| `#recommend` | 適正サイズ調整、スケーリングポリシー、統合アクション        |
| `#alert`     | OOMKill、ノードプレッシャー、Pod 障害、リソースしきい値 |
| `#chart`     | リソースのトレンド、スケーリングパターン、経時的な使用率      |

### ツールを使った例

```text theme={null}
@kai #dashboard EKS cluster health with node and pod metrics
@kai #report cluster optimization opportunities with implementation plan
@kai #recommend HPA policies for variable workloads
@kai #alert on pod OOMKilled events or node pressure conditions
```

***

## 効果的なプロンプト

**ヒント：クラスターのコンテキストを含める**

```text theme={null}
# 良い例
@kai analyze production EKS cluster
in us-west-2 for pod resource
optimization

# 避けるべき例
@kai check our containers
```

**ヒント：成功指標を定義する**

```text theme={null}
# 良い例
@kai improve cluster utilization
while maintaining <30s pod startup
and 99.9% availability

# 避けるべき例
@kai make cluster better
```

***

## 接続要件

Kai は監視機能を備えた Kubernetes クラスターへのアクセスを必要とします：

| コンポーネント            | 必要なアクセス                        |
| ------------------ | ------------------------------ |
| **Kubernetes API** | Pod、ノード、デプロイメント、サービスへの読み取りアクセス |
| **Metrics Server** | Pod とノードのリソースメトリクス             |
| **イベント**           | トラブルシューティング用のクラスターイベント         |
| **ログ**             | デバッグ用のコンテナログ                   |

***

## 代表的なワークフロー

### クラスター最適化

```text theme={null}
# Step 1: 評価
@kai analyze cluster resource utilization

# Step 2: 無駄の特定
@kai identify pods with >50% overprovisioned resources

# Step 3: 計画
@kai #recommend right-sizing with zero-downtime approach

# Step 4: 監視
@kai #dashboard track resource utilization after changes
```

### インシデント対応

```text theme={null}
# Step 1: 特定
@kai identify unhealthy pods and failing deployments

# Step 2: 調査
@kai analyze logs and events for root cause

# Step 3: 修復
@kai #recommend immediate actions to restore service

# Step 4: 再発防止
@kai #recommend changes to prevent recurrence
```

### キャパシティプランニング

```text theme={null}
# Step 1: ベースライン
@kai analyze current resource consumption patterns

# Step 2: 予測
@kai forecast resource needs for 2x growth

# Step 3: 計画
@kai #recommend node pool configuration for projected growth

# Step 4: 自動化
@kai #recommend autoscaling policies for demand variations
```

***

## 次のステップ

<CardGroup cols={2}>
  <Card title="Kubernetes 接続" icon="https://mintcdn.com/cloudthinker/aLd-ttc-SCW-aFky/images/icons/kubernetes.svg?fit=max&auto=format&n=aLd-ttc-SCW-aFky&q=85&s=7c03292954ff635a1994623a5c39971b" href="/ja/guide/connections/kubernetes" width="24" height="24" data-path="images/icons/kubernetes.svg">
    Kai を EKS、GKE、AKS、またはセルフマネージドクラスターに接続する
  </Card>

  <Card title="トポロジー" icon="diagram-project" href="/ja/guide/infrastructure/topology">
    Kubernetes サービスの依存関係を可視化して RCA に活用する
  </Card>

  <Card title="Deep Response Engine" icon="triangle-exclamation" href="/ja/guide/incident/overview">
    Kai が Kubernetes インシデントを自動調査する方法
  </Card>

  <Card title="Anna" icon="users" href="/ja/guide/agents/anna">
    クラスターのコスト + パフォーマンス最適化に向けて Kai と [Alex](/ja/guide/agents/alex) を連携させる
  </Card>
</CardGroup>