Kai が解決する問題
Kubernetes は強力ですが、非常に複雑です。ほとんどのチームはリソースリクエストとリミットを一度設定(またはテンプレートからコピー)した後、二度と見直しません。リミットが低すぎて Pod が OOMKilled されます。リクエストが高すぎてノードが十分に活用されません。クラスターオートスケーラーはワークロードの適正サイズを調整する代わりにノードを追加します。RBAC 設定はサービスアカウントに権限が蓄積されるにつれ、最小権限の原則からずれていきます。 Kubernetes を適切に運用するには、深い専門知識を持つ人物の日々の注意が必要です:- 複数の名前空間にわたる数百の Pod でリソース使用率を監視する
- ログ、イベント、リソース制約を読んでクラッシュループを診断する
- HPA のしきい値、VPA の推奨事項、Cluster Autoscaler の動作をチューニングする
- セキュリティギャップを見つけるため RBAC 設定とネットワークポリシーを監査する
他のツールが見逃すこと
| ツール | できること | 不足していること |
|---|---|---|
| kubectl | クラスター API への直接アクセス | 生ツール、深い専門知識が必要、分析や推奨なし |
| Lens / k9s | Kubernetes ダッシュボードと CLI | 可視化のみ、AI 分析なし、推奨なし |
| Kubecost | Kubernetes のコスト配分とレポート | コストの可視化のみ、トラブルシューティングや最適化ガイダンスなし |
| Datadog / Prometheus + Grafana | Kubernetes メトリクスとアラート | 監視のみ、対処するには依然として専門家の解釈が必要 |
| KEDA / VPA | オートスケーリングの自動化 | 単一目的ツール、包括的なクラスター分析なし |
Kai の仕組み
- Kubernetes API への接続 — すべての名前空間で Pod、ノード、デプロイメント、サービス、イベント、RBAC 設定を読み取ります
- メトリクスの取得 — Kubernetes API の状態と metrics-server データ(CPU/メモリの実績対リクエスト)を相関させます
- 非効率パターンの特定 — OOMKill の履歴、保留中の Pod、低稼働ノード、誤設定されたオートスケーリングポリシーを検出します
- 精度の高い推奨の生成 — 実際の P95 使用率に基づく具体的なリソースリクエスト/リミット値、HPA しきい値の調整、RBAC ポリシーの変更を生成します
- コンテキストを踏まえたトラブルシューティング — Pod が失敗した場合、Kai はログ、イベント、リソース状態を同時に読み取り、手動で相関させる代わりに根本原因を特定します
機能
| ドメイン | 機能 |
|---|---|
| クラスター管理 | ヘルス監視、ノード管理、リソース配分、アップグレード |
| ワークロード最適化 | Pod の適正サイズ調整、リソースリクエスト/リミット、スケジューリング効率 |
| オートスケーリング | HPA/VPA/Cluster Autoscaler の最適化、スケーリングポリシー |
| セキュリティ | RBAC 監査、ネットワークポリシー、Pod セキュリティ、シークレット管理 |
| トラブルシューティング | クラッシュループ、OOMKill、スケジューリング失敗、ネットワーク問題 |
対応プラットフォーム
| プラットフォーム | サポートレベル |
|---|---|
| Amazon EKS | AWS 統合によるフルサポート |
| Google GKE | GCP 統合によるフルサポート |
| Azure AKS | Azure 統合によるフルサポート |
| セルフマネージド | metrics-server を備えた Kubernetes 1.24 以上 |
プロンプトパターン
クラスターヘルス
ワークロード最適化
オートスケーリング
トラブルシューティング
セキュリティ
ツールの使い方
| ツール | Kai のユースケース |
|---|---|
#dashboard | クラスターヘルス、ノード状況、リソース使用率、Pod メトリクス |
#report | 最適化分析、セキュリティ監査、キャパシティプランニング |
#recommend | 適正サイズ調整、スケーリングポリシー、統合アクション |
#alert | OOMKill、ノードプレッシャー、Pod 障害、リソースしきい値 |
#chart | リソースのトレンド、スケーリングパターン、経時的な使用率 |
ツールを使った例
効果的なプロンプト
ヒント:クラスターのコンテキストを含める接続要件
Kai は監視機能を備えた Kubernetes クラスターへのアクセスを必要とします:| コンポーネント | 必要なアクセス |
|---|---|
| Kubernetes API | Pod、ノード、デプロイメント、サービスへの読み取りアクセス |
| Metrics Server | Pod とノードのリソースメトリクス |
| イベント | トラブルシューティング用のクラスターイベント |
| ログ | デバッグ用のコンテナログ |
代表的なワークフロー
クラスター最適化
インシデント対応
キャパシティプランニング
次のステップ
Kubernetes 接続
Kai を EKS、GKE、AKS、またはセルフマネージドクラスターに接続する
トポロジー
Kubernetes サービスの依存関係を可視化して RCA に活用する
Deep Response Engine
Kai が Kubernetes インシデントを自動調査する方法
Anna
クラスターのコスト + パフォーマンス最適化に向けて Kai と Alex を連携させる