プロンプト構文
分析クエリの一般的な形式:| コンポーネント | 説明 | 値 |
|---|---|---|
@agent | クエリを実行するエージェント | @alex(クラウドとコンピュート)・@tony(データベース)・@kai(Kubernetes)・@anna(予測と調整) |
#tool | 出力形式 | #dashboard(ビジュアル)・#chart(インライン)・#report(エクスポート可能)・#alert(しきい値ルール) |
time range | オプション。デフォルトは7日 | last 7 days・last 30 days・last quarter・since last quarter |
ダッシュボード
| ダッシュボード | 表示内容 | エージェント |
|---|---|---|
| リソース使用率 | サービス・リージョン・アカウント別のCPU・メモリ・ストレージ・ネットワーク使用量 | Alex、Kai |
| Kubernetesワークロード効率 | 名前空間別のポッドリソースリクエストvs実際の使用量 | Kai |
| アプリケーションパフォーマンス | インフラ負荷と相関したAPIレスポンスタイムとエラーレート | Alex |
| データベースパフォーマンス | P50/P95/P99のクエリレイテンシ・スロークエリ・接続数 | Tony |
| クラスターヘルス | CPUプレッシャー・OOMKillイベント・ノードステータス | Kai |
| キャパシティヘッドルーム | パフォーマンスへの影響前のリソースの余裕 | Alex、Anna |
| 使用率トレンド | 選択した期間での改善または低下 | Alex |
アラート
| シグナル | 検出内容 | デフォルトしきい値 |
|---|---|---|
| CPUプレッシャー | クラスター全体での持続的な高CPU | 設定可能な時間で>85% |
| メモリ増加 | リリースなしの継続的な増加(リークパターン) | 1時間あたり>10% |
| レイテンシ低下 | ベースラインを超えるP95レイテンシの上昇 | ベースラインの>2倍 |
| OOMKill | メモリ制限によるポッドの終了 | 任意の発生 |
| レプリケーション遅延 | データベースレプリカがプライマリより遅れている | >30秒 |
#alert プロンプトを使用して環境ごとに設定できます。
シグナルの解釈
| パターン | 考えられる原因 | 次のステップ |
|---|---|---|
| 高使用率 + 正常なレイテンシ | 適切にサイズ設定されたワークロード | リザーブドキャパシティを検討—@alexに確認 |
| 低使用率 + 高コスト | オーバープロビジョニングされたリソース | @alexで適切なサイズに変更 |
| 高レイテンシ + 正常な使用率 | アプリケーションまたはデータベースのボトルネック | @tonyに確認 |
| 使用率スパイク + OOMKill | リソース制限の設定ミス | @kaiに確認 |
| トラフィック変化なしのコストスパイク | 設定ドリフトまたは孤立リソース | @alexに確認またはCloudKeepersの調査結果を確認 |
使用例
使用率ダッシュボード:関連ドキュメント
CloudKeepers
インフラを継続的に監視して調査結果を表面化するKeeperをセットアップする
Cost Analytics
接続されたアカウントの支出パターンと異常を分析する
Assessment
インフラの健全性をベースライン化するWell-Architectedアセスメントを実行する
Topology
分析シグナルとインフラ依存グラフを相関させる