前提条件
- CloudThinker ワークスペース — Pulse が初めての方は先に仕組みの解説をお読みください
- ポーリングしたいサービスの読み取り権限を持つ有効な AWS 接続
- チャットチャンネルのシグナルが必要な場合は、Slack または Teams に CloudThinker ボットをインストール済みであること
- サードパーティシグナルが必要な場合は、アウトバウンド Webhook をサポートするモニタリングツール
モニタリングをインシデントに接続する
ソースを接続し、シグナルが届くことを確認し、アクショナブルなクラスターをインシデントにエスカレーションするエンドツーエンドのフローです。少なくとも 1 つのソースを追加する
AWS ポーラーを有効化するか、チャットチャンネルをサブスクライブするか、モニタリング Webhook を CloudThinker に向けます。以下の 3 つの手順でそれぞれのパスを説明します。
シグナルが届くことを確認する
モニタリングツールからテストアラートを送信するか、次のポーリングサイクルを待ちます。成功の確認: 新しいシグナルがカテゴリー・重要度・1 行の要約付きで Pulse フィードに表示されます。
AWS ポーリング
AWS ポーリングにより、Pulse はスケジュールに従って AWS アカウントから直接イベントを取得します。Webhook の設定は不要です。各ソースは接続ごとに有効化します。| ソース | Pulse が収集する内容 | 頻度 |
|---|---|---|
| CloudTrail | API 呼び出し監査ログ — 誰が、いつ、どのリソースに対して何をしたか | 5 分ごと |
| AWS Health | アカウントまたはリージョンに影響するサービスヘルスイベント | 5 分ごと |
| Cost Anomaly | AWS Cost Anomaly Detector が検出した支出急増 | 6 時間ごと |
| GuardDuty | 脅威インテリジェンスの検出結果 — 侵害されたインスタンス、疑わしい動作 | 定期的 |
| Config | Config ルールに対するリソース設定ドリフト | 定期的 |
| Access Analyzer | IAM および S3 のアクセス検出結果 — 過度に許可されたリソースや公開リソース | 定期的 |
ポーラーを有効化する
まず検証する
ソースの横にある 「検証」 をクリックします。Pulse がドライランを実行し、認証情報に必要な読み取り権限があることを確認します。成功の確認: チェックマーク ✓ が表示されれば準備完了。エラーコード(例:
AccessDenied)が表示された場合は不足している権限が示されます。Slack および Teams サブスクリプション
CloudThinker ボットがチャンネルに存在する場合、そのチャンネルのメッセージが Pulse シグナルになります。アラートボットの投稿、インシデント告知、オンコールのやり取りなどが、インフライベントと並んで分類されます。
プラットフォームを選択し、チャンネルを選び、ボットを招待して保存
サブスクリプションは個別にオン・オフを切り替えられます。設定を失わずにメンテナンスウィンドウ中にチャンネルをミュートする場合に便利です。
チャンネルタイプ
| タイプ | 最適な用途 |
|---|---|
| Alert(アラート) | 自動アラートボット専用のチャンネル |
| Communication(コミュニケーション) | 人間の議論用チャンネル — インシデントチャット、引き継ぎ |
| Mixed(混合)(デフォルト) | 自動アラートと人間のメッセージの両方を含むチャンネル |
サードパーティ Webhook
アウトバウンド Webhook をサポートするモニタリングツールであれば、Pulse にシグナルを送信できます。Datadog、Grafana、PagerDuty などは組み込みのフィールドマッピングを備えています。Webhook エンドポイントを作成する
CloudThinker の Webhooks に移動し、エンドポイントを作成します。完全な設定手順は Webhooks を参照してください。
モニタリングツールを接続先に向ける
生成された URL をツールの Webhook または通知設定に貼り付けます。プラットフォーム固有の手順、認証オプション、フィールドマッピングは Webhook インテグレーション にあります。
シグナルカテゴリー
すべてのシグナルは、ソースに関わらず 8 つのカテゴリーのいずれかに割り当てられます。| カテゴリー | 例 |
|---|---|
| Compute(コンピュート) | EC2 ステータス、Lambda タイムアウト、ECS 障害、コンテナの再起動 |
| Network(ネットワーク) | NAT ゲートウェイの異常、CloudFront の低下、VPC の変更 |
| Security(セキュリティ) | GuardDuty 検出結果、IAM 変更、S3 パブリックアクセス、WAF トリガー |
| Cost(コスト) | コスト異常、アイドルリソース、Savings Plan の減少、RI 期限切れ |
| Data(データ) | RDS 接続の問題、S3 オペレーション、データベースイベント |
| Deploy(デプロイ) | CodeDeploy、ECS ロールアウト、CloudFormation スタック変更 |
| Communication(コミュニケーション) | Slack および Teams のメッセージ、アラートボット通知 |
| Unclassified(未分類) | AI 分類器がカテゴリーを割り当てるまでのデフォルト |
次のステップ
クラスター
クラスターのライフサイクルをトリアージ — Active から Routed、そして Resolved へ
Webhook インテグレーション
Datadog、Grafana、PagerDuty などのプラットフォーム固有セットアップ
根本原因分析
エージェントがエスカレーションされたインシデントを確信ある根本原因まで調査する仕組み
Pulse アナリティクス
ソース全体でノイズ削減とシグナルトレンドを計測