9.1 準備:エージェントがあなたに必要とするもの
エージェントは継承した環境を増幅します。最初のデプロイメントの前に、5つの基盤を正直に評価してください:- オブザーバビリティ。 合理的なカバレッジを持つ集中化されたログ、メトリクス、トレース。エージェントは存在しないシグナルを推論できません。
- アクセスアーキテクチャ。 エージェントごとにスコープされた短命のクレデンシャルを発行する能力。今日すべてが1つの管理者キーで動いているなら、まずそれを修正してください。
- 信頼できる情報源。 エージェントが触れる面のInfrastructure as Code、たとえ部分的でも。IaCはエージェントに安全な変更メカニズムを与え、あなたに差分可能な監査証跡を与えます。
- 文書化された意図。 SLO、ランブック、アーキテクチャノート — 不完全でも構いません;ないのは問題です。これがエージェントのコンテキストレイヤーになります。
- 説明責任のあるオーナー。 自律性ポリシーを設定する権限を持ち、オンコールローテーションを引き連れる信頼性を持つ、名前の通った上級エンジニア。
9.2 90日パイロット
| フェーズ | 週 | フォーカス | 終了基準 |
|---|---|---|---|
| ベースライン & スコープ | 1〜2 | MTTR、アラート数、ページ数、運用負荷時間を記録。1つの限定されたドメインを選択(1製品のインシデントレスポンス、または1アカウントのクラウドコスト)。 | 署名されたベースライン;スコープされたドメイン;合意された成功メトリクス |
| 観察(L0〜L1) | 3〜6 | テレメトリーとツールを読み取り専用で接続。エージェントはすべてのインシデントを人間と並行して調査;エンジニアが分析を採点。 | エージェントの根本原因分析の≥70%がオンコールによって正確または有用と評価 |
| 承認(L2) | 7〜10 | エージェントは証拠付きの完全な修復案を提案;人間がワンクリックで承認。受諾率とロールバック率を記録。 | ≥80%の受諾;有害なアクションゼロ;MTTRが目に見えて改善 |
| 昇格(L3) | 11〜13 | 最も安全で最も繰り返される5〜10のアクションクラスを事前承認。エージェントが実行して通知。すべてのアクションを毎週レビュー。 | プロダクションでの最初の自律解決;ベースラインに対する文書化されたMTTRデルタ |
図9 — 90日パイロット:4つのフェーズ、それぞれが自律性が昇格する前に署名された終了基準を持つ。このパイロットの形は、今や慎重さだけでなく、ベンダー検証済みの実践です:AWS DevOps Agentの公開された採用ガイダンス — 1リージョン、1サービス、数週間は推奨のみ、次にMTTRを測定してから拡大 — は、このロードマップの観察フェーズと承認フェーズを異なる言葉で表したものです。Azureの段階的ガバナンス管理も同じ進行を想定しています。ハイパースケーラーが自社クラウドで自社エージェントをこのようにゲートするなら、銀行がそれをスキップするよう説得されるべきではありません。
9.3 スケーリング:4〜12ヶ月
- 自律性だけでなくドメインを拡大する。 スペシャリストを追加します — データベース、セキュリティ、コスト — それぞれが同じ観察 → 承認 → 昇格のはしごを通じて。
- ガバナンスを産業化する。 自律性ポリシーを文書から強制された設定に移行します;ガーディアン/監視レイヤーを立ち上げます;エージェントのアクションを自動化された証拠とともに変更管理に統合します。
- メモリの堀を構築する。 コンテキストレイヤーを意図的にキュレートします:トポロジー、慣行、過去のインシデント、部族的知識。ここであなたのデプロイメントが非常に効果的になり、模倣不可能になります。
- オンコールを再編成する。 自律解決率が上昇するにつれ、ローテーションを整理し、回収されたシニアの時間を障害予防エンジニアリングに振り向け、エージェント運用と自律性ポリシーの役割を正式化します。
- 絶えずレポートする。 ダッシュボードを月次で公開してください — MTTRトレンド、自律解決率、回避されたページ、節約されたドル — エンジニアリングと事業部門の両方に。資金提供されるプログラムは測定されるプログラムです。
9.4 キャンセルされた40%の死に方
Gartnerは、2027年末までにエージェントAIプロジェクトの40%以上がキャンセルされると予測し、3つの要因を挙げています:エスカレートするコスト、不明確なビジネス価値、不十分なリスク管理。運用においては特に、これらの抽象概念が5つの具体的な形を取ります。それぞれに既知の解毒剤があります:- 決して昇格しないパイロット。(不明確な価値)。永遠にアドバイスオンリーは安全に感じられ、何も証明しません — その後、示すMTTRデルタなしに更新が来ます。解毒剤: 昇格基準を初日に署名し、スケジュール通りに守る。
- 証拠なしの自律性。(不十分なリスク管理)。午前3時に自信を持って間違えた1つの自律アクションは、100の正しいアクションが獲得するよりも多くの信頼を失います。解毒剤: はしごのステップを決してスキップしない。熱意ではなく受諾率とロールバック率でペースを設定する。
- オーケストレーションなしのツールスプロール。(エスカレートするコストと不明確な価値)。5つの接続されていないポイントエージェントは追加のライセンスで回転椅子問題を再現します(§10.3がシングルクラウドエージェントをまたいでトレースする同じ調整コスト、1層上)。解毒剤: 1つのオーケストレーター、1つの監査証跡、1つのダッシュボード。
- 無制限のモデル支出。(エスカレートするコスト)。すべてのノイズシグナルにフロンティア推論を実行すると、最初の更新前にROIを消滅させます。解毒剤: 2層センシングと初日からのインシデントあたりのコストトラッキング。
- ツール購入として扱う。(3つすべて)。第1章の実験からプロダクションへのギャップは、テクノロジーギャップではなく運用モデルギャップです。解毒剤: 役割の変更、ポリシー作業、信頼のはしごに予算を確保する — ライセンスだけでなく。
9.5 デプロイしない場合:正直な失格要件
デプロイ前に準備のベースラインを設けます。このセクションはその難しい補足です:正直な答えが待つことである場合。買い手に自分にノーと言えない人を信頼しないよう言う本は、自分のカテゴリーについてそれを言えるべきです。以下の各失格要件は、まず何かを修正する理由であり、永続的な評決ではありません — しかしそれらのいずれかを抱えてデプロイすることは高価な失望を買います。- 推論するシグナルがない。 オブザーバビリティが疎または断片化している場合 — 対象ドメインにわたる集中化されたログ、メトリクス、またはトレースがない場合 — エージェントは推論するものがなく、ノイズから自信を持って推論します。まずオブザーバビリティを修正してください;エージェントは継承した環境を増幅します。盲点を増幅すると、自信を持った盲点が生まれます。
- すべてが1つの共有管理クレデンシャルで動いている。 エージェントごとにスコープされた短命のクレデンシャルを発行できない場合、エージェントのブラスト半径を制限することも、侵害されたものを封じ込めることもできません。最小権限アクセスが実現するまで、自律的なアクションはエージェントの品質に関わらず受け入れ難いリスクです。
- 自律性ポリシーを所有する人間がいない。 自律性ポリシーを設定する権限を持ち、オンコールチームを引き連れる立場を持つ名前の通ったシニアエンジニアがいない場合、プログラムはアドバイザリーで行き詰まるか、ガバナンスなしのアクションへと突進します。オーナーは後で埋める役割ではなく、前提条件です。
- 変更管理がマシン起動の変更を収容できない。 変更プロセスに、監査証跡を持つマシン起動・人間承認の変更へのパスがない場合、エージェントのアクションはガバナンスを回避します — 規制対象環境では受け入れられません — または完全にブロックされます。デプロイ中ではなく、前にプロセスの問題を解決してください。
- 最初の対象が最も重要で最も不可逆なシステムだ。 不可逆的なアクションを持つコアパスで開始することは信頼のはしごを逆さにします。利用可能なパイロットドメインが間違ったアクションが壊滅的で回復不可能なものだけである場合、限定された可逆的なドメインが利用可能になるまで待ってください — またはそれを意図的に切り出してください。パイロットの仕事は証拠であり、英雄的行為ではありません。