図1 — 複雑さはマシンの速度で複利的に増大するが、チームのキャパシティは線形にしか成長しない。このギャップがエージェント運用の根拠だ。
1.1 複雑さは複利的に増大するが、ヘッドカウントは違う
3つの力が掛け合わさって危機が生まれた。マイクロサービスはモノリスを、独立してデプロイされ独立して障害を起こす数百のサービスへと分解した。クラウドはインフラをプログラマブルでエラスティックにした — そして常に変化し続けるものにした。AI ワークロードは GPU フリート、ベクターデータベース、推論パイプライン、そしてコストと信頼性の新たな問題クラスを加えた。それぞれは単独では管理可能だ。掛け合わさると、どのチームも完全に観察するどころか制御することすら難しい状態空間を生む。 その結果は、あらゆるオペレーションチームの日常生活 — そして損益計算書に現れる。- アラート疲れ。 典型的なオペレーションチームは今や1日あたり500〜1,200件のアラートを処理する。その大多数はノイズ、重複、または単一原因の下流症状だ。エンジニアは読むのをやめる。重要な1件のアラートが埋もれる。
- 調査のトイル。 手動での調査がインシデント対応時間の大半を消費する。エンジニアは十数のダッシュボードを行き来し、ギガバイトのログを grep し、仮説すら立てられないうちに最近のデプロイを再生する。診断 — 修復ではなく — が時間を奪う。
- 高コストなダウンタイム。 Splunk と Oxford Economics の2026年版 Global 2000 エグゼクティブ2,000名を対象とした調査では、計画外ダウンタイムが年間総額 $6,000億に上ると試算されている — 2年で50%増 — 平均的な大企業が年間 $9,500万の売上を失い、停止1分あたり約 $15,000を失い、重大インシデント後に株価が3.4%下落している。
- 人材不足。 業界調査では、AI 時代の運用スキルを持つエンジニアが約3分の2の組織で不足していることが一貫して示されている。シニア SRE は高価で希少であり、午前3時のページで燃え尽きつつある。
- ツール投資増加にもかかわらず増えるトイル。 最近の調査では、監視投資が急増しているにもかかわらず、エンジニアリングのトイルが増加していることが示されている。ツールが増えればシグナルが増え、シグナルが増えれば作業が増える — シグナルと人間の間にインテリジェントなものが存在しない限り。
1.2 なぜ旧来の答えが通用しなくなったか
運用は3つの方法でスケールしようとしてきたが、それぞれが限界に達している。- 人を増やす。 指数関数的な複雑さの増大に対してコストが線形に増大する。労働市場はエンジニアを供給できず、供給できたとしても、チームサイズとともに調整オーバーヘッドが増大する。
- 自動化を増やす。 スクリプトとランブックは既知のことを自動化する。設計上、もろいものだ。すべてのランブックは昨日の障害パターンをコード化しており、カタログ自体がメンテナンスの負担になる。実際に痛手を与える新規の障害 — それらはすり抜けてしまう。
- ダッシュボードを増やす。 オブザーバビリティベンダーはシステムを可視化したが、操作可能にはしなかった。アクションを伴わない可視性は、ボトルネックをダッシュボードを読む人間へと移動させるだけだ。
1.3 この本の主張
ビッグテックの証拠最高の人員を擁するチームでさえ複雑さに追いつけなくなっていることの最も明確な証拠は、ハイパースケーラーが自社に対して運用を行っているケースから来る。Microsoft は現在、自社サービス全体で1,300以上の Azure SRE エージェントを実行しており、35,000件以上のインシデントを緩和し、20,000時間以上のエンジニアリング工数を節約したと報告している — おそらく地球上で最も深い運用力を持つと言える社内でのことだ。Google の SRE の規律は、同じことを何年も前に制度化した。その公開された実践では、無制限の運用負荷はスタッフィングの問題ではなくエンジニアリングの失敗であることを認識し、SRE の時間に占めるトイルの割合を50%に上限設定している。