> ## Documentation Index
> Fetch the complete documentation index at: https://docs.cloudthinker.io/llms.txt
> Use this file to discover all available pages before exploring further.

# 第1章 · 運用の複雑さ危機

> 現代のインフラは人間の認知能力を超えた。計算が合わなくなった。

*現代のインフラは人間の認知能力を超えた。計算が合わなくなった。*

> *図1 — 複雑さはマシンの速度で複利的に増大するが、チームのキャパシティは線形にしか成長しない。このギャップがエージェント運用の根拠だ。*

## 1.1 複雑さは複利的に増大するが、ヘッドカウントは違う

3つの力が掛け合わさって危機が生まれた。マイクロサービスはモノリスを、独立してデプロイされ独立して障害を起こす数百のサービスへと分解した。クラウドはインフラをプログラマブルでエラスティックにした — そして常に変化し続けるものにした。AI ワークロードは GPU フリート、ベクターデータベース、推論パイプライン、そしてコストと信頼性の新たな問題クラスを加えた。それぞれは単独では管理可能だ。掛け合わさると、どのチームも完全に観察するどころか制御することすら難しい状態空間を生む。

その結果は、あらゆるオペレーションチームの日常生活 — そして損益計算書に現れる。

1. **アラート疲れ。** 典型的なオペレーションチームは今や1日あたり500〜1,200件のアラートを処理する。その大多数はノイズ、重複、または単一原因の下流症状だ。エンジニアは読むのをやめる。重要な1件のアラートが埋もれる。

2. **調査のトイル。** 手動での調査がインシデント対応時間の大半を消費する。エンジニアは十数のダッシュボードを行き来し、ギガバイトのログを grep し、仮説すら立てられないうちに最近のデプロイを再生する。診断 — 修復ではなく — が時間を奪う。

3. **高コストなダウンタイム。** Splunk と Oxford Economics の2026年版 Global 2000 エグゼクティブ2,000名を対象とした調査では、計画外ダウンタイムが年間総額 \$6,000億に上ると試算されている — 2年で50%増 — 平均的な大企業が年間 \$9,500万の売上を失い、停止1分あたり約 \$15,000を失い、重大インシデント後に株価が3.4%下落している。

4. **人材不足。** 業界調査では、AI 時代の運用スキルを持つエンジニアが約3分の2の組織で不足していることが一貫して示されている。シニア SRE は高価で希少であり、午前3時のページで燃え尽きつつある。

5. **ツール投資増加にもかかわらず増えるトイル。** 最近の調査では、監視投資が急増しているにもかかわらず、エンジニアリングのトイルが増加していることが示されている。ツールが増えればシグナルが増え、シグナルが増えれば作業が増える — シグナルと人間の間にインテリジェントなものが存在しない限り。

## 1.2 なぜ旧来の答えが通用しなくなったか

運用は3つの方法でスケールしようとしてきたが、それぞれが限界に達している。

1. **人を増やす。** 指数関数的な複雑さの増大に対してコストが線形に増大する。労働市場はエンジニアを供給できず、供給できたとしても、チームサイズとともに調整オーバーヘッドが増大する。

2. **自動化を増やす。** スクリプトとランブックは既知のことを自動化する。設計上、もろいものだ。すべてのランブックは昨日の障害パターンをコード化しており、カタログ自体がメンテナンスの負担になる。実際に痛手を与える新規の障害 — それらはすり抜けてしまう。

3. **ダッシュボードを増やす。** オブザーバビリティベンダーはシステムを可視化したが、操作可能にはしなかった。アクションを伴わない可視性は、ボトルネックをダッシュボードを読む人間へと移動させるだけだ。

構造的な問題は、3つのアプローチすべてが人間を実行パスに置き続けることだ。すべての検出、診断、修復は最終的に人を待つ。人間の注意はシステムの中で最も希少なリソースであり、旧来の答えはすべてそれをより多く消費する。

## 1.3 この本の主張

<Info>
  **ビッグテックの証拠**

  最高の人員を擁するチームでさえ複雑さに追いつけなくなっていることの最も明確な証拠は、ハイパースケーラーが自社に対して運用を行っているケースから来る。Microsoft は現在、自社サービス全体で1,300以上の Azure SRE エージェントを実行しており、35,000件以上のインシデントを緩和し、20,000時間以上のエンジニアリング工数を節約したと報告している — おそらく地球上で最も深い運用力を持つと言える社内でのことだ。Google の SRE の規律は、同じことを何年も前に制度化した。その公開された実践では、無制限の運用負荷はスタッフィングの問題ではなくエンジニアリングの失敗であることを認識し、SRE の時間に占めるトイルの割合を50%に上限設定している。
</Info>

<Tip>
  **コアテーゼ**

  運用の複雑さは今やマシンの速度で増大している。マシンのキャパシティで動作するシステム — 検出し、分析し、解決し、検証する自律エージェント — だけがついていける。人間の役割は実行者から監督者へと移行する。意図を設定し、重要な変更を承認し、アウトカムを所有する立場へ。
</Tip>

これは遠い未来の予測でもなく、異論のないものでもない — 信頼できる説明は両方の事実を同時に保持しなければならない。Gartner の2025年12月のリサーチ *Predicts 2026: AI Agents Will Transform IT Infrastructure and Operations* は、AI エージェントが今後5年でインフラ＆運用のチーム、役割、運用モデルを再編し、エージェントの自律性と信頼が高まるにつれて企業がループ内の人間の関与を着実に減らすと予測している。それに対して同社は、2027年までにエージェント型 AI プロジェクトの40%以上がキャンセルされると予測している — コスト増大、価値の不明確さ、または不十分なリスク管理を理由に。両方の予測は正しく、同じ分岐点を描いている。技術の軌跡は定まっている。あなたのプログラムが変革された多数派に入るか、キャンセルされた40%に入るかは、実行によって決まる — この本が教えようとするアーキテクチャ、ガバナンス、計測の規律によって。