> ## Documentation Index
> Fetch the complete documentation index at: https://docs.cloudthinker.io/llms.txt
> Use this file to discover all available pages before exploring further.

# 챕터 1 · 운영 복잡성 위기

> 현대 인프라는 인간의 인지 용량을 초과했다. 더 이상 수학이 맞지 않는다.

*현대 인프라는 인간의 인지 용량을 초과했다. 더 이상 수학이 맞지 않는다.*

> *그림 1 — 복잡성은 기계 속도로 복합 증가하지만 팀 역량은 선형으로 증가한다. 이 격차가 AgenticOps의 근거다.*

## 1.1 복잡성은 복합 증가하지만 인력은 그렇지 않다

세 가지 힘이 함께 곱해져 위기를 만들어냈다. 마이크로서비스는 모놀리스를 독립적으로 배포되고 독립적으로 실패하는 수백 개의 서비스로 분해했다. 클라우드는 인프라를 프로그래밍 가능하고 탄력적으로 만들었다 — 따라서 끊임없이 변한다. AI 워크로드는 GPU 플릿, 벡터 데이터베이스, 추론 파이프라인, 그리고 새로운 종류의 비용 및 신뢰성 문제를 추가했다. 각 힘은 단독으로는 관리 가능하다. 함께 곱해지면, 어떤 인간 팀도 완전히 관찰하거나 통제할 수 없는 상태 공간을 만들어낸다.

그 결과는 모든 운영팀의 일상과 손익 계산서에 나타난다.

1. **알림 피로.** 일반적인 운영팀은 하루에 500–1,200개의 알림을 처리하며, 압도적 다수는 노이즈, 중복, 또는 단일 원인의 하위 증상이다. 엔지니어들은 읽기를 멈춘다. 정말 중요한 알림 하나가 묻혀버린다.

2. **조사 수고.** 수동 조사는 인시던트 시간의 대부분을 소비한다: 엔지니어들은 수십 개의 대시보드를 돌아다니고, 기가바이트 분량의 로그를 grep하고, 최근 배포를 다시 살펴본 뒤에야 가설을 세울 수 있다. 수리가 아닌 진단에 시간이 들어간다.

3. **비싼 다운타임.** Splunk와 Oxford Economics의 2026년 Global 2000 임원 2,000명 대상 연구는 계획되지 않은 다운타임을 연간 \$6,000억으로 추산하며 — 2년간 50% 증가 — 대형 조직은 연평균 \$9,500만의 매출 손실을 보고, 분당 약 \$15,000의 손실이 발생하며, 주요 인시던트 후에는 주가가 3.4% 하락한다.

4. **인재 부족.** 업계 설문조사는 지속적으로 약 3분의 2의 조직이 AI 시대 운영에 숙련된 엔지니어 부족에 시달린다고 나타낸다. 시니어 SRE는 비용이 많이 들고, 희귀하며, 새벽 3시 호출로 번아웃 상태다.

5. **도구에도 불구하고 증가하는 수고.** 최근 설문조사는 모니터링 투자가 급증함에도 엔지니어링 수고가 증가하고 있음을 보여준다. 더 많은 도구가 더 많은 신호를 생성하고; 더 많은 신호가 더 많은 작업을 생성한다 — 신호와 인간 사이에 무언가 지능적인 것이 없다면.

## 1.2 왜 기존 해답이 통하지 않게 됐는가

운영은 세 가지 방식으로 자체 확장을 시도했으며, 각각은 한계에 부딪혔다.

1. **더 많은 인력 고용.** 지수적 복잡성 증가에 맞선 선형 비용 증가. 노동 시장은 엔지니어를 공급할 수 없으며, 공급할 수 있다 해도 팀 규모에 따라 조정 오버헤드가 증가한다.

2. **더 많은 자동화 작성.** 스크립트와 런북은 알려진 것을 자동화한다. 구조적으로 취약하다: 모든 런북은 어제의 실패 패턴을 인코딩하며, 카탈로그 자체가 유지보수 부담이 된다. 실제로 피해를 주는 새로운 실패들은 빠져나간다.

3. **더 많은 대시보드 구매.** 관찰 가능성 벤더들은 시스템을 가시화했지만, 운영 가능하게 만들지는 못했다. 행동 없는 가시성은 병목을 대시보드를 읽는 인간에게로 다시 이동시킬 뿐이다.

구조적 문제는 세 가지 접근 방식 모두 실행 경로에 인간을 유지한다는 것이다. 모든 탐지, 진단, 조치는 궁극적으로 사람을 기다린다. 인간의 주의력이 시스템에서 가장 희소한 자원이며, 기존 해답은 모두 그것을 더 많이 소비한다.

## 1.3 이 책의 논지

<Info>
  **빅테크의 증거**

  복잡성이 가장 훌륭한 인력을 갖춘 팀마저 초과했다는 가장 명확한 증거는 하이퍼스케일러들이 자체 서비스에 적용한 결과에서 나온다. Microsoft는 현재 자체 서비스 전반에 걸쳐 1,300개 이상의 Azure SRE 에이전트를 운영하며, 35,000건 이상의 인시던트 완화와 20,000시간 이상의 엔지니어링 시간 절감을 보고한다 — 지구상에서 가장 깊은 운영 역량을 보유한 회사 내부에서. Google의 SRE 규율은 수년 전에 동일한 인정을 제도화했다: 발표된 실천 사례는 모든 SRE의 시간의 50%를 수고로 제한하는데, 이는 제한 없는 운영 부하가 인력 문제가 아닌 엔지니어링 실패로 인식되기 때문이다.
</Info>

<Tip>
  **핵심 논지**

  운영 복잡성은 이제 기계 속도로 증가한다. 기계 용량으로 운영할 수 있는 시스템만이 — 탐지하고, 분석하고, 해결하고, 검증하는 자율 에이전트 — 속도를 맞출 수 있다. 인간의 역할은 실행자에서 감독자로 이동한다: 의도를 설정하고, 결과적 변경을 승인하고, 결과를 소유하는 역할로.
</Tip>

이것은 먼 미래에 대한 예측이 아니며, 이견이 없는 것도 아니다 — 신뢰할 수 있는 설명은 두 사실 모두를 동시에 담아야 한다. Gartner의 2025년 12월 연구인 *Predicts 2026: AI Agents Will Transform IT Infrastructure and Operations*는 AI 에이전트가 향후 5년간 I\&O 팀, 역할, 운영 모델을 재편할 것을 예상하며, 에이전트 자율성과 신뢰가 성장함에 따라 기업들이 루프 안의 인간 참여를 꾸준히 줄일 것으로 본다. 그에 맞서는 것은 동일 기업의 예측으로, 에이전트 AI 프로젝트의 40% 이상이 2027년까지 — 비용 증가, 불분명한 가치, 또는 부적절한 위험 통제로 인해 — 취소될 것이라는 전망이다. 두 예측 모두 맞으며, 동일한 갈림길을 설명한다. 기술 궤적은 정해져 있다; 여러분의 프로그램이 변환된 다수에 속할지 취소된 40%에 속할지는 실행으로 결정된다 — 이 책이 가르치고자 하는 아키텍처, 거버넌스, 측정 규율이 바로 그것이다.