챕터 2 · 자동화에서 자율성으로

AgenticOps는 40년에 걸친 진화의 네 번째 세대다. 그 계보를 이해하면 그 힘과 전제 조건이 모두 설명된다.

그림 2 — 운영의 네 세대. 각 세대는 이전 세대를 흡수하며; 4세대는 루프를 닫는다.

2.1 운영의 네 세대

세대	시대	핵심 아이디어	한계
1세대 · 수동 + 스크립트	1990년대–2010	인간이 운영하고; 셸 스크립트가 반복적 단계 처리	모든 것이 사람을 기다림; 부족 지식
2세대 · Infrastructure as Code	2010–2018	선언적 원하는 상태; CI/CD 파이프라인; 구성 관리	프로비저닝 자동화, 운영은 아님; 드리프트와 Day-2는 여전히 수동
3세대 · AIOps	2017–2024	이상 감지, 이벤트 상관관계, 노이즈 감소를 위한 ML	탐지하고 상관시키지만 결정하거나 행동하지 않음; “그래서 어쩌라고?” 격차
4세대 · AgenticOps	2024–	인지하고, 추론하고, 행동하고, 검증하는 목표 지향 에이전트	신뢰 아키텍처, 거버넌스, 새로운 운영 모델 필요

각 세대는 이전 세대를 대체하는 것이 아니라 흡수했다. AgenticOps는 IaC 위에서 실행되고(에이전트는 코드로 변경 사항을 표현하고), AIOps 방식의 신호를 소비하며(상관된 이벤트가 에이전트 입력이 되고), 여전히 스크립트를 생성한다(에이전트가 스크립트를 작성하고 실행한다). 변하는 것은 누가 루프를 닫느냐다.

2.2 AIOps가 부족했던 이유

AIOps는 공로를 인정받아야 한다: 이벤트 상관관계와 중복 제거는 실제로 작동하며, 지능적 상관관계는 원시 알림 량의 80–90%를 제거할 수 있다. 그러나 이 카테고리는 과잉 약속했다. Gartner는 2025년에 벤더의 용어 남용과 I&O 리더들의 광범위한 환멸을 이유로 “AIOps Platforms” 시장을 “이벤트 인텔리전스 솔루션”으로 재정의하기까지 했다. 기술은 지속됐지만 — 시장 자체가 인시던트를 탐지하는 것과 해결하는 것 사이의 격차를 인정했다. 세 가지 구체적인 단점이 AIOps의 한계를 정의했다.

원인 없는 상관관계. 50개의 알림을 하나의 인시던트로 묶는 것은 유용하다; 그러나 그것은 여전히 근본 원인이나 무엇을 해야 하는지를 알려주지 않는다.
블랙박스 출력. IT 전문가의 다수가 배포된 AIOps 플랫폼의 ML 출력을 해석하는 데 어려움을 겪는다고 보고한다. 추론 없는 결론은 신뢰를 얻지 못한다.
행동 수단 없음. 기존 AIOps는 티켓을 열거나 웹훅을 트리거할 수 있었지만, 조사하고, 가설을 세우고, 조치 방법을 선택하고, 실행하고, 수정을 검증할 수 없었다. 인간이 여전히 실행자였다.

2.3 무엇이 변했는가: 추론 모델, 도구, 프로토콜

2023년에서 2026년 사이 세 가지 기술적 돌파구가 에이전트 세대를 가능하게 했다.

프론티어 추론 모델. 대형 언어 모델이 로그, 구성, 코드를 읽고; 인과적 가설을 형성하고; 잘 정의된 도메인에서 엔지니어 수준의 판단으로 다단계 조치를 계획할 수 있는 임계점을 넘었다.
도구 사용과 컴퓨터 사용. 모델이 신뢰할 수 있는 함수 호출을 갖추게 됐다 — CLI 명령 실행, API 쿼리, kubectl과 Terraform 실행, 대시보드 읽기 능력 — 추론을 행동으로 전환하는.
상호운용성 표준. Model Context Protocol (MCP)이 에이전트를 도구와 데이터 소스에 연결하는 사실상의 표준으로 등장했으며, 수개월 만에 수천만 다운로드와 1,000개 이상의 서버 생태계에 도달했다 — 에이전트 레이어의 TCP/IP 순간.

검증 가능성이 에이전트가 먼저 성공하는 곳을 설명한다. 인프라 운영은 고도로 검증 가능한 도메인이다: 조치가 SLO를 복원하거나 그렇지 않거나; Terraform 플랜이 깔끔하게 적용되거나 그렇지 않거나; 헬스 체크가 통과하거나 실패하거나. 명확한 피드백 루프가 있는 도메인이 바로 자율 시스템을 확신을 갖고 배포할 수 있는 곳이다 — 운영이 코딩과 함께 에이전트 물결을 이끄는 이유가 여기에 있다.

2.4 벤더 신호

하이퍼스케일러들은 출시된 제품, 지명된 고객, 발표된 수치로 투표했다. AWS DevOps Agent는 AWS가 최초의 “프론티어 에이전트” 중 하나로 위치시킨 제품(Security Agent와 함께)으로, United Airlines, T-Mobile, Western Governors University를 런치 고객으로 하여 2026년 3월 31일에 GA에 도달했다; AWS는 미리 보기 고객이 MTTR 최대 75% 감소, 조사 80% 가속, 근본 원인 정확도 94%를 경험하고 있다고 보고하며, WGU는 예상 2시간이 걸릴 프로덕션 조사를 28분으로 압축했다고 설명한다. (모든 수치는 선택된 파일럿에서 벤더가 보고한 것이므로 적절히 할인하라 — 그러나 독립적 실무자들이 보고하는 40–70% 범위의 낙관적 끝에 위치한다.) Microsoft의 Azure SRE Agent는 Microsoft가 자체 자산에서 놀라운 규모로 실행한 후 2026년 3월에 GA로 출시됐다: 1,300개 이상의 에이전트, 35,000건 이상의 인시던트 완화, 20,000시간 이상의 엔지니어링 시간 절감. Google은 동일한 기능을 더 보수적으로 출시했다: Gemini Cloud Assist의 선제적 에이전트는 자율적으로 백그라운드에서 알림과 비용 이상을 조사하지만, 설계상 환경을 변경하지 않는다. 세 개의 클라우드, 하나의 패턴 — 모두 조사 우선 포지션으로 출시하고 고객 거버넌스 뒤에 행동을 게이팅했다 — 이는 지구상의 가장 큰 운영자들로부터 에이전트가 시작하는 신뢰의 양에 대한 공개적 인정이다: 없음 — 획득해야 한다. 시장은 그들과 함께 움직이고 있다: AIOps/AI-SRE 카테고리는 현재 약 $150억에서 2030년까지 $360억으로 성장할 것으로 예상된다.

핵심 교훈AIOps는 시스템을 가시화하고 신호를 이해 가능하게 만들었다. AgenticOps는 시스템을 운영 가능하게 만든다. 차이는 폐쇄된 루프다: 인지에서 추론, 행동, 검증으로 이어지며, 인간은 실행하는 것이 아니라 감독한다.

​2.1 운영의 네 세대

​2.2 AIOps가 부족했던 이유

​2.3 무엇이 변했는가: 추론 모델, 도구, 프로토콜

​2.4 벤더 신호

2.1 운영의 네 세대

2.2 AIOps가 부족했던 이유

2.3 무엇이 변했는가: 추론 모델, 도구, 프로토콜

2.4 벤더 신호