메인 콘텐츠로 건너뛰기
정의가 중요하다. ‘에이전트’는 엔터프라이즈 소프트웨어에서 가장 남용되는 단어이기 때문이다.

3.1 실용적 정의

정의AgenticOps(Agentic Infrastructure Operations)는 자율 AI 에이전트가 운영 작업의 핵심 루프를 수행하는 운영 모델이다 — 조건 탐지, 원인 분석, 문제 해결, 결과 검증 — 클라우드 및 온프레미스 인프라 전반에 걸쳐, 명시적으로 인간이 정의한 정책 하에, 인간은 루프 안에서 실행하는 것이 아니라 루프 위에서 감독한다.
정의를 풀어보면: 이 의미에서 에이전트는 런북이 달린 챗봇이 아니며, LLM을 끼워 넣은 스크립트도 아니다. 진정한 운영 에이전트는 다섯 가지 속성을 가진다.
  1. 목표 지향적. 단계별 지침이 아닌 결과를 부여받는다 (“체크아웃 지연을 300ms 이하로 유지하라”; “월간 클라우드 지출을 예산 이내로 유지하라”).
  2. 인지적. 프롬프트를 기다리는 것이 아니라 텔레메트리 — 메트릭, 로그, 트레이스, 이벤트, 구성 상태, 비용 데이터 — 를 지속적으로 소비한다.
  3. 추론적. 인과적 가설을 형성하고 테스트하고, 대안적 조치를 평가하고, 엔지니어가 감사할 수 있는 언어로 사고 과정을 설명한다.
  4. 도구 사용적. 엔지니어들이 사용하는 동일한 인터페이스 — 클라우드 API, kubectl, Terraform, SQL, CI/CD — 를 통해 범위가 제한되고 감사 가능한 자격 증명으로 행동한다.
  5. 자기 검증적. 행동한 후, 의도한 결과가 달성됐는지 확인하고, 그렇지 않은 경우 에스컬레이션하거나 롤백한다.

3.2 자율성 스펙트럼

자율성은 이진법이 아니다. 성숙한 에이전트 플랫폼은 자율성을 정책 다이얼로 노출하며, 일반적으로 행동 클래스별, 환경별로 설정한다.
레벨이름에이전트 행동인간 역할
L0관찰모니터링하고 보고; 행동 없음모든 것을 실행
L1조언증거와 함께 조사하고 권고결정하고 실행
L2승인 후 행동완전한 조치 준비; 서명 대기원클릭 승인/거부
L3알림과 함께 행동사전 승인된 행동 클래스 실행; 인간에게 통보사후 검토
L4도메인 내 자율정책 내에서 제한된 도메인을 종단 간 소유정책 설정; 결과 감사
실제로 조직들은 서로 다른 레벨을 동시에 실행한다: 가역적이고 피해 반경이 낮은 행동(파드 재시작, 캐시 지우기, 레플리카 셋 스케일링, 자격 증명 교체)에는 L3–L4, 결과적 변경(스키마 마이그레이션, 보안 그룹 변경, 페일오버)에는 L2, 새로운 상황에는 L1. AgenticOps의 기술은 증거가 축적됨에 따라 행동 클래스를 사다리 위로 이동시키는 것이다 — 결코 더 빠르게는 아니다.
빅테크 실천: 스펙트럼은 이제 제품 현실이다L0–L4 스펙트럼은 이론적 구성이 아니다 — 하이퍼스케일러들이 출시하는 방식이다. Google의 Gemini Cloud Assist 선제적 조사는 명시적 설계에 따라 L1에서 실행된다 (모든 것을 조사하되, 아무것도 변경하지 않음). AWS의 DevOps Agent 자체 채택 가이드는 권고 전용 모드에서 시작하여 수주간 측정한 후 행동 권한을 부여하라고 한다. Azure SRE Agent는 다이얼을 직접 노출한다: 모든 행동이 “승인” 클릭을 기다리는 검토 모드와 도구별로 거버넌스되는 사전 승인 행동 클래스를 위한 권한 모드. 세 개의 클라우드가 독립적으로 동일한 단계적 자율성 포지션으로 수렴할 때, 그것이 에이전트가 처음 얻는 신뢰의 양에 대한 업계의 집단적 답변이다: 없음 — 획득해야 한다.
그림 3 — 자율성 다이얼: 행동 클래스가 증거에 따라 환경별로 L0에서 L4로 이동한다.

3.3 AgenticOps가 아닌 것

“에이전트 워싱”은 이제 Gartner가 명명할 만큼 흔해졌다: 벤더들이 의미 있는 에이전트 기능 없이 어시스턴트, 챗봇, RPA를 “에이전트”로 리브랜딩한다. 2025년 중반, Gartner는 수천 개의 에이전트 AI를 주장하는 벤더 중 약 130개만이 진짜라고 추정했다. 따라서 정확한 부정적 정의가 구매자의 최선의 방어책이다.
  1. 대시보드 위의 챗봇이 아니다. 텔레메트리에 대한 대화형 접근은 기능이지, 모델이 아니다. 인간이 답을 읽고 나서 작업하러 가야 한다면, 마케팅이 뭐라고 하든 여전히 3세대에 있는 것이다.
  2. 무인 운영이 아니다. 신뢰할 수 있는 실무자는 인간을 제거하는 것을 주장하지 않는다. 목표는 인간 레버리지다: 한 명의 엔지니어가 팀이 하던 작업을 감독하는 것.
  3. 엔지니어링 규율의 대체가 아니다. 에이전트는 주어진 환경을 증폭시킨다. 약한 관찰 가능성, 부재한 IaC, 문서화되지 않은 시스템은 약한 에이전트를 생성한다. 쓰레기 컨텍스트 인, 쓰레기 자율성 아웃.
  4. 모든 것을 하는 거대 모델 하나가 아니다. 다음 챕터에서 보여주듯이, 프로덕션 시스템은 단일 초대형 모델이 아닌 조율된 전문가 팀으로 수렴하고 있다.
다섯 가지 벤더 테스트“에이전트” 벤더에게 물어보세요:
  1. 시스템이 조치를 종단 간으로 실행할 수 있습니까, 아니면 권고만 합니까?
  2. 자체 결과를 검증하고 실패 시 롤백합니까?
  3. 행동 클래스별, 환경별로 자율성을 설정할 수 있습니까?
  4. 모든 행동에 완전하고 불변하는 추론 추적이 포함됩니까?
  5. 마지막 세 번의 프로덕션 배포에서 롤백률과 개입률이 어떠했습니까?
진정한 플랫폼은 다섯 가지 모두 증거로 답한다. 에이전트 워싱은 두 번째 질문에서 실패한다.

3.4 오늘날 에이전트가 소유할 수 있는 운영 작업의 범위

도메인대표적 에이전트 작업일반적 자율성 (2026)
인시던트 대응분류, 상관관계, 근본 원인 분석, 조치, 사후 인시던트 보고서L1–L3
클라우드 비용 (FinOps)적정 규모 조정, 유휴 리소스 정리, 약정 계획, 이상 감지L2–L4
Kubernetes 운영파드/노드 상태, 리소스 튜닝, 업그레이드 지원, 용량 계획L2–L3
데이터베이스 운영슬로우 쿼리 분석, 인덱스 조언, 복제 상태, 스토리지 예측L1–L3
보안 운영잘못된 구성 탐지, CVE 분류, IAM 위생, 컴플라이언스 증거L1–L2
변경 & 릴리스배포 전 위험 분석, 카나리 모니터링, 자동 롤백L2–L3
Infrastructure as Code드리프트 감지, 모듈 생성, 플랜 검토, 상태 위생L1–L3