메인 콘텐츠로 건너뛰기
단계적이고 증거 기반의 채택 경로: 90일에 첫 번째 가치, 12개월에 새로운 운영 모델.

9.1 준비도: 에이전트가 필요로 하는 것

에이전트는 물려받은 환경을 증폭시킨다. 첫 번째 배포 전에, 다섯 가지 기반을 솔직하게 평가하라:
  1. 옵저버빌리티. 합리적인 커버리지를 갖춘 중앙화된 로그, 메트릭, 트레이스. 에이전트는 존재하지 않는 신호를 추론할 수 없다.
  2. 액세스 아키텍처. 에이전트별로 범위가 제한된 단기간 유효 자격 증명을 발급하는 능력. 오늘 모든 것이 하나의 관리자 키로 실행된다면, 먼저 그것을 수정하라.
  3. 진실의 원천. 에이전트가 다룰 표면에 대한 코드로서의 인프라(IaC), 부분적으로라도. IaC는 에이전트에게 안전한 변경 메커니즘을, 당신에게는 비교 가능한 감사 추적을 제공한다.
  4. 문서화된 의도. SLO, 런북, 아키텍처 메모 — 불완전해도 괜찮다. 없으면 안 된다. 이것이 에이전트의 컨텍스트 레이어가 된다.
  5. 책임감 있는 소유자. 자율성 정책을 설정할 권한과 온콜 로테이션을 이끌 신뢰성을 가진 명명된 수석 엔지니어.

9.2 90일 파일럿

단계집중종료 기준
기준선 및 범위1–2MTTR, 경고 볼륨, 페이지 수, 작업 시간 캡처. 하나의 경계 있는 도메인 선택(하나의 제품 인시던트 대응, 또는 하나의 계정 클라우드 비용).서명된 기준선; 범위 있는 도메인; 합의된 성공 지표
관찰 (L0–L1)3–6텔레메트리와 툴을 읽기 전용으로 연결. 에이전트들이 인간과 병렬로 모든 인시던트를 조사하고 엔지니어들이 분석을 채점한다.에이전트 근본 원인 분석의 ≥70%가 온콜에 의해 올바르거나 유용하다고 평가됨
승인 (L2)7–10에이전트들이 증거와 함께 완전한 해결책을 제안하고 인간이 원클릭으로 승인. 수락 및 롤백 비율 추적.≥80% 수락; 해로운 액션 없음; MTTR 가시적 개선
졸업 (L3)11–13가장 안전하고 가장 반복되는 5–10개 액션 클래스를 사전 승인. 에이전트가 행동하고 알림. 매주 모든 액션 검토.프로덕션에서 첫 번째 자율 해결; 기준선 대비 문서화된 MTTR 델타
가장 어려운 문제부터 시작하려는 충동을 억제하라. 파일럿의 역할은 영웅적 행위가 아닌 증거와 신뢰를 생성하는 것이다. 빈번하고 반복적인 인시던트가 있는 지루한 도메인 — Kubernetes 재시작, 디스크 압박, 인증서 만료, 비용 이상 — 이 통계적 신뢰를 가장 빠르게 생성한다.
그림 9 — 90일 파일럿: 자율성이 졸업하기 전에 서명된 종료 기준이 있는 네 단계.
이 파일럿 형태는 이제 단순한 신중함이 아닌 벤더 검증된 실천이다: AWS가 DevOps Agent에 대해 발표한 채택 가이던스 — 하나의 지역, 하나의 서비스, 몇 주 동안 권고만, 그 다음 확장 전에 MTTR 측정 — 는 다른 말로 이 로드맵의 관찰 및 승인 단계다. 하이퍼스케일러들이 자체 클라우드에서 자체 에이전트를 이렇게 게이트한다면, 은행은 건너뛰도록 설득되어서는 안 된다.

9.3 확장: 4–12개월

  1. 자율성만이 아닌 도메인을 확장하라. 전문가 추가 — 데이터베이스, 보안, 비용 — 를 한 번에 하나씩, 각각 동일한 관찰 → 승인 → 졸업 사다리를 거쳐.
  2. 거버넌스를 산업화하라. 자율성 정책을 문서에서 강제된 구성으로 이동시키고, 가디언/감시 레이어를 세우며, 에이전트 액션을 자동화된 증거와 함께 변경 관리에 통합하라.
  3. 메모리 해자를 구축하라. 컨텍스트 레이어를 의도적으로 큐레이션하라: 토폴로지, 컨벤션, 과거 인시던트, 부족 지식. 이곳이 배포가 비합리적으로 효과적이고 복사할 수 없게 되는 곳이다.
  4. 온콜을 재구성하라. 자율 해결 비율이 증가함에 따라 로테이션을 통합하고, 회수된 수석 시간을 예방 엔지니어링으로 전환하며, 에이전트 운영 및 자율성 정책 역할을 공식화하라.
  5. 끊임없이 보고하라. 대시보드를 월별로 발행하라 — MTTR 트렌드, 자율 해결 비율, 피한 페이지, 절감된 비용 — 엔지니어링과 비즈니스 모두에게. 자금 지원을 받는 프로그램은 측정되는 프로그램이다.

9.4 취소된 40%가 사망하는 방식

Gartner는 2027년 말까지 40% 이상의 에이전틱 AI 프로젝트가 취소될 것으로 예측하며, 세 가지 킬러를 명명한다: 증가하는 비용, 불명확한 비즈니스 가치, 불충분한 위험 제어. 운영에 특화해서, 그 추상화는 다섯 가지 구체적인 형태를 취한다. 각각은 알려진 해독제를 가진다:
  1. 졸업하지 못하는 파일럿. (불명확한 가치.) 조언 전용 영원히는 안전하게 느껴지고 아무것도 증명하지 못한다 — 그 다음 갱신이 도착할 때 보여줄 MTTR 델타가 없다. 해독제: 첫날에 서명된 졸업 기준, 일정에 따라 이행.
  2. 증거 전 자율성. (불충분한 위험 제어.) 새벽 3시에 자신감 있게 틀린 자율 액션 하나는 백 개의 좋은 것이 버는 것보다 더 많은 신뢰를 잃는다. 해독제: 절대 사다리 단계를 건너뛰지 말고, 속도를 설정하는 것은 열정이 아닌 수락 및 롤백 비율이어야 한다.
  3. 오케스트레이션 없는 툴 확산. (증가하는 비용과 불명확한 가치.) 다섯 개의 연결 안 된 포인트 에이전트는 추가 라이선스로 스위블 의자 문제를 재창조한다(§10.3이 단일 클라우드 에이전트에 걸쳐 추적하는 동일한 조율 세금, 한 레이어 위). 해독제: 하나의 오케스트레이터, 하나의 감사 추적, 하나의 대시보드.
  4. 무제한 모델 지출. (증가하는 비용.) 모든 잡음 있는 신호에서 프론티어 추론은 첫 번째 갱신 전에 ROI를 지운다. 해독제: 2계층 감지와 첫날부터 인시던트당 비용 추적.
  5. 툴 구매로 취급. (세 가지 모두.) 챕터 1의 실험-프로덕션 간격은 기술 간격이 아닌 운영 모델 간격이다. 해독제: 라이선스뿐만 아니라 역할 변경, 정책 작업, 신뢰 사다리에 예산을 배정하라.

9.5 배포하지 않을 때: 솔직한 자격 박탈 요인들

배포하기 전에 준비도 기준선을 마련한다. 이 섹션은 더 어려운 동반자다: 솔직한 답이 기다리는 경우. 구매자에게 자신들에게 “아니오”라고 말할 수 없는 사람을 불신하라고 말하는 책은 자체 카테고리에 대해서도 그것을 말할 수 있어야 한다. 아래 각 자격 박탈 요인은 먼저 무언가를 수정할 이유지 영구적인 판결이 아니다 — 하지만 이 중 어느 것을 통해 배포하는 것은 비싼 실망을 사는 것이다.
  1. 추론할 신호가 없다. 옵저버빌리티가 희박하거나 분산되어 있다면 — 대상 도메인에 걸쳐 중앙화된 로그, 메트릭, 트레이스가 없다면 — 에이전트는 추론할 것이 없고 노이즈에서 자신감 있게 추론할 것이다. 먼저 옵저버빌리티를 수정하라. 에이전트는 물려받은 환경을 증폭시키며, 맹점을 증폭시키면 자신감 있는 맹점이 된다.
  2. 모든 것이 하나의 공유 관리자 자격 증명으로 실행된다. 에이전트별로 범위가 제한된 단기간 유효 자격 증명을 발급할 수 없다면, 에이전트의 피해 반경을 제한하거나 손상된 것을 포함할 수 없다. 최소 권한 액세스가 실제가 될 때까지, 자율 액션은 에이전트가 아무리 뛰어나도 허용되지 않는 위험이다.
  3. 자율성 정책을 소유하는 사람이 없다. 자율성 정책을 설정하는 권한과 온콜 팀을 이끌 지위를 가진 명명된 수석 엔지니어가 없다면, 프로그램은 조언 모드에서 정체되거나 관리되지 않는 액션으로 돌진할 것이다. 소유자는 나중에 채울 역할이 아닌 전제 조건이다.
  4. 변경 관리가 기계가 시작한 변경을 수용할 수 없다. 변경 프로세스에 감사 추적이 있는 기계가 시작하고 인간이 승인한 변경을 위한 경로가 없다면, 에이전트 액션은 거버넌스를 우회하거나 — 규제 환경에서 허용되지 않음 — 완전히 차단될 것이다. 배포 중이 아니라 배포 전에 프로세스 질문을 해결하라.
  5. 첫 번째 대상이 가장 중요하고 가장 비가역적인 시스템이다. 핵심 경로에서 비가역적인 액션으로 시작하는 것은 신뢰 사다리를 뒤집는다. 유일한 사용 가능한 파일럿 도메인이 잘못된 액션이 치명적이고 회복 불가능한 것이라면, 경계 있고 가역적인 도메인이 사용 가능해질 때까지 기다리거나 — 아니면 의도적으로 그것을 만들어내라. 파일럿의 역할은 증거이지 영웅적 행위가 아니다.
준비도와 전혀 관계없는 시기 자격 박탈 요인도 있다: 조직이 운영 모델 변경 — 역할 재설계, 정책 작업, 신뢰 사다리 — 에 자금을 지원할 수 없고 라이선스만 구매한다면, 인프라가 아무리 준비되어 있어도 §9.4의 취소된 40%에 들어가게 될 것이다. 기술은 게이팅 요인이 아니다. 프로그램을 툴 구매가 아닌 변화로 실행하려는 의지가 그것이다.