메인 콘텐츠로 건너뛰기
에이전트 조직 설계는 곧 조직 설계다. 동일한 질문이 적용된다: 누가 무엇을 담당하는가, 누가 누구에게 보고하는가, 어떻게 업무를 인계하는가.

5.1 핵심 팀 구성

대부분의 프로덕션 배포는 소수의 명명된 에이전트 팀으로 수렴한다. 이름 짓기는 겉보기보다 중요하다: 안정적인 정체성을 가진 명명된 에이전트는 인간 팀원처럼 신뢰, 컨텍스트, 책임감을 축적한다 — 에이전트의 영속적 정체성은 그 자체로 이 시기의 주요 플랫폼 트렌드 중 하나다. 대표적인 팀 구성:
역할범위주요 책임
오케스트레이터 / SuperAgent크로스 커팅목표 분해, 태스크 라우팅, 멀티 도메인 인시던트, 인간 에스컬레이션, 보고
클라우드 엔지니어링 에이전트AWS / Azure / GCP / 로컬 클라우드프로비저닝 이슈, 네트워킹, 스케일링, 서비스 할당량, 비용 이상, IaC 드리프트
보안 에이전트AppSec + CloudSec잘못된 설정, OWASP 급 애플리케이션 리스크, CVE 트리아지, IAM 위생, 컴플라이언스 증거
데이터베이스 에이전트데이터 계층슬로우 쿼리, 잠금, 복제 지연, 인덱스 전략, 스토리지 예측, 백업 검증
Kubernetes 에이전트컨테이너 플랫폼파드 크래시 루프, OOM 킬, 노드 압박, HPA 튜닝, 업그레이드 준비
핵심 팀 외에도, 조직은 사용자 정의 에이전트를 추가한다 — 특정 사업 부문의 비용 최적화, 주요 애플리케이션의 성능, 플랫폼 팀의 생산성 워크플로우 등 자체 영역과 목표에 맞게 구성된 전문가들이다. 사용자 정의 에이전트는 오케스트레이터 중심 팀을 확장한다. 이들은 모델의 대안이 아닌 추가 요소다.

5.2 팀을 통한 업무 흐름

새벽 2시 40분에 발생하는 대표적인 프로덕션 인시던트를 생각해 보자: 결제 지연이 SLO를 위반한다.
  1. 감지. 감지 레이어가 지연 경고, 데이터베이스 연결 오류 급증, 22분 전에 완료된 배포를 단일 인시던트로 연관시키고 41개의 다운스트림 경고를 억제한다.
  2. 분석. 오케스트레이터가 데이터베이스와 Kubernetes 전문가를 병렬로 가동한다. 데이터베이스 에이전트는 새로운 N+1 쿼리 패턴으로 인한 연결 풀 고갈을 발견하고, Kubernetes 에이전트는 파드가 정상임을 확인하고 인프라 원인을 배제한다. 오케스트레이터는 두 결과물을 증거와 함께 근본 원인 가설로 통합한다: 새 배포가 쿼리 패턴을 도입했다.
  3. 해결. 정책상 SLO 위반 중 60분 미만의 배포에 대해 자동 롤백이 허용된다. 오케스트레이터가 롤백을 실행하고(L3 사전 승인된 액션), 전체 추론 체인을 인시던트 채널에 게시하며, 아무도 페이지 알림을 받지 않는다.
  4. 검증. 지연이 4분 이내에 기준선으로 돌아오고 오류율이 해소된다. 시스템이 SLO 회복을 확인하고, 문제가 된 쿼리를 명시한 엔지니어링 팀용 문제 티켓을 열고, 사후 인시던트 보고서 초안을 작성하며, 메모리에 패턴을 저장한다.
소요 시간: 10분 미만, 깨운 인간: 없음. 다음날 아침, 엔지니어가 보고서를 검토하고 쿼리를 수정하며 재배포를 승인한다. 이러한 역할 분담 — 기계가 새벽 2시 40분의 기계적 작업을 처리하고, 인간이 오전 9시의 엔지니어링 판단을 처리한다 — 이 모델이 의도대로 작동하는 방식이다.
그림 5 — 동일한 인시던트, 두 가지 운영 모델: 수 시간에 걸친 인간 대응 대 10분 미만의 닫힌 루프.

5.3 에이전트-인간 인터페이스

에이전트는 엔지니어가 있는 곳에 존재한다. 주요 인터페이스 패턴은 대화형 + 증거 방식이다: 에이전트들은 전체 추론 체인, 증거 링크, 원클릭 승인/거부 액션과 함께 Slack이나 Teams에 결과물, 계획, 승인 요청을 게시한다. 대시보드는 트렌드와 감사를 위해 유지되고, 운영 대화는 채팅에서 이루어진다. 두 가지 인터페이스 규칙이 특히 중요하다:
  1. 작업 내용을 보여준다. 모든 결론에는 검토한 데이터, 고려한 가설, 대안이 거부된 이유가 함께 제공된다. 투명한 추론은 엔지니어 신뢰의 가장 큰 동인이자, AIOps를 실패하게 했던 블랙박스 문제의 해독제다.
  2. 승인을 쉽게, 거부를 정보 있게 만든다. 승인은 전체 컨텍스트와 함께 원클릭이어야 하고, 거부는 이유를 기록해야 한다 — 모든 거부는 정책 조정을 위한 학습 신호이기 때문이다.

5.4 증거: 한계에 부딪힌 네 팀

이 챕터의 모든 팀은 동일한 벽에 부딪혔다: 인프라는 계속 성장하고, 운영자는 계속 늘어나며, 모든 인시던트의 시계는 멈추지 않았다. 그 중 네 팀이 이에 대응했다. 멀티 계정 AWS에 허덕이는 대출 기관. 단 1초의 다운타임도 허용되지 않는 결제 플랫폼. 세 가지 컴플라이언스 체제를 동시에 직면한 글로벌 SaaS. 수천 개의 클러스터를 수작업으로 운영하는 국가 통신사. 규모는 다르지만 같은 이야기 — 그리고 각각에서 에이전틱 운영이 결말을 바꿨다. 자신의 팀과 비슷한 팀을 찾아보라. 고객은 익명 처리되었고, 수치는 실제이며, 모두 시작점 대비 측정된 값이다 — 약속이 아닌 실적 기록이다.

1. 베트남 선도 소비자 금융 대출 기관

800개 이상의 지점과 수백만 명의 고객을 가진 대출 기관을 상상해보자. 이 기관의 AWS 환경은 너무 많은 계정에 걸쳐 성장해서 전체를 한 번에 조망할 수 있는 사람이 아무도 없었다. 급격한 성장이 운영 인력을 앞질렀다: 비용과 인시던트 관리는 수동이었고, 가시성은 계정 간에 분산되었으며, 대출 핵심 앱에 문제가 생기면 원인을 찾는 데 몇 시간의 계정 간 수색이 필요했다 — 그 시간 동안 대출이 실행될 수 없었다. 팀에게 필요한 것은 더 많은 대시보드가 아니라, 대시보드가 이미 보여주는 것에 기반하여 행동하는 무언가였다. 측정된 4주 기준 기간 동안, 에이전트 팀은 L1에서 시작해 모든 계정을 조사하고 운영자의 것에 맞서 근본 원인 분석을 검증했다. 그 분석이 신뢰를 얻자 L2로 승급했다 — 비용 및 위생 액션을 원클릭 승인을 위한 완전한 수정으로 준비하면서, 핵심 대출 경로는 내내 권고 모드로 유지되었다. 3개월 이내에 결과는 결정적이었다: 수동 운영 작업이 약 80% 감소하고, 근본 원인 파악이 몇 시간에서 몇 분으로 줄었으며, 최적화 가능한 AWS 지출의 약 30%가 회수되었고, 핵심 앱은 24/7 모니터링되었다. 팀이 도출한 교훈은 이 책이 반복하는 것이다: 승리는 가장 위험한 경로의 자율성에서 온 것이 아니라, 부족한 엔지니어들에게서 고용량 저위험 작업을 제거해 그들이 중요한 것을 감독할 수 있도록 한 데서 왔다.

2. 베트남 고성장 디지털 결제 플랫폼

시리즈 A 결제 기업이 플랫폼 팀을 밤새 깨어 있게 하는 문제에 직면했다: 3개의 프로덕션 Kubernetes 클러스터에 버전 업그레이드가 필요했고, 결제 분야에서는 다운타임의 허용 가능한 창이 없다 — 매 분의 중단이 처리되지 않는 거래를 의미한다. 게다가 RDS 레플리카 지출이 증가하고, 결제 핵심 앱의 감시가 위험 수준에 비해 얇았다. 팀은 액션이 가역적이고 잘 이해된 곳에서 에이전트 팀에게 더 높은 수준의 자율성을 부여했다 — Kubernetes 라이프사이클과 라이트사이징에서 L2-L3, 사전 승인된 액션 클래스 하에서의 자가 치유와 레플리카 스케일링 — 마이그레이션의 비가역적 단계는 인간 승인 뒤에 두었다. 업그레이드는 세 클러스터 모두에서 고객에게 보이는 다운타임 없이 완료되었고, 3개월 내에 레플리카 비용은 약 절반으로 줄었으며 월 실행 비용의 약 30%가 최적화되었다 — 모두 지속적인 모니터링 하에서. 팀이 얻은 교훈은 자율성이 속하는 곳에 관한 것이었다: 에이전트는 액션을 취소하고 검증할 수 있는 곳에서 가장 빠르게 움직였고, “불가능한” 1개월 업그레이드가 일상적인 것이 된 것은 바로 위험하고 비가역적인 단계가 인간 게이트 뒤에 있었기 때문이다.

3. 글로벌 AI / SaaS 플랫폼, 미국 / EU / APAC

글로벌 AI 플랫폼은 컴플라이언스 문제로 위장한 데드라인 문제를 안고 있었다. 투자자들은 SOC 2와 HIPAA 준비를 요구했고, 발자국은 GDPR 하에 세 지역에 걸쳐 있었으며, 운영 오버헤드는 폭발적으로 증가하고 있었고, 99.9% 가용성 목표가 이 모든 것 위에 걸려 있었다 — 보통 감사 준비에만 수석 엔지니어 시간의 사분기를 소비하는 종류의 멀티 프론트 압박이다. 여기서 에이전트들은 컴플라이언스 부담 자체를 향했다: 비용 및 운영 Keepers를 통한 L2-L3 운영 해결과 함께 컴플라이언스 가드레일의 L2 자동화, 나중에 재구성되는 것이 아니라 발생하면서 컴플라이언스 관련 모든 단계가 기록되었다. 글로벌 3개 지역 배포가 4주 만에 완성되었고, SOC 2, HIPAA, GDPR 준비가 3주 만에 이루어졌으며, 운영 작업 부하가 약 80% 감소하고 99.9% 가동 시간이 달성 및 검증되었다. 팀의 교훈은 컴플라이언스를 재정의했다: 작업을 수행하는 시스템이 지속적으로 증거 흔적을 생성할 때, 감사 준비는 더 이상 주기적인 혼란이 아니라 인프라가 실행되는 방식의 속성이 된다.

4. 베트남 Tier-1 통신사 클라우드 공급자, 메가 스케일

이제 전체 문제를 국가 단위로 확장해보자. Tier-1 통신사 클라우드 운영자는 여러 데이터 센터에 걸쳐 수천 개의 컴퓨팅 클러스터 규모의 인프라를 운영하고 있었다 — 그리고 그 규모를 아는 유일한 방법으로 처리하고 있었다: 사람으로. 수백 명의 운영자가 일상 작업을 수작업으로 수행하고, 정기적인 상태 점검을 실행하며, 구성 및 패치 드리프트를 추적하고, 규제된 국가 인프라 공급자를 위한 감사 증거를 수집했다 — 그럼에도 툴 수와 인원 수가 증가하면서 평균 복구 시간은 변하지 않았다. 이것이 챕터 1의 조율 세금이 국가 규모로 쓰인 것이다: 더 많은 손이 숫자를 움직이지 않았는데, 병목은 용량이 아니었기 때문이다. 이 참여는 이질적인 OpenStack 및 VMware 환경에서 구성 관리와 감사/컴플라이언스 자동화에 우선 집중하며 의도적으로 자율성을 단계적으로 도입하고 있다. 에이전트 팀은 플릿 전체에서 L1 조사로 시작하고, 일상적인 클러스터 상태 및 드리프트 액션에서 L2 승인 해결로 승급한 다음, 가장 안전하고 가장 반복되는 클래스 — 클러스터 재시작, 용량 조정, 인증서 교체 — 에서 L3 사후 알림으로 이동하며, 규제된 제어 경로는 내내 인간 승인 하에 유지되고 모든 액션은 국가 인프라 감사를 위한 불변 흔적을 남긴다. 목표는 현재 4주 이상의 측정 창에서 활성 구축 및 측정 중이다 — 대부분의 일상 L1/L2 운영자 작업을 흡수하여 부족한 운영자들이 실행에서 감독으로 이동하고, 주기적인 수동 감사 준비를 지속적인 기계 수집 증거로 교체하며, 마지막으로 MTTR을 플릿 크기에서 분리한다. 이 책의 자체 증거 규칙에 따라, 측정 창이 닫힌 후 수치가 발표될 것이다 — 이 이야기는 그것이 답하는 문제의 형태 때문에 포함되었다: 인원으로 운영을 확장하는 것이 단순히 작동을 멈추는 시점. 이 책의 명시된 독자층을 위한 솔직한 주의사항이 하나 있다. 이 네 가지 중 어느 것도 중앙은행 감독 체제 하에서 핵심 뱅킹 시스템을 운영하는 Tier-1 상업 은행이 아니다. 그러한 기관 내의 독자는 이를 강력한 인접 증거 — 소비자 금융, 결제, 규제된 글로벌 SaaS, 국가 통신 클라우드 인프라 — 로 읽어야지, 동일한 핵심 뱅킹 레퍼런스로 읽어서는 안 된다. 이 특정 간격을 좁히는 것은 감독 받는 은행의 관점에서 작성된 별도의 규제 은행 에디션의 주제로, 현재 개발 중이다. 실제 이전/이후 기준이 있는 규제 은행 사례가 여기에 게시될 수 있을 때까지, 이 책은 그것을 주장하지 않을 것이다.
빅테크 실천: 콘솔이 아닌 팀원으로서의 에이전트세 클라우드 모두 새로운 대시보드가 아닌 팀원 모델을 출시했다. AWS DevOps Agent는 Slack과 ServiceNow 내에서 작동하고, CloudWatch나 PagerDuty 경고에서 자동으로 조사를 시작하며, 중복 티켓을 연결해 소음을 원천에서 억제하고, 팀이 자체 런북을 재사용 가능한 “skills”로 인코딩할 수 있게 한다. Azure SRE Agent는 사용자 정의 하위 에이전트를 지원하여 조직이 자체 전문가로 핵심 팀을 확장할 수 있으며, ServiceNow, PagerDuty, GitHub에 대한 내장 및 사용자 정의 MCP 서버를 통해 외부로 연결된다. 모든 배포에 대한 공통 교훈: 엔지니어가 이미 사용하는 툴에서 만나고, 모든 결과물에 전체 추론을 보여주며, 조직 지식 — 런북, 컨벤션, 장애 패턴 — 을 에이전트가 자동으로 적용하는 1급 입력으로 만들어라.