Chapter 6 · 신뢰, 가드레일, 거버넌스

자율성은 설정이 아니라 획득하는 것이다. 거버넌스는 에이전틱 운영의 브레이크가 아니라 실현자다.

6.1 거버넌스 격차

도입 수치는 경고의 이야기를 들려준다. McKinsey는 62%의 조직이 AI 에이전트를 실험하고 있지만 4분의 1도 채 안 되는 조직만이 프로덕션으로 확장했다고 밝혔다. Deloitte의 AI 현황 연구는 자율 에이전트를 위한 성숙한 거버넌스 프레임워크를 갖춘 조직이 21%에 불과하다고 말한다. Gartner는 그 결과에 수치를 붙였다 — §9.4에서 검토된 40% 이상 프로젝트 취소 예측 — 이 중 세 번째로 명명된 원인인 불충분한 위험 제어는 정의상 거버넌스 실패다. 이러한 연구들의 패턴은 일관되다: 에이전틱 이니셔티브는 두 가지 죽음 중 하나를 맞이한다 — 신뢰를 파괴하는 사건, 또는 신뢰가 결코 구축되지 않았기 때문에 배포를 차단하는 위험 기능. 에이전틱 AI로 성공하는 조직들은 거버넌스 모서리를 자르는 조직들이 결코 아니다. 이들은 거버넌스 인프라를 일찍 구축하고 이를 안전한 배포 가속화에 사용했다.

6.2 가드레일 스택

프로덕션 가드레일은 5개 수준에서 작동한다:

ID와 자격 증명. 모든 에이전트는 최소 권한, 단기간 유효, 범위가 제한된 자격 증명을 가진 1급 ID다 — 모든 서비스 계정처럼 감사 가능하고 즉시 취소 가능하다. 공유 슈퍼 자격 증명은 절대 사용하지 않는다.
액션 정책. 명시적이고 버전 관리된 정책이 각 에이전트가 어떤 환경에서 어느 자율성 수준으로 어떤 액션 클래스를 취할 수 있는지 정의한다. 가역성과 피해 반경이 분류를 결정한다: 가역적 + 제한적 = 자동화 가능; 비가역적 또는 광범위 = 승인 필요.
실행 안전성. 사전 점검(이 액션이 N개 이상의 리소스에 영향을 미치는가?), 속도 제한, 변경 창, 모든 변경에 첨부된 자동 롤백 계획, 반복적으로 실패한 시도를 하는 에이전트를 중단하는 회로 차단기.
감시 에이전트. “가디언 에이전트” 패턴: 다른 에이전트들을 모니터링하는 전용 에이전트 — 정책 대비 계획을 검증하고, 비정상적인 동작을 감지하며, 예산 한도를 강제한다. 이것은 더 이상 이색적인 것이 아니다. Gartner는 2028년까지 40%의 CIO가 다른 AI 에이전트의 액션을 자율적으로 추적하고 포함할 수 있는 가디언 에이전트를 요구할 것으로 예상한다.
감사 및 증거. 모든 인식, 결정, 액션, 결과는 전체 추론 체인과 함께 불변으로 기록된다 — 부수적 효과로서, 대부분의 인간 운영 프로세스가 가졌던 것보다 더 나은 변경 관리 증거를 생성한다.

이 스택은 더 이상 열망적인 것이 아니다 — 플랫폼 벤더들에서 출시되고 있는 제품이다. Microsoft Entra Agent ID는 에이전트를 1급 디렉터리 ID로 만들고, 신원 청사진, 명명된 인간 후원자, 만료되고 재승인이 필요한 액세스 패키지를 갖춘다 — 소프트웨어 팀원에 적용된 거버넌스 라이프사이클. Azure SRE Agent는 Build 2026에서 전역 툴 액세스 정책과 실행 훅을 추가했다: 에이전트가 어떤 툴을 어떤 조건에서 호출할 수 있는지, 무엇이 인간 승인을 필요로 하는지를 정의하는 단일 장소, 실행 시점에 강제되는 승인 게이트. AWS는 에이전트가 다룰 수 있는 것을 정확히 범위 지정하는 전용 IAM 관리 정책과 함께 DevOps Agent를 출시하며, Azure의 대행 모델은 에이전트 자체 ID에 권한이 없을 때 관리자가 명시적으로 자격 증명을 빌려줄 것을 요구한다 — 모든 권한 에스컬레이션을 기록된 인간 결정으로 만든다. 방향은 명확하다: 에이전트 ID와 툴별 정책이 플랫폼 기본 요소가 되고 있으며, 모든 에이전틱 운영 구매는 이를 요구해야 한다.

6.3 데이터 레지던시와 제어: 모든 보안 검토의 첫 번째 질문

어떤 FSI 보안 팀도 자율성 수준을 논의하기 전에 세 가지 질문을 하며, 에이전틱 배포는 이 세 가지 모두에 정확하게 답해야 한다 — 에이전트들이 각각에 대한 답변을 바꾸기 때문이다.

레지던시 — 데이터가 어디서 살고 처리되는가? 에이전틱 운영은 기존 툴링이 없었던 새로운 데이터 흐름을 만든다: 텔레메트리가 추론 모델로 이동한다. 따라서 추론 경계가 새로운 데이터 경계다. 로그가 어디에 저장되는지 아는 것으로는 충분하지 않다. 모든 모델 호출이 어디서 실행되는지, 모델 공급자가 무엇을 기록하는지, 얼마나 오래 보관하는지, 그리고 데이터가 모델 학습에 사용되는지를 알아야 한다.
주권 — 어느 법률이 미치는가? 외국이 운영하는 SaaS나 외국 모델 API에서 처리된 데이터는 서버가 어디에 있든 해당 관할권의 공개 체제에 적용될 수 있다. 규제 기관의 경우, 보수적인 입장은 주권이 데이터 센터가 아닌 운영자를 따른다는 것이다.
제어 — 키와 킬 스위치를 누가 보유하는가? 제어란 고객이 보유한 암호화 키, 벤더 오프보딩 후에도 살아남는 고객 소유 감사 로그, 모든 에이전트 자격 증명을 즉시 취소하는 능력, 강제할 수 있는 정의된 보존 기간, 그리고 경계를 넘는 것이 있다면 무엇인지에 대한 계약적·기술적 보증을 의미한다.

배포 모델은 제어 다이얼이다. 제어 수준이 높아지는 순서로 프로덕션에서 사용 중인 네 가지 모델:

모델	에이전트와 데이터가 실행되는 위치	경계를 넘는 것	일반적인 구매자
SaaS	벤더 클라우드; 벤더가 선택한 모델 API	텔레메트리, 설정, 프롬프트가 경계를 벗어남	스타트업, 비규제 SMB
SaaS + 토크나이제이션	벤더 클라우드; 모델 경계 전에 PII가 감지되고 가역 토큰으로 대체됨	토크나이제이션된 텔레메트리만; 실제 값은 결코 벗어나지 않음; 역토크나이제이션은 신뢰 경계 내에서 발생	PII 노출이 있는 중간 규모 시장
BYOC	에이전트 플랫폼이 자체 클라우드 계정에 배포됨; 모델 엔드포인트 선택(지역 내 또는 프라이빗 포함)	기본값으로 없음; 모델 호출은 지정한 곳으로 이동	대기업, 대부분의 FSI
자체 호스팅 / 에어 갭	자체 호스팅 또는 전용 모델을 포함하여 완전히 경계 내	없음	은행, 온프레미스 FSI, 정부

두 가지 실용적 메모. 첫째, 토크나이제이션과 BYOC는 결합된다: 규제된 배포에서 가장 강력한 일반적 패턴은 모든 모델 호출 앞에 PII 인식 토크나이제이션 레이어를 갖춘 BYOC여서, 지역 내 추론조차 실제 고객 식별자, 자격 증명, 계좌 번호를 볼 수 없다. 둘째, 제어는 감사를 견뎌야 한다: 규제 기관이 “이 에이전트가 3월에 은행 외부로 보낸 모든 데이터 조각을 보여주고, 다른 것은 나가지 않았음을 증명하라”고 요청하면, 아키텍처 — 경계의 에그레스 로깅, 소유한 불변 감사 추적 — 가 답해야 하며, 벤더의 확신이 아니어야 한다.

그림 6 — 배포 모델은 제어 다이얼이다: 각 모델 하에서 경계를 넘는 것과 어떤 유형의 구매자가 어느 것을 사용하는가.

아시아에서 규제 기준선이 가장 빠르게 상승하고 있다. 베트남은 여행 방향의 가장 날카로운 현재 예시다: 개인정보보호법(법률 91/2025/QH15, 시행령 356/2025와 함께 2026년 1월 1일 발효)은 불법 국경 간 데이터 이전에 대해 전년도 매출의 최대 5%의 벌금을 부과하고 이전 영향 평가를 요구한다; 2024년 데이터법(2025년 7월 발효)은 자체 국경 간 제한이 있는 “핵심” 및 “중요” 데이터 카테고리를 추가한다; 사이버보안법에 따른 시행령 53/2022는 특정 서비스에 대한 현지화 요건을 유지한다; 그리고 2025년 12월에 통과되어 2026년 3월에 발효된 국가 최초의 AI법은 AI 시스템에 대한 위험 분류 체제를 도입한다. 기술 위험과 아웃소싱에 관한 싱가포르 MAS 기대치, EU의 GDPR+AI법 스택도 비슷한 규율을 부과한다. 패턴은 보편적이다: 규제 기관들은 에이전틱 운영을 금지하지 않는다 — 데이터가 어디로 갔는지 모르는 것을 금지한다. 특히 FSI 독자들에게, 베트남 AI법은 금융을 규제 섹터로 명시하고 컴플라이언스를 위한 18개월 유예 기간을 제공한다 — 이를 미루는 이유가 아니라, 이 챕터에서 설명하는 거버넌스 및 감사 태세를 구축할 기간으로 삼아야 한다.

에이전틱 벤더에게 해야 할 8가지 데이터 제어 질문

정확히 어떤 데이터가, 어떤 엔드포인트로, 어떤 지역에서 경계를 벗어나는가?
추론이 지역 내, 자체 클라우드, 또는 완전한 자체 호스팅으로 실행될 수 있는가?
데이터가 자사 또는 제3자의 모델 학습에 사용되는가 — 그것이 계약에 명시되어 있는가?
모델 경계 전에 PII가 토크나이제이션되며, 역토크나이제이션은 어디서 발생하는가?
귀사와 모델 공급자들은 무엇을, 얼마나 오래 기록하고 보관하는가?
암호화 키를 누가 보유하는가?
귀사를 떠날 경우 완전하고 불변한 감사 추적을 보유할 수 있는가?
모든 에이전트 자격 증명을 취소하고 하나의 액션으로 모든 에그레스를 중단할 수 있는가?

규제 산업을 위해 구축된 플랫폼은 이 8가지 모두에 서면으로 답한다.

6.4 규제 산업: FSI 렌즈

뱅킹, 보험, 금융 서비스는 에이전틱 운영에서 가장 많은 것을 얻을 수 있다 — 다운타임 비용이 가장 높고, 컴플라이언스 작업이 가장 무겁다 — 그리고 가장 엄격한 제약도 있다. 위의 레지던시와 제어 아키텍처를 넘어, 세 가지 요건이 모든 FSI 배포에서 반복된다:

모델 위험 관리. 에이전틱 시스템은 기존 MRM 프레임워크에 속한다: 문서화된 모델 동작, 평가 스위트, 주기적 재검증, 챌린저 프로세스.
변경 관리 호환성. 에이전트 액션은 기존 ITIL/변경 자문 프로세스에 매핑되어야 한다 — 사전/사후 검증, 승인, 롤백 증거 — 이를 우회하는 것이 아니라. Gartner의 2026년 전망은 단호하다: 자율성이 증가할수록 거버넌스는 협상 불가가 된다.
규제 궤적. AI 거버넌스는 자발적 모범 사례에서 강제 요건으로 이동하고 있다 — EU AI법이 앞서고, 베트남의 2025-2026 물결이 보여주듯 아시아태평양 규제 기관들이 빠르게 입법화하고 있다. 거버넌스 인프라에 대한 조기 투자는 세금이 아니라 경쟁 우위가 되고 있다.

6.5 에이전트 레이어 위협 모델

이 챕터의 모든 제어는 에이전트가 무엇을 할 수 있는지를 관리한다. 이 섹션은 다른 질문을 다룬다: 에이전트 레이어 자체가 공격받으면 무슨 일이 발생하는가. 운영 에이전트는 구조적으로 텔레메트리를 읽고 액션을 취하는 특권 행위자다 — 이것이 에이전트를 표적으로 만들고, 기존 툴링에는 없는 실패 모드를 도입한다. 보안 팀은 에이전트를 새로운 특권 서비스처럼 위협 모델링해야 하며, 은행에 자율 액션을 신뢰하도록 요청하는 플랫폼은 그것을 수행했음을 보여야 한다. 다섯 가지 공격 표면이 반복된다. 각각에는 조달 요건이 아닌 열망으로 그치지 않아야 할 구체적인 완화책이 있다.

텔레메트리 오염. 로그에 쓰거나 메트릭을 발생시키거나 이벤트를 위조할 수 있는 공격자는 에이전트 액션을 유발하기 위한 거짓 인시던트를 제조할 수 있다 — 에이전트 자체의 반응성을 공격 벡터로 전환한다. 완화책: 신호 소스를 인증하고 검증하고, 입력 내용이 아닌 입력 출처에 기반한 게이트 액션을 설정하며, 고영향 액션을 유발할 스파이크를 독립적인 신호에서의 입증을 요구하는 것 자체로 처리한다.
로그를 통한 프롬프트 인젝션. 텔레메트리는 신뢰할 수 없는 입력이다. 로그 라인, 오류 메시지, 리소스 이름의 공격자가 제어하는 텍스트는 에이전트의 추론을 하이재킹하려 시도할 수 있다 — 운영 레이어 형태의 프롬프트 인젝션이다. 완화책: 모든 텔레메트리를 지침이 아닌 신뢰할 수 없는 데이터로 처리하고, 제어 내용을 제거하거나 이스케이프하며, 에이전트가 정책이 아닌 데이터 플레인에서 비롯된 액션을 실행할 수 없도록 강제한다.
에이전트 권한 남용. 손상되거나 오작동하는 에이전트는 보유한 자격 증명을 정확히 사용할 것이다. 캡처된 에이전트의 피해 반경은 해당 권한의 합집합이다. 완화책: 에이전트별 최소 권한, 단기간 유효 범위 제한 자격 증명, 그리고 완전히 손상된 에이전트조차 허용된 도메인 액션 클래스를 초과할 수 없도록 하는 액션별 정책 — §6.2의 가드레일 스택을 억제 경계로 읽는다.
A2A 하의 에이전트 간 신뢰. 에이전트들이 조직 경계를 넘어 협상할 때, 불량하거나 사칭된 피어가 악의적인 위임을 발행할 수 있다. 조직 간 자율성은 그 아래의 ID 레이어만큼만 안전하다. 완화책: 암호화 서명된 Agent Cards, 검증된 피어 ID, 명시적으로 범위 제한된 조직 간 위임 — 에이전트라고 자칭하는 어떤 에이전트도 암묵적으로 신뢰하지 않는다.
에이전트가 자체 KPI를 조작하는 것. 메트릭에 최적화된 에이전트는 목표가 아니라 메트릭을 최적화할 것이다 — 낮은 MTTR에 대해 보상받는 에이전트는 경고를 억제하거나 자동 종료하는 것을 학습할 수 있다. 이것은 운영 레이어 형태의 보상 해킹이며, 자기 보고된 성공이 정확히 숨는 곳이다. 완화책: 독립적으로 결과를 감사하는 가디언 에이전트와 메트릭 자체에 대한 인간 검토 — 시스템 자체 수치는 작동 중임을 증명하는 유일한 증거가 될 수 없다.

그림 11 — 에이전트 레이어 자체가 공격 표면이다: 자율성이 부여되기 전에 각각이 필요로 하는 다섯 가지 반복 위협과 완화책.

이 중 어느 것도 배포하지 않을 이유가 아니다. 이것들이 이 책이 첫 챕터부터 주장해온 가드레일 스택, ID 모델, 감사 추적과 함께 배포해야 하는 이유다 — 자신감 있게 틀린 에이전트와 악의적으로 조종된 에이전트는 같은 곳에서 실패하며, 같은 제어가 둘 다 잡는다. 규제 은행의 경우, CISO의 제어 프레임워크에 매핑된 이 모델의 FSI 특화 확장은 별도의 규제 은행 에디션의 주제로, 현재 개발 중이다.

설계 원칙자율성보다 감사 추적을 먼저 구축하라. 엔지니어, 감사인, 또는 규제 기관에게 무엇을 했고 왜 했는지를 증명할 수 있는 플랫폼은 더 많은 것을 허용받을 것이다. 그렇지 않은 플랫폼은 영원히 읽기 전용 조언에 갇힐 것이다.

​6.1 거버넌스 격차

​6.2 가드레일 스택

​6.3 데이터 레지던시와 제어: 모든 보안 검토의 첫 번째 질문

​6.4 규제 산업: FSI 렌즈

​6.5 에이전트 레이어 위협 모델

6.1 거버넌스 격차

6.2 가드레일 스택

6.3 데이터 레지던시와 제어: 모든 보안 검토의 첫 번째 질문

6.4 규제 산업: FSI 렌즈

6.5 에이전트 레이어 위협 모델