Chương 3 · AgenticOps Thực sự Là Gì

Định nghĩa quan trọng, vì “agent” là từ bị lạm dụng nhất trong phần mềm doanh nghiệp.

3.1 Một định nghĩa làm việc

ĐỊNH NGHĨAAgentic infrastructure operations (AgenticOps) là một mô hình vận hành trong đó các AI agent tự trị thực hiện vòng lặp cốt lõi của công việc vận hành — phát hiện điều kiện, phân tích nguyên nhân, giải quyết vấn đề và xác nhận kết quả — trên hạ tầng đám mây và on-premise, theo chính sách do con người định nghĩa rõ ràng, với con người giám sát trên vòng lặp thay vì thực thi trong vòng lặp.

Phân tích định nghĩa này: một agent theo nghĩa này không phải là chatbot kèm runbook, và cũng không phải script gắn thêm LLM. Một agent vận hành thực thụ có năm thuộc tính:

Hướng mục tiêu. Nó được cho kết quả (“giữ latency checkout dưới 300ms”; “giữ chi tiêu đám mây hàng tháng trong ngân sách”), không phải hướng dẫn từng bước.
Nhận thức. Nó liên tục tiêu thụ telemetry — metric, log, trace, sự kiện, trạng thái cấu hình, dữ liệu chi phí — thay vì chờ được nhắc.
Lý luận. Nó đưa ra và kiểm tra các giả thuyết nhân quả, cân nhắc các biện pháp khắc phục thay thế và giải thích suy nghĩ bằng ngôn ngữ mà kỹ sư có thể kiểm toán.
Sử dụng công cụ. Nó hành động thông qua các giao diện tương tự mà kỹ sư sử dụng — cloud API, kubectl, Terraform, SQL, CI/CD — với thông tin xác thực có phạm vi, có thể kiểm toán.
Tự xác minh. Sau khi hành động, nó kiểm tra xem kết quả mong muốn có đạt được không, và leo thang hoặc rollback khi không đạt được.

3.2 Phổ tự trị

Tự trị không phải là nhị phân. Các nền tảng agentic trưởng thành expose tự trị như một dial chính sách, thường theo loại hành động và theo môi trường:

Cấp	Tên	Hành vi agent	Vai trò con người
L0	Quan sát	Giám sát và báo cáo; không thực hiện hành động	Thực thi mọi thứ
L1	Tư vấn	Điều tra và đề xuất kèm bằng chứng	Quyết định và thực thi
L2	Hành động với phê duyệt	Chuẩn bị biện pháp khắc phục đầy đủ; chờ xác nhận	Phê duyệt/từ chối một cú nhấp
L3	Hành động có thông báo	Thực thi các loại hành động đã được phê duyệt trước; thông báo cho con người	Xem lại sau khi thực hiện
L4	Tự trị trong lĩnh vực	Sở hữu một lĩnh vực có giới hạn từ đầu đến cuối theo chính sách	Đặt ra chính sách; kiểm toán kết quả

Trong thực tế, các tổ chức chạy các cấp độ khác nhau đồng thời: L3–L4 cho các hành động có thể đảo ngược, bán kính nổ thấp (khởi động lại pod, xóa cache, mở rộng replica set, xoay vòng thông tin xác thực), L2 cho các thay đổi quan trọng (migration schema, thay đổi security group, failover), và L1 cho bất kỳ thứ gì mới lạ. Nghệ thuật của agentic operations là nâng dần các loại hành động lên thang khi bằng chứng tích lũy — không bao giờ nhanh hơn thế.

THỰC HÀNH BIG TECH: PHỔ NÀY ĐÃ LÀ THỰC TẾ SẢN PHẨMPhổ L0–L4 không phải là cấu trúc lý thuyết — đó là cách các hyperscaler ship. Các cuộc điều tra chủ động của Gemini Cloud Assist của Google chạy ở L1 theo thiết kế rõ ràng (điều tra tất cả, không thay đổi gì). Hướng dẫn áp dụng của AWS cho DevOps Agent là bắt đầu ở chế độ chỉ đề xuất và đo lường trong nhiều tuần trước khi cấp quyền hành động. Azure SRE Agent expose dial trực tiếp: chế độ Review nơi mọi hành động chờ nhấp “Approve”, và chế độ đặc quyền cho các loại hành động đã được phê duyệt trước, được quản trị theo từng công cụ. Khi cả ba đám mây độc lập hội tụ vào cùng một tư thế tự trị có phân cấp, đó là câu trả lời tập thể của ngành về mức độ tin tưởng mà agent bắt đầu với: không có gì — nó phải tự kiếm lấy.

Hình 3 — Dial tự trị: các loại hành động nâng dần từ L0 đến L4 dựa trên bằng chứng, theo từng môi trường.

3.3 AgenticOps không phải là gì

“Agent washing” hiện phổ biến đến mức Gartner đã đặt tên cho nó: các nhà cung cấp đổi thương hiệu assistant, chatbot và RPA thành “agent” mà không có khả năng agentic thực chất. Vào giữa năm 2025, Gartner ước tính trong số hàng nghìn nhà cung cấp tự nhận là agentic AI, chỉ khoảng 130 là thực. Vì vậy, định nghĩa tiêu cực chính xác là lá chắn tốt nhất của người mua:

Không phải chatbot trên dashboard của bạn. Truy cập hội thoại vào telemetry là một tính năng, không phải mô hình. Nếu con người phải đọc câu trả lời rồi đi làm việc, bạn vẫn ở Gen 3 — dù marketing nói gì đi nữa.
Không phải vận hành không người giám sát. Không có nhà thực hành uy tín nào ủng hộ việc loại bỏ con người. Mục tiêu là đòn bẩy con người: một kỹ sư giám sát công việc từng cần một nhóm.
Không phải thay thế cho kỷ luật kỹ thuật. Agent khuếch đại môi trường được cung cấp cho chúng. Observability yếu, IaC không có, và hệ thống không được tài liệu hóa tạo ra agent yếu. Rác vào, tự trị rác ra.
Không phải một model khổng lồ làm tất cả mọi thứ. Như chương tiếp theo cho thấy, các hệ thống production đang hội tụ về các nhóm chuyên gia được điều phối, không phải siêu model nguyên khối.

BÀI KIỂM TRA NHÀ CUNG CẤP NĂM CÂU HỎIHỏi bất kỳ nhà cung cấp “agentic” nào:

Hệ thống có thể thực thi một biện pháp khắc phục từ đầu đến cuối, hay chỉ đề xuất?
Nó có xác minh kết quả của chính mình và rollback khi thất bại không?
Quyền tự trị có thể được đặt theo từng loại hành động và từng môi trường không?
Mỗi hành động có mang đầy đủ nhật ký lý luận bất biến không?
Tỷ lệ rollback và can thiệp trong ba lần triển khai production gần nhất là bao nhiêu?

Một nền tảng thực thụ trả lời tất cả năm câu hỏi bằng bằng chứng. Agent washing thất bại từ câu hỏi thứ hai.

3.4 Phạm vi công việc vận hành mà agent có thể đảm nhận ngày nay

Lĩnh vực	Các tác vụ agent đại diện	Mức tự trị điển hình (2026)
Ứng phó sự cố	Phân loại, tương quan, phân tích nguyên nhân gốc rễ, khắc phục, báo cáo sau sự cố	L1–L3
Chi phí đám mây (FinOps)	Điều chỉnh kích thước, dọn dẹp tài nguyên nhàn rỗi, lập kế hoạch cam kết, phát hiện bất thường	L2–L4
Vận hành Kubernetes	Sức khỏe pod/node, điều chỉnh tài nguyên, hỗ trợ nâng cấp, lập kế hoạch dung lượng	L2–L3
Vận hành cơ sở dữ liệu	Phân tích truy vấn chậm, tư vấn index, sức khỏe replication, dự báo lưu trữ	L1–L3
Vận hành bảo mật	Phát hiện cấu hình sai, phân loại CVE, vệ sinh IAM, bằng chứng tuân thủ	L1–L2
Thay đổi & phát hành	Phân tích rủi ro trước khi triển khai, giám sát canary, rollback tự động	L2–L3
Infrastructure as Code	Phát hiện drift, tạo module, xem xét plan, vệ sinh state	L1–L3

​3.1 Một định nghĩa làm việc

​3.2 Phổ tự trị

​3.3 AgenticOps không phải là gì

​3.4 Phạm vi công việc vận hành mà agent có thể đảm nhận ngày nay

3.1 Một định nghĩa làm việc

3.2 Phổ tự trị

3.3 AgenticOps không phải là gì

3.4 Phạm vi công việc vận hành mà agent có thể đảm nhận ngày nay