Chuyển đến nội dung chính
Phân tích Nguyên nhân Gốc rễ (RCA) là cỗ máy điều tra của Deep Response Engine. Các tác nhân chuyên biệt tiến hành điều tra theo giả thuyết, xây dựng chuỗi bằng chứng có cấu trúc và đề xuất biện pháp khắc phục — với khả năng hiển thị đầy đủ logic lý luận ở mỗi bước.

Cách cuộc điều tra diễn ra

  1. Kích hoạt — một incident được tạo, hoặc tự động khi một cluster Pulse leo thang hoặc thủ công từ trang chi tiết incident. Các leo thang cluster truyền tóm tắt cluster và tất cả tín hiệu thành viên vào ngữ cảnh của tác nhân, do đó điều tra bắt đầu với toàn bộ lịch sử tín hiệu đã được tải. CloudThinker xếp hàng một tác vụ RCA ở nền và mở một cuộc trò chuyện AI riêng biệt.
  2. Kích hoạt tác nhânAnna điều phối cuộc điều tra trong khi các chuyên gia phụ trách lĩnh vực của họ, dựa trên hạ tầng đã kết nối của bạn.
  3. Thu thập ngữ cảnh — các tác nhân khám phá topo hạ tầng, thu thập số liệu cơ bản, xác định các dịch vụ bị ảnh hưởng và kiểm tra các triển khai và thay đổi cấu hình gần đây.
  4. Phân tích — các tác nhân hình thành các giả thuyết cạnh tranh và kiểm tra từng giả thuyết với log, trace và các phụ thuộc.
  5. Giải quyết — giả thuyết được xác nhận trở thành nguyên nhân gốc rễ. Bằng chứng được chắt lọc, đề xuất khắc phục được tạo ra và một disposition được đặt với điểm tin cậy.
Tác nhânĐiều tra
Alex (Cloud Engineer)Hạ tầng cloud — EC2, load balancer, VPC networking
Tony (Database Engineer)Hiệu suất RDS Aurora và DocumentDB, slow query, cạn kiệt connection pool
Kai (Kubernetes Engineer)Sức khỏe pod, container restart, resource limit, cấu hình service mesh trên EKS
Oliver (Security Engineer)Security group, network policy, quyền IAM, các chế độ lỗi liên quan đến bảo mật
Anna (General Manager)Điều phối và tổng hợp đa lĩnh vực
Các tác nhân điều tra song song trên các lĩnh vực này và tương quan kết quả theo thời gian thực. Nguyên nhân gốc rễ nổi lên ngay cả khi triệu chứng xuất hiện ở xa vấn đề cơ bản.

Các giai đoạn điều tra

RCA tuân theo quy trình ba giai đoạn có cấu trúc. Khi các tác nhân chuyển sang giai đoạn mới, giai đoạn trước sẽ tự động hoàn thành nếu vẫn đang tiến hành.
Giai đoạnMục tiêuHoạt động
1. Thu thập ngữ cảnhThiết lập điều kiện cơ bảnLập bản đồ các dịch vụ và phụ thuộc bị ảnh hưởng qua topology; thu thập số liệu từ CloudWatch, Prometheus và Datadog; so sánh số liệu incident với cơ sở lịch sử; xác định các triển khai và thay đổi cấu hình gần đây
2. Phân tích và kiểm tra giả thuyếtThu hẹp nguyên nhân gốc rễTạo ra các lý thuyết cạnh tranh từ triệu chứng; thu thập log, trace, phụ thuộc và bằng chứng tài nguyên; loại trừ giả thuyết mà bằng chứng mâu thuẫn; theo dõi độ tin cậy khi bằng chứng tích lũy
3. Giải quyếtXác định nguyên nhân gốc rễ với bằng chứngGiải quyết tất cả giả thuyết còn lại; xác nhận giả thuyết thắng là nguyên nhân gốc rễ; chắt lọc bằng chứng mạnh nhất; tạo các bước khắc phục; đặt disposition và điểm tin cậy
Các tác nhân phải thu thập bằng chứng hỗ trợ và điều tra đủ lâu trước khi xác nhận bất kỳ giả thuyết nào.
Đặt disposition là bắt buộc để đóng cuộc điều tra. Nếu không có, incident vẫn ở trạng thái Investigating.

Chuỗi bằng chứng

RCA xây dựng một chuỗi bằng chứng có cấu trúc với các tính toán tự động. Mỗi mục có thể liên kết với một giả thuyết cụ thể để cho thấy phát hiện nào hỗ trợ từng lý thuyết.
Loại bằng chứngNhững gì nó ghi lạiTrường
Số liệuSo sánh incident với cơ sở cùng phần trăm độ lệch được tính tự động — ví dụ: “CPU 95% so với cơ sở 25% = độ lệch 280%“incident_value, baseline_value, baseline_period, threshold, unit
Triển khai và thay đổiCác thay đổi gần đây với delta thời gian được tính tự động từ khi incident bắt đầu; delta dương = trước incident (có khả năng là nguyên nhân)type, description, timestamp, correlation, service
LogCác mục log liên quan với liên kết sâu đến các console log như CloudWatch, Splunk và Datadogsource, description, deep_link, timestamp, severity
TraceDữ liệu distributed trace cho thấy luồng yêu cầu và phân tích độ trễsource, description, raw_data
Cấu hìnhCác thay đổi cấu hình với các sửa đổi tham số chính xácsource, description, timestamp
Cảnh báoCác cảnh báo liên quan từ hệ thống giám sát trong cửa sổ incidentsource, severity, description
Bằng chứng được xếp hạng theo mức độ nghiêm trọng: Critical (nguyên nhân trực tiếp) → High (hỗ trợ mạnh) → Medium (ngữ cảnh) → Low (nền).

Chấm điểm tin cậy

Mỗi nguyên nhân gốc rễ được xác định mang điểm tin cậy từ 0.0 đến 1.0.
Khoảng điểmDanh mụcÝ nghĩaHành động
0.9 – 1.0Rất caoNguyên nhân gốc rễ được xác định với bằng chứng áp đảoThực hiện biện pháp khắc phục ngay lập tức
0.7 – 0.9CaoNguyên nhân gốc rễ được xác định với bằng chứng mạnhThực hiện biện pháp khắc phục với mức ưu tiên thông thường
0.5 – 0.7Trung bìnhNguyên nhân gốc rễ có khả năng, nhưng còn thiếu sótThực hiện biện pháp khắc phục; theo dõi các phương án thay thế
0.3 – 0.5ThấpNguyên nhân gốc rễ có thể, bằng chứng mang tính hoàn cảnhXác thực kết quả thủ công trước khi hành động
0.0 – 0.3Không chắc chắnBằng chứng không đủ để xác định nguyên nhân gốc rễKhông thể xác định; xem xét NOT_FOUND
Độ tin cậy tăng với tương quan thời gian, bất thường số liệu trên 50% độ lệch, mẫu lỗi khớp, các phương án thay thế bị loại trừ và nhiều nguồn dữ liệu xác nhận. Nó giảm với các giải thích thay thế, tương quan thời gian yếu, thiếu xác minh hoặc bằng chứng xung đột.

Theo dõi giả thuyết

RCA thực hiện điều tra theo giả thuyết lấy cảm hứng từ phương pháp “5 Whys” và Fishbone.
Trạng tháiÝ nghĩa
InvestigatingĐang tích cực thu thập bằng chứng để kiểm tra lý thuyết
ConfirmedBằng chứng đủ hỗ trợ đây là nguyên nhân gốc rễ
Ruled outBằng chứng mâu thuẫn hoặc bác bỏ giả thuyết
Các tác nhân xác nhận ít nhất một giả thuyết trước khi đặt nguyên nhân gốc rễ, và giải quyết mọi giả thuyết — đã xác nhận hoặc đã loại trừ — trước khi đóng cuộc điều tra. Một chuỗi giả thuyết mẫu từ một incident độ trễ:
Timeline Entry 1: hypothesis_created
├── Hypothesis 1: "Database connection pool exhaustion"
├── Confidence: 0.75
└── Message: "Pool exhaustion likely given 500s response times"

Timeline Entry 3: hypothesis_ruled_out
├── Hypothesis 1: Ruled Out
├── Reason: "DB metrics show 45/100 connections—well within limits"
└── Evidence: Max concurrent connections remained stable

Timeline Entry 6: hypothesis_created
├── Hypothesis 2: "Lambda cold start latency after memory reduction"
├── Confidence: 0.85

Timeline Entry 8: hypothesis_confirmed
├── Hypothesis 2: Confirmed
├── Updated Confidence: 0.92
└── Evidence: CloudWatch init duration spike, deployment timing match

Dòng thời gian điều tra

RCA truyền trực tiếp dòng thời gian của mỗi bước điều tra, hiển thị tiến độ giai đoạn, kiểm tra giả thuyết và thu thập bằng chứng với dấu thời gian. Mỗi cuộc điều tra giữ tối đa 100 mục (được thực thi ở cấp cơ sở dữ liệu).
Loại mụcÝ nghĩa
infoGhi chú điều tra chung
findingPhát hiện cụ thể ảnh hưởng đến phân tích
warningVấn đề tiềm năng cần xác minh
errorLần thử điều tra thất bại
successPhát hiện đã xác nhận
hypothesis_createdLý thuyết mới được đề xuất
hypothesis_ruled_outLý thuyết bị bác bỏ
hypothesis_confirmedGiả thuyết được xác nhận là nguyên nhân gốc rễ

Disposition

Mỗi cuộc điều tra kết thúc bằng một disposition, cập nhật trạng thái incident.
DispositionÝ nghĩaCó thể tiếp tục?
IDENTIFIEDNguyên nhân gốc rễ được tìm thấy với bằng chứng hỗ trợKhông (kết thúc)
NOT_FOUNDĐiều tra đã cạn kiệt, không có nguyên nhân gốc rễ rõ ràngKhông (kết thúc)
FALSE_ALARMVấn đề không phải là incident thực sựKhông (kết thúc)
ON_HOLDĐang chờ đầu vào bên ngoài hoặc dữ liệu bổ sungCó — tiếp tục khi thông tin mới đến
Sau khi disposition được đặt, incident có thể tiến qua các trạng thái vòng đời bổ sung (Resolved, Post-Mortem, Closed) khi nhóm của bạn hoàn thành các hành động tiếp theo.

Bắt đầu điều tra

Tự động

Cấu hình tích hợp webhook để tự động kích hoạt RCA. Khi incident đáp ứng ngưỡng mức độ nghiêm trọng, cuộc điều tra bắt đầu ở nền:
{
  "auto_trigger_rca": true,
  "auto_trigger_rca_min_severity": "medium"
}

Thủ công

1

Mở trang chi tiết incident

Chọn incident bạn muốn điều tra.
2

Nhấp Start RCA Analysis

CloudThinker xác thực rằng không có RCA trùng lặp nào đang chạy, sau đó bắt đầu cuộc điều tra trong vòng 1–3 giây. Các mục dòng thời gian xuất hiện theo thời gian thực khi các tác nhân khám phá ra phát hiện.

Đọc kết quả

PhầnNhững gì nó hiển thị
Tóm tắt nguyên nhân gốc rễGiải thích rõ ràng về nguyên nhân gốc rễ với điểm tin cậy và dấu thời gian xác định
Theo dõi giả thuyếtMỗi giả thuyết với vòng đời của nó: tạo → kiểm tra → xác nhận hoặc loại trừ, với lý luận
Chuỗi bằng chứngBằng chứng được tổ chức theo loại với xếp hạng mức độ nghiêm trọng, ghi chú nguồn và liên kết sâu
Dòng thời gian điều traNhật ký thứ tự thời gian của các bước điều tra và chuyển đổi giai đoạn
Hành động khắc phụcCác bản sửa lỗi được đề xuất với mức ưu tiên (critical, high, medium, low)
Dịch vụ bị ảnh hưởngCác dịch vụ bị ảnh hưởng trong incident, với hình ảnh hóa phạm vi ảnh hưởng khi topology được kết nối
Bạn có thể chạy nhiều cuộc điều tra trên cùng một incident với theo dõi phiên bản (v1, v2, v3…). Chạy lại RCA khi thông tin mới có sẵn hoặc lần chạy đầu tiên không có kết luận, và so sánh kết quả từ dropdown lịch sử.

Ví dụ: EC2 termination và EKS network failure

Giám sát liên tục phát hiện hai phát hiện liên kết nhau trong một workspace: EC2 instance bị chấm dứt thường xuyên và CreateNetworkInterface thất bại trên EKS. Đây là cách các tác nhân điều tra chúng cùng nhau. Đầu tiên, Alex phân tích mẫu chấm dứt:
@alex #report investigate EC2 termination patterns for the past 60 days.
Break down by Auto Scaling group, termination reason, instance type, and
availability zone — and explain the 17:15 UTC daily terminations.
Phân tích mẫu chấm dứt EC2 cho thấy các sự kiện AutoScaling và dòng thời gian

Phân tích mẫu chấm dứt EC2 cho thấy các sự kiện AutoScaling

Tiếp theo, Alex tương quan các lỗi mạng với các sự kiện chấm dứt:
@alex #report correlate CreateNetworkInterface failures with EC2
termination events over the last 60 days. Determine whether aggressive
scale-downs cause IP address fragmentation and whether lifecycle hooks
allow proper ENI cleanup.
Tương quan lỗi mạng với lỗi CreateNetworkInterface và cạn kiệt IP

Tương quan lỗi mạng với lỗi CreateNetworkInterface và cạn kiệt IP

Cuối cùng, Anna tổng hợp kết quả từ Alex (hạ tầng và chi phí), Kai (EKS networking) và Oliver (bảo mật) thành một tài liệu:
@anna #report comprehensive RCA for the EC2 termination and EKS network
interface failures. Include an executive summary, the 60-day timeline,
remediation steps with owners and due dates, and preventive measures.
Báo cáo RCA toàn diện với kết quả, các bước khắc phục và biện pháp phòng ngừa

Báo cáo RCA toàn diện với kết quả và các bước khắc phục

Thực hành tốt nhất

  • Kết nối topology trước khi incident xảy ra — phân tích phạm vi ảnh hưởng và tương quan dịch vụ phụ thuộc vào nó.
  • Cấu hình webhook để tự động kích hoạt RCA cho incident có mức độ nghiêm trọng medium trở lên.
  • Thêm ngữ cảnh vào mô tả incident; nó hướng dẫn nơi các tác nhân tìm kiếm đầu tiên.
  • Theo dõi dòng thời gian trong quá trình điều tra để biết giả thuyết nào đã được kiểm tra và loại trừ, và xác minh dấu thời gian bằng chứng tương quan với thời điểm bắt đầu incident.
  • Xác thực nguyên nhân gốc rễ thủ công trước khi khắc phục khi độ tin cậy dưới 0.7, và bắt đầu với các hành động khắc phục ưu tiên critical.
  • Kết nối Runbooks để các tác nhân có thể tìm và thực thi các quy trình khắc phục trong các cuộc điều tra tương lai.

Liên quan

Pulse

Thông tin tình báo tín hiệu ngược dòng giúp triệt tiêu nhiễu và leo thang các cluster cần xử lý thành incident

Webhook integrations

Tự động kích hoạt RCA từ PagerDuty, Datadog, Prometheus và nhiều hơn nữa

Topology

Xây dựng bản đồ phụ thuộc trực tiếp để phân tích phạm vi ảnh hưởng nhanh hơn trong incident

Runbooks

Kết nối các runbook vận hành để các tác nhân có thể thực thi các bước khắc phục