Chuyển đến nội dung chính
Truy vấn dữ liệu sử dụng, hiệu suất và độ tin cậy trên tất cả các môi trường cloud đã kết nối bằng dashboard, biểu đồ và cảnh báo do agent dẫn dắt. Phân tích bất thường chi phí và xu hướng chi tiêu có trong Cost Analytics.

Cú pháp câu lệnh

Dạng chung cho một truy vấn phân tích:
@agent #tool your query [time range]
Thành phầnMô tảGiá trị
@agentAi thực thi truy vấn@alex (cloud và tính toán), @tony (database), @kai (Kubernetes), @anna (dự báo và phối hợp)
#toolĐịnh dạng đầu ra#dashboard (trực quan), #chart (nội dòng), #report (xuất được), #alert (quy tắc ngưỡng)
time rangeTùy chọn; mặc định là 7 ngàylast 7 days, last 30 days, last quarter, since last quarter
Xem CloudThinker Language để tham khảo cú pháp đầy đủ.

Dashboard

DashboardNội dung hiển thịAgent
Sử dụng tài nguyênCPU, bộ nhớ, lưu trữ và sử dụng mạng theo dịch vụ, vùng và tài khoảnAlex, Kai
Hiệu quả workload KubernetesYêu cầu tài nguyên pod so với mức sử dụng thực tế theo namespaceKai
Hiệu suất ứng dụngThời gian phản hồi API và tỷ lệ lỗi tương quan với tải hạ tầngAlex
Hiệu suất databaseĐộ trễ truy vấn tại P50/P95/P99, truy vấn chậm, số lượng kết nốiTony
Sức khỏe clusterÁp lực CPU, sự kiện OOMKill và trạng thái nodeKai
Dư địa dung lượngThời gian còn lại của tài nguyên trước khi hiệu suất bị ảnh hưởngAlex, Anna
Xu hướng sử dụngCải thiện hoặc suy giảm trong một khoảng thời gian đã chọnAlex

Cảnh báo

Tín hiệuNhững gì được phát hiệnNgưỡng mặc định
Áp lực CPUCPU cao liên tục trên một cluster>85% trong khoảng thời gian có thể cấu hình
Tăng trưởng bộ nhớTăng đều đặn không giải phóng (mẫu rò rỉ)>10% mỗi giờ
Suy giảm độ trễĐộ trễ P95 tăng vượt baseline>2× baseline
OOMKillPod bị chấm dứt do giới hạn bộ nhớBất kỳ lần xảy ra nào
Độ trễ replicationDatabase replica tụt hậu so với primary>30 giây
Tất cả ngưỡng có thể cấu hình theo môi trường sử dụng câu lệnh #alert.

Diễn giải tín hiệu

MẫuNguyên nhân có thểBước tiếp theo
Sử dụng cao + độ trễ bình thườngWorkload được định kích thước phù hợpXem xét dung lượng đặt trước — hỏi @alex
Sử dụng thấp + chi phí caoTài nguyên được cung cấp quá mứcRight-size với @alex
Độ trễ cao + sử dụng bình thườngĐiểm nghẽn ứng dụng hoặc databaseHỏi @tony
Đột biến sử dụng + OOMKillGiới hạn tài nguyên được cấu hình saiHỏi @kai
Đột biến chi phí không có thay đổi lưu lượngDrift cấu hình hoặc tài nguyên mồ côiHỏi @alex hoặc kiểm tra phát hiện CloudKeepers

Ví dụ

Dashboard sử dụng:
@alex #dashboard resource utilization across all accounts last 7 days
@kai #dashboard pod resource requests vs actual usage by namespace
Dashboard hiệu suất:
@tony #dashboard query latency P50/P95/P99 over last 30 days
@kai #dashboard cluster CPU pressure and OOMKill events by namespace
Cấu hình cảnh báo:
@tony #alert when P95 query latency exceeds 500ms for 5 consecutive minutes
@kai #alert on OOMKilled events or nodes with more than 90% memory pressure
Xu hướng và dự báo:
@anna forecast infrastructure needs for 2x traffic growth
@alex show improvement in resource utilization since last quarter

Liên quan

CloudKeepers

Thiết lập keeper liên tục giám sát hạ tầng và hiển thị phát hiện

Cost Analytics

Phân tích mẫu chi tiêu và bất thường trên các tài khoản đã kết nối

Assessment

Chạy đánh giá Well-Architected để thiết lập baseline sức khỏe hạ tầng

Topology

Tương quan các tín hiệu phân tích với đồ thị phụ thuộc hạ tầng của bạn