Phân tích hạ tầng

Truy vấn dữ liệu sử dụng, hiệu suất và độ tin cậy trên tất cả các môi trường cloud đã kết nối bằng dashboard, biểu đồ và cảnh báo do agent dẫn dắt. Phân tích bất thường chi phí và xu hướng chi tiêu có trong Cost Analytics.

Cú pháp câu lệnh

Dạng chung cho một truy vấn phân tích:

@agent #tool your query [time range]

Thành phần	Mô tả	Giá trị
`@agent`	Ai thực thi truy vấn	`@alex` (cloud và tính toán), `@tony` (database), `@kai` (Kubernetes), `@anna` (dự báo và phối hợp)
`#tool`	Định dạng đầu ra	`#dashboard` (trực quan), `#chart` (nội dòng), `#report` (xuất được), `#alert` (quy tắc ngưỡng)
`time range`	Tùy chọn; mặc định là 7 ngày	`last 7 days`, `last 30 days`, `last quarter`, `since last quarter`

Xem CloudThinker Language để tham khảo cú pháp đầy đủ.

Dashboard

Dashboard	Nội dung hiển thị	Agent
Sử dụng tài nguyên	CPU, bộ nhớ, lưu trữ và sử dụng mạng theo dịch vụ, vùng và tài khoản	Alex, Kai
Hiệu quả workload Kubernetes	Yêu cầu tài nguyên pod so với mức sử dụng thực tế theo namespace	Kai
Hiệu suất ứng dụng	Thời gian phản hồi API và tỷ lệ lỗi tương quan với tải hạ tầng	Alex
Hiệu suất database	Độ trễ truy vấn tại P50/P95/P99, truy vấn chậm, số lượng kết nối	Tony
Sức khỏe cluster	Áp lực CPU, sự kiện OOMKill và trạng thái node	Kai
Dư địa dung lượng	Thời gian còn lại của tài nguyên trước khi hiệu suất bị ảnh hưởng	Alex, Anna
Xu hướng sử dụng	Cải thiện hoặc suy giảm trong một khoảng thời gian đã chọn	Alex

Cảnh báo

Tín hiệu	Những gì được phát hiện	Ngưỡng mặc định
Áp lực CPU	CPU cao liên tục trên một cluster	>85% trong khoảng thời gian có thể cấu hình
Tăng trưởng bộ nhớ	Tăng đều đặn không giải phóng (mẫu rò rỉ)	>10% mỗi giờ
Suy giảm độ trễ	Độ trễ P95 tăng vượt baseline	>2× baseline
OOMKill	Pod bị chấm dứt do giới hạn bộ nhớ	Bất kỳ lần xảy ra nào
Độ trễ replication	Database replica tụt hậu so với primary	>30 giây

Tất cả ngưỡng có thể cấu hình theo môi trường sử dụng câu lệnh #alert.

Diễn giải tín hiệu

Mẫu	Nguyên nhân có thể	Bước tiếp theo
Sử dụng cao + độ trễ bình thường	Workload được định kích thước phù hợp	Xem xét dung lượng đặt trước — hỏi `@alex`
Sử dụng thấp + chi phí cao	Tài nguyên được cung cấp quá mức	Right-size với `@alex`
Độ trễ cao + sử dụng bình thường	Điểm nghẽn ứng dụng hoặc database	Hỏi `@tony`
Đột biến sử dụng + OOMKill	Giới hạn tài nguyên được cấu hình sai	Hỏi `@kai`
Đột biến chi phí không có thay đổi lưu lượng	Drift cấu hình hoặc tài nguyên mồ côi	Hỏi `@alex` hoặc kiểm tra phát hiện CloudKeepers

Ví dụ

Dashboard sử dụng:

@alex #dashboard resource utilization across all accounts last 7 days
@kai #dashboard pod resource requests vs actual usage by namespace

Dashboard hiệu suất:

@tony #dashboard query latency P50/P95/P99 over last 30 days
@kai #dashboard cluster CPU pressure and OOMKill events by namespace

Cấu hình cảnh báo:

@tony #alert when P95 query latency exceeds 500ms for 5 consecutive minutes
@kai #alert on OOMKilled events or nodes with more than 90% memory pressure

Xu hướng và dự báo:

@anna forecast infrastructure needs for 2x traffic growth
@alex show improvement in resource utilization since last quarter

Liên quan

CloudKeepers

Thiết lập keeper liên tục giám sát hạ tầng và hiển thị phát hiện

Cost Analytics

Phân tích mẫu chi tiêu và bất thường trên các tài khoản đã kết nối

Assessment

Chạy đánh giá Well-Architected để thiết lập baseline sức khỏe hạ tầng

Topology

Tương quan các tín hiệu phân tích với đồ thị phụ thuộc hạ tầng của bạn

​Cú pháp câu lệnh

​Dashboard

​Cảnh báo

​Diễn giải tín hiệu

​Ví dụ

​Liên quan