Điều kiện tiên quyết
- Một workspace CloudThinker — mới làm quen với Pulse? Đọc Cách hoạt động trước
- Một kết nối AWS đang hoạt động với quyền đọc cho các dịch vụ bạn muốn poll
- Bot CloudThinker được cài đặt trong Slack hoặc Teams, nếu bạn muốn tín hiệu từ kênh chat
- Một công cụ giám sát hỗ trợ outbound webhook, nếu bạn muốn tín hiệu từ bên thứ ba
Kết nối giám sát vào incident
Đây là quy trình end-to-end: kết nối nguồn, xác nhận tín hiệu đến và để các cluster cần xử lý leo thang thành incident.Mở Pulse
Vào Pulse trong workspace của bạn và nhấp Manage subscriptions. Trang này liệt kê cả ba họ nguồn và trạng thái hiện tại của chúng.
Thêm ít nhất một nguồn
Bật một AWS poller, đăng ký một kênh chat, hoặc trỏ một webhook giám sát vào CloudThinker — ba quy trình bên dưới đề cập từng con đường.
Xác nhận tín hiệu đến
Gửi một cảnh báo kiểm tra từ công cụ giám sát của bạn, hoặc đợi chu kỳ polling tiếp theo.Trạng thái thành công: các tín hiệu mới xuất hiện trong Pulse feed với danh mục, mức độ nghiêm trọng và tóm tắt một dòng.
Leo thang cluster thành incident
Pulse tự động leo thang các cluster với tín hiệu Critical hoặc High, hoặc bất kỳ tín hiệu nào AI đánh dấu là actionable. Với những trường hợp còn lại, nhấp Escalate trên cluster.Trạng thái thành công: một incident được liên kết được tạo và phân tích nguyên nhân gốc rễ bắt đầu với toàn bộ lịch sử tín hiệu của cluster làm ngữ cảnh ban đầu.
AWS polling
AWS polling cho phép Pulse kéo sự kiện trực tiếp từ các tài khoản AWS của bạn theo lịch — không cần cấu hình webhook. Mỗi nguồn được bật theo từng kết nối.| Nguồn | Pulse thu thập gì | Tần suất |
|---|---|---|
| CloudTrail | Nhật ký kiểm tra lệnh gọi API — ai đã làm gì, khi nào, trên tài nguyên nào | Mỗi 5 phút |
| AWS Health | Sự kiện sức khỏe dịch vụ ảnh hưởng đến tài khoản hoặc khu vực của bạn | Mỗi 5 phút |
| Cost Anomaly | Đột biến chi tiêu được phát hiện bởi AWS Cost Anomaly Detector | Mỗi 6 giờ |
| GuardDuty | Phát hiện mối đe dọa — instance bị xâm phạm, hành vi đáng ngờ | Định kỳ |
| Config | Drift cấu hình tài nguyên so với các quy tắc Config | Định kỳ |
| Access Analyzer | Phát hiện truy cập IAM và S3 — tài nguyên có quyền quá rộng hoặc công khai | Định kỳ |
Bật một poller
Mở cài đặt polling
Trong Pulse, nhấp Manage subscriptions và vào phần AWS Polling. Bạn sẽ thấy các tài khoản AWS đã kết nối và trạng thái polling hiện tại của chúng.
Xác thực trước
Nhấp Validate bên cạnh nguồn. Pulse thực hiện dry run để xác nhận thông tin xác thực của bạn có quyền đọc cần thiết.Trạng thái thành công: dấu ✓ rõ ràng nghĩa là sẵn sàng; mã lỗi (ví dụ:
AccessDenied) cho bạn biết chính xác những gì còn thiếu.Đăng ký Slack và Teams
Khi bot CloudThinker có mặt trong một kênh, các tin nhắn trong kênh đó trở thành tín hiệu Pulse — bài đăng từ alert bot, thông báo incident, trò chuyện on-call — được phân loại cùng với các sự kiện hạ tầng của bạn.
Chọn nền tảng, chọn kênh, mời bot, lưu
Mời bot (chỉ Slack)
Chạy
/invite @CloudThinker trong kênh đích — Slack chỉ gửi tin nhắn đến các ứng dụng là thành viên của kênh.Loại kênh
| Loại | Tốt nhất cho |
|---|---|
| Alert | Các kênh dùng riêng cho alert bot tự động |
| Communication | Các kênh dùng cho thảo luận giữa người — chat incident, bàn giao |
| Mixed (mặc định) | Các kênh có cả cảnh báo tự động và tin nhắn của người |
Webhook của bên thứ ba
Bất kỳ công cụ giám sát nào hỗ trợ outbound webhook đều có thể gửi tín hiệu đến Pulse — Datadog, Grafana, PagerDuty và nhiều công cụ khác đã có sẵn field mapping tích hợp.Tạo endpoint webhook
Vào Webhooks trong CloudThinker và tạo một endpoint — xem Webhooks để biết cài đặt đầy đủ.
Trỏ công cụ giám sát vào đó
Dán URL được tạo vào cài đặt webhook hoặc thông báo của công cụ của bạn. Hướng dẫn theo từng nền tảng, tùy chọn xác thực và field mapping có trong Tích hợp webhook.
Danh mục tín hiệu
Mỗi tín hiệu — bất kể nguồn nào — được gán một trong tám danh mục:| Danh mục | Ví dụ |
|---|---|
| Compute | Trạng thái EC2, Lambda timeout, ECS failure, container restart |
| Network | Bất thường NAT gateway, suy giảm CloudFront, thay đổi VPC |
| Security | Phát hiện GuardDuty, thay đổi IAM, truy cập công khai S3, kích hoạt WAF |
| Cost | Bất thường chi phí, tài nguyên nhàn rỗi, giảm Savings Plan, hết hạn RI |
| Data | Sự cố kết nối RDS, hoạt động S3, sự kiện cơ sở dữ liệu |
| Deploy | CodeDeploy, ECS rollout, thay đổi CloudFormation stack |
| Communication | Tin nhắn Slack và Teams, thông báo từ alert bot |
| Unclassified | Mặc định cho đến khi bộ phân loại AI gán danh mục |
Bước tiếp theo
Clusters
Phân loại vòng đời cluster — từ Active đến Routed đến Resolved
Webhook integrations
Cài đặt theo nền tảng cho Datadog, Grafana, PagerDuty và nhiều hơn nữa
Root cause analysis
Xem cách các tác nhân điều tra incident được leo thang đến nguyên nhân gốc rễ xác định
Pulse analytics
Đo lường mức giảm nhiễu và xu hướng tín hiệu theo các nguồn của bạn