Tableaux de bord
État du service
Utilisation des ressources
Mémoire et CPU
Dégradation des performancesSi l’utilisation de la mémoire ou du CPU s’approche des ressources mémoire ou CPU allouées, vous pouvez commencer à observer une dégradation des performances. Pour y remédier, nous recommandons de :
- Optimiser vos requêtes
- Modifier le partitionnement de vos moteurs de table
- Ajouter davantage de ressources de calcul à votre service à l’aide de la mise à l’échelle
| Graphique | Nom de métrique correspondant | Agrégation | Notes |
|---|---|---|---|
| Mémoire allouée | CGroupMemoryTotal | Max | |
| CPU alloué | CGroupMaxCPU | Max | |
| Mémoire utilisée | MemoryResident | Max | |
| CPU utilisé | Métrique système du CPU | Max | ClickHouseServer_UsageCores via l’endpoint Prometheus |
Transfert de données
Tableau de bord avancé
ClickHouse Cloud collecte et stocke les métriques affichées sur ce tableau de bord à partir des tables système afin qu’elles puissent être consultées même lorsqu’un service est inactif. L’accès à ces métriques n’exécute pas de query sur le service sous-jacent et ne réactive pas les services inactifs.
| Graphique | Nom de la métrique ClickHouse correspondante | Table système | Type d’agrégation |
|---|---|---|---|
| Requêtes/s | ProfileEvent_Query | metric_log | Somme / bucketSizeSeconds |
| Requêtes en cours | CurrentMetric_Query | metric_log | Moy. |
| Fusions en cours | CurrentMetric_Merge | metric_log | Moy. |
| Octets sélectionnés/s | ProfileEvent_SelectedBytes | metric_log | Somme / bucketSizeSeconds |
| Attente d’E/S | ProfileEvent_OSIOWaitMicroseconds | metric_log | Somme / bucketSizeSeconds |
| Attente de lecture S3 | ProfileEvent_ReadBufferFromS3Microseconds | metric_log | Somme / bucketSizeSeconds |
| Erreurs de lecture S3/s | ProfileEvent_ReadBufferFromS3RequestsErrors | metric_log | Somme / bucketSizeSeconds |
| Attente CPU | ProfileEvent_OSCPUWaitMicroseconds | metric_log | Somme / bucketSizeSeconds |
| Utilisation CPU de l’OS (userspace, normalized) | OSUserTimeNormalized | asynchronous_metric_log | |
| Utilisation CPU de l’OS (kernel, normalized) | OSSystemTimeNormalized | asynchronous_metric_log | |
| Lecture depuis le disk | ProfileEvent_OSReadBytes | metric_log | Somme / bucketSizeSeconds |
| Lecture depuis le filesystem | ProfileEvent_OSReadChars | metric_log | Somme / bucketSizeSeconds |
| Memory (suivie, octets) | CurrentMetric_MemoryTracking | metric_log | |
| Nombre total de parts MergeTree | TotalPartsOfMergeTreeTables | asynchronous_metric_log | |
| Nombre maximal de parts par partition | MaxPartCountForPartition | asynchronous_metric_log | |
| Lecture depuis S3 | ProfileEvent_ReadBufferFromS3Bytes | metric_log | Somme / bucketSizeSeconds |
| Taille du filesystem cache | CurrentMetric_FilesystemCacheSize | metric_log | |
| Requêtes d’écriture Disk S3/s | ProfileEvent_DiskS3PutObject + ProfileEvent_DiskS3UploadPart + ProfileEvent_DiskS3CreateMultipartUpload + ProfileEvent_DiskS3CompleteMultipartUpload | metric_log | Somme / bucketSizeSeconds |
| Requêtes de lecture Disk S3/s | ProfileEvent_DiskS3GetObject + ProfileEvent_DiskS3HeadObject + ProfileEvent_DiskS3ListObjects | metric_log | Somme / bucketSizeSeconds |
| Taux de réussite du cache FS | sum(ProfileEvent_CachedReadBufferReadFromCacheBytes) / (sum(ProfileEvent_CachedReadBufferReadFromCacheBytes) + sum(ProfileEvent_CachedReadBufferReadFromSourceBytes)) | metric_log | |
| Taux de réussite du page cache | greatest(0, (sum(ProfileEvent_OSReadChars) - sum(ProfileEvent_OSReadBytes)) / (sum(ProfileEvent_OSReadChars) + sum(ProfileEvent_ReadBufferFromS3Bytes))) | metric_log | |
| Octets reçus sur le réseau/s | NetworkReceiveBytes | asynchronous_metric_log | Somme / bucketSizeSeconds |
| Octets envoyés sur le réseau/s | NetworkSendBytes | asynchronous_metric_log | Somme / bucketSizeSeconds |
| Connexions TCP simultanées | CurrentMetric_TCPConnection | metric_log | |
| Connexions MySQL simultanées | CurrentMetric_MySQLConnection | metric_log | |
| Connexions HTTP simultanées | CurrentMetric_HTTPConnection | metric_log |
Query insights
system.query_log de ClickHouse est une source d’informations essentielle pour l’optimisation des requêtes, le débogage, ainsi que la surveillance globale de l’état de santé et des performances du cluster.
Après avoir sélectionné un service, l’élément de navigation Monitoring dans la barre latérale gauche se développe pour révéler un sous-élément Query insights :
Métriques principales
Requêtes récentes
Analyse détaillée des requêtes
Settings et Profile Events de chaque exécution de requête peuvent être développés pour afficher des informations supplémentaires.
- Notifications — Configurez des alertes pour les événements de mise à l’échelle, les erreurs et la facturation
- tableau de bord avancé — Référence détaillée pour chaque visualisation du tableau de bord
- Interroger les tables système — Exécutez des requêtes custom SQL sur les tables système pour une introspection approfondie
- endpoint Prometheus — Exportez les métriques vers Grafana, Datadog ou d’autres outils compatibles Prometheus