Dans ce tutoriel, vous allez insérer 28 millions de lignes de données Hacker News dans une table de ClickHouse aux formats CSV et Parquet, puis exécuter quelques requêtes simples pour explorer les données.
CSV
Télécharger le fichier CSV
Une version CSV du jeu de données peut être téléchargée depuis notre bucket S3 public ou en exécutant cette commande :Échantillonner les données
clickhouse-local vous permet de traiter rapidement des fichiers locaux sans
avoir à déployer et à configurer le serveur ClickHouse.Avant de stocker des données dans ClickHouse, échantillonnons le fichier à l’aide de clickhouse-local.
Dans la console, exécutez :Query
Response
file vous permet de lire un fichier depuis un disque local en spécifiant uniquement le format CSVWithNames.
Plus important encore, le schéma est automatiquement déduit du contenu du fichier.
Notez également que clickhouse-local est capable de lire le fichier compressé en déduisant le format gzip à partir de l’extension.
Le format Vertical est utilisé pour visualiser plus facilement les données de chaque colonne.Charger les données avec l’inférence de schéma
L’outil le plus simple et le plus puissant pour charger des données estclickhouse-client : un client natif en ligne de commande doté de nombreuses fonctionnalités.
Pour charger les données, vous pouvez de nouveau recourir à l’inférence de schéma et laisser ClickHouse déterminer les types des colonnes.Exécutez la commande suivante pour créer une table et insérer directement les données depuis le fichier CSV distant, en accédant à son contenu via la fonction url.
Le schéma est automatiquement inféré :DESCRIBE TABLE permet de voir les types ainsi attribués.Query
Response
INSERT INTO, SELECT.
Avec la fonction url, les données seront lues directement depuis l’URL :Explorer les données
Obtenez un échantillon des articles Hacker News et de certaines colonnes en exécutant la requête suivante :Query
Response
Définir un schéma
Une optimisation simple et immédiate consiste à définir un type pour chaque champ. En plus de déclarer le champ temporel au formatDateTime, nous définissons un type approprié pour chacun des champs ci-dessous après avoir supprimé notre jeu de données existant.
Dans ClickHouse, la clé primaire des données est définie par la clause ORDER BY.Choisir des types appropriés et les colonnes à inclure dans la clause ORDER BY
contribue à améliorer la vitesse des requêtes et la compression.Exécutez la requête ci-dessous pour supprimer l’ancien schéma et créer le schéma amélioré :Query
clickhouse-client, insérez les données du fichier à l’aide de la clause INFILE avec un INSERT INTO explicite.Query
Exécuter des exemples de requêtes
Quelques exemples de requêtes sont présentés ci-dessous pour vous aider à rédiger vos propres requêtes.Quelle est la place de « ClickHouse » comme sujet sur Hacker News ?
Le champ score fournit une métrique de popularité pour les articles, tandis que le champid et l’opérateur de concaténation || peuvent être utilisés pour générer un lien vers le post original.Query
Response
time
en tant que DateTime : l’utilisation d’un type de données approprié permet de recourir à la fonction toYYYYMM() :Query
Response
Qui sont les commentateurs les plus actifs sur les articles liés à ClickHouse ?
Query
Response
Quels commentaires suscitent le plus d’intérêt ?
Query
Response
Parquet
Insérer les données
Exécutez la requête suivante pour lire ces mêmes données au format Parquet, en utilisant à nouveau la fonction url pour accéder aux données distantes :Clés
NULL avec ParquetEn raison du format Parquet, nous devons accepter que les clés puissent être NULL,
même si ce n’est pas le cas dans les données.Response
Ajouter un index de saut pour accélérer les requêtes
Pour savoir combien de commentaires mentionnent “ClickHouse”, exécutez la requête suivante :Query
Response
system.data_skipping_indices).Exécutez de nouveau la requête une fois l’index créé :Query
Response
EXPLAIN peut être utilisée pour comprendre pourquoi l’ajout de cet index
a rendu la requête environ 3,4 fois plus rapide.Response
Query
Response
Query
Response