Voici la Partie 2 d’un guide sur la migration de PostgreSQL vers ClickHouse. À l’aide d’un exemple concret, il montre comment mener efficacement la migration avec une approche de réplication en temps réel (CDC). Bon nombre des concepts abordés s’appliquent également aux transferts manuels de gros volumes de données de PostgreSQL vers ClickHouse.La plupart des requêtes SQL de votre environnement PostgreSQL devraient s’exécuter dans ClickHouse sans modification, et probablement plus rapidement.
Déduplication avec CDC
Optimiser les requêtes dans ClickHouse
Par souci de simplicité, les requêtes ci-dessous n’utilisent pas de techniques de déduplication des données.
Les nombres indiqués ici différeront légèrement, car les données Postgres ne contiennent que les lignes qui respectent l’intégrité référentielle des clés étrangères. ClickHouse n’impose pas de telles contraintes et contient donc l’ensemble complet du dataset, par exemple avec les utilisateurs anonymes.Utilisateurs (avec plus de 10 questions) qui reçoivent le plus de vues :
tags ont le plus de vues :