Créer une table
Paimon* est conditionnée par allow_experimental_paimon_storage_engine (désactivé par défaut) ; activez-le donc avant d’exécuter CREATE TABLE.
Arguments du moteur
S3, AzureBlobStorage, HDFS et File, respectivement.
format désigne le format des fichiers de données de la table Paimon.
Les paramètres du moteur peuvent être spécifiés à l’aide de collections nommées
Exemple
Fonctionnalités
- Lecture des snapshots à partir du dernier snapshot de la table.
- Lecture incrémentielle basée sur l’ID de snapshot validé, lorsqu’elle est activée.
- Élagage des partitions lorsque
use_paimon_partition_pruningest activé. - Actualisation facultative des métadonnées en arrière-plan lorsqu’elle est configurée.
- UUID de table stable lors de l’utilisation de bases de données Atomic/Replicated, permettant d’utiliser les macros
{uuid}dans les chemins Keeper.
Paramètres
allow_experimental_paimon_storage_engine— active la création des moteurs de tablePaimon,PaimonS3,PaimonAzure,PaimonHDFSetPaimonLocal. Par défaut :0(désactivé).paimon_incremental_read— active le mode de lecture incrémentielle.paimon_metadata_refresh_interval_sec— intervalle de rafraîchissement des métadonnées en arrière-plan, en secondes. Lorsqu’il est défini sur une valeur supérieure à 0, une tâche en arrière-plan récupère périodiquement le dernier snapshot et le schéma depuis le stockage objet. Par défaut : 30.paimon_keeper_path— chemin Keeper pour l’état de lecture incrémentielle. Doit être défini et unique pour chaque table ; prend en charge des macros telles que{database},{table},{uuid}.paimon_replica_name— nom de réplique pour l’état de lecture incrémentielle. Doit être défini et unique pour chaque réplique ; prend en charge des macros telles que{replica}.
Exemples de lecture incrémentielle
Paramètres de requête pour la lecture incrémentale
SELECT ... SETTINGS, et non dans CREATE TABLE). Ils contrôlent le comportement des lectures incrémentales pour chaque requête :
paimon_target_snapshot_id— lit uniquement le delta du snapshot spécifié. Le watermark enregistré dans Keeper n’est pas avancé ; le même snapshot peut donc être relu autant de fois que nécessaire. Par défaut :-1(désactivé).max_consume_snapshots— nombre maximal de snapshots à consommer lors d’une seule lecture incrémentale. Lorsque la source a accumulé de nombreux snapshots non lus, ce paramètre limite le nombre de snapshots consommés par requête afin de contrôler la taille du lot.0signifie aucune limite. Par défaut :0.
De Paimon vers MergeTree via une vue matérialisée actualisable
APPEND. Chaque cycle d’actualisation lit uniquement les nouvelles données incrémentielles depuis Paimon et les ajoute à la table de destination.
Étape 1 — Créez la table source Paimon avec la lecture incrémentielle et le rafraîchissement des métadonnées activés.
L’exemple ci-dessous utilise PaimonLocal. Remplacez le moteur par PaimonS3, PaimonAzure, PaimonHDFS ou le moteur Paimon à détection automatique, selon votre système de stockage :
paimon_metadata_refresh_interval_sec définit l’intervalle de rafraîchissement des métadonnées en arrière-plan, en secondes. Lorsqu’il est supérieur à 0, une tâche en arrière-plan récupère périodiquement le dernier snapshot et le schéma depuis le stockage objet, afin que le cycle d’actualisation de la MV puisse voir les données nouvellement validées sans attendre qu’une requête déclenche la mise à jour des métadonnées. La valeur par défaut est 30. À utiliser avec précaution sur un grand nombre de tables afin d’éviter des E/S excessives sur le stockage objet et Keeper.
Étape 2 — Créez la table de destination MergeTree (schéma cloné depuis la table Paimon) :
SELECT * FROM paimon_mv_source, qui ne renvoie que les lignes ajoutées depuis le dernier snapshot validé, puis les ajoute à paimon_mv_dest.
Nettoyage :
Arrêtez la MV avant de la supprimer pour éviter qu’un rafraîchissement en arrière-plan ne bloque les opérations DDL.
Limites
- La lecture incrémentielle nécessite que Keeper (ZooKeeper) soit configuré.
- La lecture incrémentielle nécessite que
paimon_keeper_pathsoit défini et unique pour chaque table. paimon_replica_namedoit être unique pour chaque réplique dans le même chemin Keeper.- La lecture incrémentielle utilise un mode de livraison « au plus une fois » : le snapshot validé est avancé lorsque les fichiers de données sont collectés, avant que les données ne soient réellement consommées. Si la requête échoue après la collecte des fichiers, les snapshots ignorés ne seront pas relus en cas de nouvelle tentative.
- Le moteur de table est en lecture seule ; la modification des données n’est pas prise en charge.
- La lecture incrémentielle ne gère pas les suppressions de données historiques depuis la source Paimon. Si les données Paimon en amont sont supprimées ou mises à jour, les lignes correspondantes déjà écrites dans une table de destination ClickHouse MergeTree ne seront pas automatiquement supprimées. Vous devez exécuter manuellement
ALTER TABLE ... DELETEsur la table MergeTree pour nettoyer les données obsolètes.
Alias
Paimon détecte automatiquement le backend de stockage à partir du paramètre disk et utilise en conséquence PaimonS3, PaimonAzure ou PaimonLocal. Lorsqu’aucun disk n’est spécifié, il utilise par défaut l’implémentation PaimonS3.
Colonnes virtuelles
_path— Chemin du fichier. Type :LowCardinality(String)._file— Nom du fichier. Type :LowCardinality(String)._size— Taille du fichier en octets. Type :Nullable(UInt64). Si la taille du fichier est inconnue, la valeur estNULL._time— Date et heure de la dernière modification du fichier. Type :Nullable(DateTime). Si cette date et heure sont inconnues, la valeur estNULL._etag— ETag du fichier. Type :LowCardinality(String). Si l’ETag est inconnu, la valeur estNULL.
Types de données pris en charge
| Type de données Paimon | Type de données ClickHouse |
|---|---|
| BOOLEAN | Int8 |
| TINYINT | Int8 |
| SMALLINT | Int16 |
| INTEGER | Int32 |
| BIGINT | Int64 |
| FLOAT | Float32 |
| DOUBLE | Float64 |
| STRING,VARCHAR,BYTES,VARBINARY | String |
| DATE | Date |
| TIME(p),TIME | Time(‘UTC’) |
| TIMESTAMP(p) WITH LOCAL TIME ZONE | DateTime64 |
| TIMESTAMP(p) | DateTime64(‘UTC’) |
| CHAR | FixedString(1) |
| BINARY(n) | FixedString(n) |
| DECIMAL(P,S) | Decimal(P,S) |
| ARRAY | Array |
| MAP | Map |
Prise en charge des partitions
CHARVARCHARBOOLEANDECIMALTINYINTSMALLINTINTEGERDATETIMETIMESTAMPTIMESTAMP WITH LOCAL TIME ZONEBIGINTFLOATDOUBLE