QueryContexts
QueryContext. Le QueryContext contient les structures clés utilisées pour construire des requêtes sur la base de données ClickHouse, ainsi que la configuration utilisée pour traiter le résultat en QueryResult ou dans une autre structure de données de réponse. Cela inclut la requête elle-même, les paramètres, les settings, les formats de lecture et d’autres propriétés.
Un QueryContext peut être obtenu à l’aide de la méthode cliente create_query_context. Cette méthode prend les mêmes paramètres que la méthode principale de requête. Ce contexte de requête peut ensuite être transmis aux méthodes query, query_df ou query_np comme argument nommé context, à la place de tout ou partie des autres arguments de ces méthodes. Notez que les arguments supplémentaires spécifiés lors de l’appel de la méthode remplaceront toutes les propriétés du QueryContext.
Le cas d’utilisation le plus évident d’un QueryContext consiste à envoyer la même requête avec différentes valeurs de paramètres liés. Toutes les valeurs des paramètres peuvent être mises à jour en appelant la méthode QueryContext.set_parameters avec un dictionnaire, ou une valeur individuelle peut être mise à jour en appelant QueryContext.set_parameter avec la paire key, value souhaitée.
QueryContext ne sont pas thread-safe, mais vous pouvez en obtenir une copie dans un environnement multithread en appelant la méthode QueryContext.updated_copy.
Requêtes en streaming
query_column_block_stream— renvoie les données de la requête par blocs sous forme de séquence de colonnes en utilisant des objets Python natifsquery_row_block_stream— renvoie les données de la requête sous forme de bloc de lignes en utilisant des objets Python natifsquery_rows_stream— renvoie les données de la requête sous forme de séquence de lignes en utilisant des objets Python natifsquery_np_stream— renvoie chaque bloc ClickHouse de données de requête sous forme de tableau NumPyquery_df_stream— renvoie chaque bloc ClickHouse de données de requête sous forme de Pandas DataFramequery_arrow_stream— renvoie les données de la requête sous forme de PyArrow RecordBlocksquery_df_arrow_stream— renvoie chaque bloc ClickHouse de données de requête sous forme de Pandas DataFrame basé sur Arrow ou de Polars DataFrame selon le kwargdataframe_library(la valeur par défaut est “pandas”).
ContextStream qui doit être ouvert via une instruction with pour commencer à consommer le flux.
Blocs de données
query comme un flux de blocs reçus du serveur ClickHouse. Ces blocs sont transmis depuis et vers ClickHouse dans le format personnalisé « Native ». Un « bloc » est simplement une séquence de colonnes de données binaires, où chaque colonne contient le même nombre de valeurs du type de données spécifié. (En tant que base de données colonnaire, ClickHouse stocke ces données sous une forme similaire.) La taille d’un bloc renvoyé par une requête est régie par deux paramètres utilisateur qui peuvent être définis à plusieurs niveaux (profil utilisateur, utilisateur, session ou requête). Il s’agit de :
- max_block_size — Limite de la taille du bloc en lignes. Valeur par défaut : 65536.
- preferred_block_size_bytes — Limite souple de la taille du bloc en octets. Valeur par défaut : 1,000,0000.
preferred_block_size_setting, chaque bloc ne dépassera jamais max_block_size lignes. Selon le type de requête, la taille réelle des blocs renvoyés peut varier. Par exemple, les requêtes sur une table distribuée couvrant de nombreux shards peuvent contenir des blocs plus petits, récupérés directement depuis chaque shard.
Lors de l’utilisation de l’une des méthodes query_*_stream du Client, les résultats sont renvoyés bloc par bloc. ClickHouse Connect ne charge qu’un seul bloc à la fois. Cela permet de traiter de grandes quantités de données sans devoir charger en mémoire l’intégralité d’un ensemble de résultats volumineux. Notez que l’application doit être prête à traiter un nombre quelconque de blocs et que la taille exacte de chaque bloc ne peut pas être contrôlée.
Buffer de données HTTP pour le traitement lent
http_buffer_size. Des valeurs élevées pour http_buffer_size conviennent dans cette situation si l’application dispose de suffisamment de mémoire. Les données du buffer sont stockées sous forme compressée si vous utilisez la compression lz4 ou zstd ; utiliser ces types de compression augmentera donc la taille totale du buffer disponible.
StreamContexts
query_*_stream (comme query_row_block_stream) renvoie un objet ClickHouse StreamContext, qui combine un contexte Python et un générateur. Voici l’utilisation de base :
with provoquera une erreur. L’utilisation d’un contexte Python garantit que le flux (dans ce cas, une réponse HTTP en streaming) sera correctement fermé, même si toutes les données ne sont pas consommées et/ou si une exception est levée pendant le traitement. De plus, les StreamContext ne peuvent être utilisés qu’une seule fois pour consommer le flux. Essayer d’utiliser un StreamContext après avoir quitté son contexte produira une StreamClosedError.
Vous pouvez utiliser la propriété source du StreamContext pour accéder à l’objet parent QueryResult, qui inclut les noms de colonnes et les types.
Types de flux
query_column_block_stream renvoie le bloc sous la forme d’une séquence de données de colonnes stockées dans des data types Python natifs. En reprenant les queries taxi_trips ci-dessus, les données renvoyées seront une liste dans laquelle chaque élément est lui-même une liste (ou un tuple) contenant toutes les données de la colonne correspondante. Ainsi, block[0] serait un tuple ne contenant que des chaînes de caractères. Les formats orientés colonnes sont surtout utilisés pour effectuer des opérations d’agrégation sur toutes les valeurs d’une colonne, par exemple pour additionner le montant total des courses.
La méthode query_row_block_stream renvoie le bloc sous la forme d’une séquence de lignes, comme dans une base de données relationnelle classique. Pour les trajets de taxi, les données renvoyées seront une liste dans laquelle chaque élément est lui-même une liste représentant une ligne de données. Ainsi, block[0] contiendrait tous les champs (dans l’ordre) du premier trajet de taxi, block[1] contiendrait tous les champs du deuxième trajet de taxi, et ainsi de suite. Les résultats orientés lignes sont généralement utilisés pour l’affichage ou les processus de transformation.
query_row_stream est une méthode utilitaire qui passe automatiquement au bloc suivant lors de l’itération sur le flux. Pour le reste, elle est identique à query_row_block_stream.
La méthode query_np_stream renvoie chaque bloc sous la forme d’un Array NumPy à deux dimensions. En interne, les Array NumPy sont (généralement) stockés sous forme de colonnes, il n’est donc pas nécessaire d’avoir des méthodes distinctes pour les lignes et les colonnes. La « shape » du Array NumPy sera exprimée sous la forme (colonnes, lignes). La bibliothèque NumPy fournit de nombreuses methods pour manipuler les Array NumPy. Notez que si toutes les colonnes de la query partagent le même Dtype NumPy, le Array NumPy renvoyé n’aura lui aussi qu’un seul Dtype et pourra être redimensionné/roté sans modifier réellement sa structure interne.
La méthode query_df_stream renvoie chaque Block ClickHouse sous la forme d’un Pandas DataFrame à deux dimensions. Voici un Example montrant que l’objet StreamContext peut être utilisé comme contexte de manière différée (mais une seule fois).
query_df_arrow_stream renvoie chaque bloc ClickHouse sous forme de DataFrame avec le backend PyArrow pour les dtypes. Cette méthode prend en charge les DataFrames Pandas (2.x ou version ultérieure) et Polars via le paramètre dataframe_library (valeur par défaut : "pandas"). Chaque itération produit un DataFrame converti à partir de record batches PyArrow, offrant de meilleures performances et une meilleure efficacité mémoire pour certains types de données.
Enfin, la méthode query_arrow_stream renvoie un résultat ClickHouse au format ArrowStream sous la forme d’un pyarrow.ipc.RecordBatchStreamReader encapsulé dans StreamContext. Chaque itération du flux renvoie un RecordBlock PyArrow.
Exemples en streaming
Flux de lignes
flux de blocs de lignes
Diffuser des DataFrames Pandas
Diffusion de lots Arrow
Requêtes NumPy, Pandas et Arrow
Requêtes NumPy
query_np renvoie le résultat de la requête sous la forme d’un tableau NumPy plutôt que d’un QueryResult de ClickHouse Connect.
Requêtes Pandas
query_df renvoie le résultat de la requête sous forme de Pandas DataFrame plutôt que de QueryResult ClickHouse Connect.
Requêtes PyArrow
query_arrow renvoie le résultat de la requête sous la forme d’une PyArrow Table. Elle utilise directement le format Arrow de ClickHouse et n’accepte donc que trois arguments en commun avec la méthode principale query : query, parameters et settings. Elle accepte également un argument supplémentaire, use_strings, qui détermine si l’Arrow Table restitue les types String de ClickHouse sous forme de chaînes (si True) ou d’octets (si False).
DataFrames adossés à Arrow
query_df_arrow et query_df_arrow_stream. Il s’agit de wrappers légers autour des méthodes de query Arrow, avec des conversions sans copie vers des DataFrames lorsque c’est possible :
query_df_arrow: exécute la query en utilisant le format de sortie ClickHouseArrowet renvoie un DataFrame.- Pour
dataframe_library='pandas', renvoie un DataFrame pandas 2.x utilisant des dtypes avec backend Arrow (pd.ArrowDtype). Cela nécessite pandas 2.x et exploite, lorsque c’est possible, des buffers sans copie pour d’excellentes performances et une faible surcharge mémoire. - Pour
dataframe_library='polars', renvoie un DataFrame Polars créé à partir de l’Arrow Table (pl.from_arrow), avec une efficacité comparable et, selon les données, sans copie.
- Pour
query_df_arrow_stream: renvoie les résultats sous forme d’une séquence de DataFrames (pandas 2.x ou Polars) convertis à partir des batches du flux Arrow.
Requête vers un DataFrame adossé à Arrow
Notes et limitations
- Correspondance des types Arrow : lors du renvoi des données au format Arrow, ClickHouse associe les types aux types Arrow pris en charge les plus proches. Certains types ClickHouse n’ont pas d’équivalent Arrow natif et sont renvoyés sous forme d’octets bruts dans des champs Arrow (généralement
BINARYouFIXED_SIZE_BINARY).- Exemples :
IPv4est représenté par le type ArrowUINT32;IPv6et les grands entiers (Int128/UInt128/Int256/UInt256) sont souvent représentés sous forme deFIXED_SIZE_BINARY/BINARYavec des octets bruts. - Dans ces cas, la colonne du DataFrame contient des valeurs d’octets provenant du champ Arrow ; c’est au code client d’interpréter/convertir ces octets conformément à la sémantique de ClickHouse.
- Exemples :
- Les types de données Arrow non pris en charge (par ex. UUID/ENUM comme véritables types Arrow) ne sont pas émis ; les valeurs sont représentées à l’aide du type Arrow pris en charge le plus proche (souvent sous forme d’octets binaires) en sortie.
- Prérequis Pandas : les dtypes reposant sur Arrow nécessitent pandas 2.x. Pour les anciennes versions de pandas, utilisez plutôt
query_df(sans Arrow). - Chaînes vs binaire : l’option
use_strings(lorsqu’elle est prise en charge par le paramètre serveuroutput_format_arrow_string_as_string) contrôle si les colonnes ClickHouseStringsont renvoyées sous forme de chaînes Arrow ou en binaire.
Exemples de conversions entre types ClickHouse et Arrow incompatibles
FIXED_SIZE_BINARY ou BINARY), c’est au code applicatif de convertir ces octets dans les types Python appropriés. Les exemples ci-dessous montrent que certaines conversions sont possibles à l’aide des API des bibliothèques DataFrame, tandis que d’autres peuvent nécessiter des approches en Python pur, comme struct.unpack (qui sacrifient les performances, mais préservent la flexibilité).
Les colonnes Date peuvent être renvoyées en UINT16 (nombre de jours écoulés depuis l’époque Unix, 1970‑01‑01). La conversion dans le DataFrame est efficace et simple :
Int128 peuvent être reçues au format FIXED_SIZE_BINARY, sous forme d’octets bruts. Polars prend nativement en charge les entiers 128 bits :
dtype entier public sur 128 bits ; nous devons donc nous rabattre sur du Python pur et faire quelque chose comme ceci :
Formats de lecture
query, query_np et query_df. (Les méthodes raw_query et query_arrow ne modifient pas les données reçues de ClickHouse ; le contrôle du format ne s’y applique donc pas.) Par exemple, si le format de lecture d’un UUID est remplacé, du format native par défaut au format alternatif string, une requête ClickHouse sur une colonne UUID renverra des valeurs de type chaîne (au format RFC 1422 standard 8-4-4-4-12) au lieu d’objets UUID Python.
L’argument « data type » de toute fonction de formatage peut inclure des caractères génériques. Le format est une seule chaîne en minuscules.
Les formats de lecture peuvent être définis à plusieurs niveaux :
- Globalement, à l’aide des méthodes définies dans le paquet
clickhouse_connect.datatypes.format. Cela contrôle le format du type de données configuré pour toutes les requêtes.
- Pour une requête entière, en utilisant l’argument de dictionnaire facultatif
query_formats. Dans ce cas, toute colonne (ou sous-colonne) des types de données concernés utilisera le format configuré.
- Pour les valeurs d’une colonne spécifique, en utilisant l’argument de dictionnaire optionnel
column_formats. La clé est le nom de la colonne tel que renvoyé par ClickHouse, et la valeur est soit le format de la colonne de données, soit un dictionnaireformatde second niveau dont la clé est un nom de type ClickHouse et la valeur un format de requête. Ce dictionnaire secondaire peut être utilisé pour des types de colonnes imbriqués tels que Tuples ou Maps.
Options de format de lecture (types Python)
| Type ClickHouse | Type Python natif | Formats de lecture | Commentaires |
|---|---|---|---|
| Int[8-64], UInt[8-32] | int | - | |
| UInt64 | int | signed | Superset ne gère pas actuellement les grandes valeurs UInt64 non signées |
| [U]Int[128,256] | int | string | Les valeurs int de Pandas et NumPy sont limitées à 64 bits ; elles peuvent donc être renvoyées sous forme de chaînes |
| BFloat16 | float | - | En interne, tous les floats Python sont codés sur 64 bits |
| Float32 | float | - | En interne, tous les floats Python sont codés sur 64 bits |
| Float64 | float | - | |
| Decimal | decimal.Decimal | - | |
| String | string | bytes | Les colonnes String de ClickHouse n’ont pas d’encodage intrinsèque ; elles servent donc aussi pour des données binaires de longueur variable |
| FixedString | bytes | string | Les FixedString sont des tableaux d’octets de taille fixe, mais sont parfois traités comme des chaînes Python |
| Enum[8,16] | string | string, int | Les enums Python n’acceptent pas les chaînes vides ; tous les enums sont donc renvoyés soit comme des chaînes, soit comme leur valeur int sous-jacente. |
| Date | datetime.date | int | ClickHouse stocke les Date comme un nombre de jours depuis le 01/01/1970. Cette valeur est disponible sous forme d’int |
| Date32 | datetime.date | int | Identique à Date, mais pour une plage de dates plus étendue |
| DateTime | datetime.datetime | int | ClickHouse stocke les DateTime en secondes depuis l’epoch. Cette valeur est disponible sous forme d’int |
| DateTime64 | datetime.datetime | int | Python datetime.datetime est limité à une précision à la microseconde. La valeur brute int sur 64 bits est disponible |
| Time | datetime.timedelta | int, string, time | Le point dans le temps est enregistré sous forme d’horodatage Unix. Cette valeur est disponible sous forme d’int |
| Time64 | datetime.timedelta | int, string, time | Python datetime.timedelta est limité à une précision à la microseconde. La valeur brute int sur 64 bits est disponible |
| IPv4 | ipaddress.IPv4Address | string | Les adresses IP peuvent être lues comme des chaînes, et des chaînes correctement formatées peuvent être insérées comme adresses IP |
| IPv6 | ipaddress.IPv6Address | string | Les adresses IP peuvent être lues comme des chaînes, et des chaînes correctement formatées peuvent être insérées comme adresses IP |
| Tuple | dict or tuple | tuple, json | Les named tuples sont renvoyés sous forme de dictionnaires par défaut. Ils peuvent aussi être renvoyés sous forme de chaînes JSON |
| Map | dict | - | |
| Nested | Sequence[dict] | - | |
| UUID | uuid.UUID | string | Les UUIDs peuvent être lus comme des chaînes formatées conformément à la RFC 4122 |
| JSON | dict | string | Un dictionnaire Python est renvoyé par défaut. Le format string renvoie une chaîne JSON |
| Variant | object | - | Renvoie le type Python correspondant au type de données ClickHouse stocké pour la valeur |
| Dynamic | object | - | Renvoie le type Python correspondant au type de données ClickHouse stocké pour la valeur |
Données externes
query* du client acceptent un paramètre facultatif external_data pour tirer parti de cette fonctionnalité. La valeur du paramètre external_data doit être un objet clickhouse_connect.driver.external.ExternalData. Le constructeur de cet objet accepte les arguments suivants :
| Nom | Type | Description |
|---|---|---|
| file_path | str | Chemin d’accès à un fichier sur le système local à partir duquel lire les données externes. file_path ou data est requis |
| file_name | str | Le nom du “fichier” de données externes. S’il n’est pas fourni, il sera déterminé à partir de file_path (sans extension) |
| data | bytes | Les données externes sous forme binaire (au lieu d’être lues à partir d’un fichier). data ou file_path est requis |
| fmt | str | Le format d’entrée ClickHouse des données. La valeur par défaut est TSV |
| types | str or seq of str | Une liste de types de données des colonnes dans les données externes. S’il s’agit d’une chaîne, les types doivent être séparés par des virgules. types ou structure est requis |
| structure | str or seq of str | Une liste de noms de colonnes + type de données dans les données (voir les exemples). structure ou types est requis |
| mime_type | str | Type MIME facultatif des données du fichier. Actuellement, ClickHouse ignore ce sous-en-tête HTTP |
directors déjà présente sur le serveur ClickHouse :
ExternalData initial à l’aide de la méthode add_file, qui prend les mêmes paramètres que le constructeur. En HTTP, toutes les données externes sont transmises dans le cadre d’un envoi de fichier multi-part/form-data.
Fuseaux horaires
DateTime64 sous forme de nombre sans fuseau horaire représentant les secondes écoulées depuis l’époque, soit 1970-01-01 00:00:00 UTC. Pour les valeurs DateTime64, la représentation peut être en millisecondes, microsecondes ou nanosecondes depuis l’époque, selon la précision. Par conséquent, toute information de fuseau horaire est toujours appliquée côté client. Notez que cela implique un surcoût de calcul non négligeable ; dans les applications sensibles aux performances, il est donc recommandé de traiter les types DateTime comme des timestamps d’époque, sauf pour l’affichage à l’utilisateur et la conversion (les timestamps Pandas, par exemple, sont toujours des entiers 64 bits représentant des nanosecondes depuis l’époque afin d’améliorer les performances).
Lors de l’utilisation dans les requêtes de types de données tenant compte du fuseau horaire, en particulier l’objet Python datetime.datetime, clickhouse-connect applique un fuseau horaire côté client selon les règles de priorité suivantes :
- Si le paramètre de méthode de requête
client_tzsest spécifié pour la requête, le fuseau horaire propre à la colonne est appliqué - Si la colonne ClickHouse possède des métadonnées de fuseau horaire (c.-à-d. qu’il s’agit d’un type comme DateTime64(3, ‘America/Denver’)), le fuseau horaire de la colonne ClickHouse est appliqué. (Notez que ces métadonnées de fuseau horaire ne sont pas disponibles pour clickhouse-connect pour les colonnes DateTime avant la version 23.2 de ClickHouse)
- Si le paramètre de méthode de requête
query_tzest spécifié pour la requête, le « fuseau horaire de la requête » est appliqué. - Si un paramètre de fuseau horaire est appliqué à la requête ou à la session, ce fuseau horaire est appliqué. (Cette fonctionnalité n’est pas encore disponible dans le serveur ClickHouse)
- Enfin, si le paramètre client
apply_server_timezonea été défini sur True (valeur par défaut), le fuseau horaire du serveur ClickHouse est appliqué.
clickhouse-connect renverra toujours un objet Python datetime.datetime sans fuseau horaire. Des informations de fuseau horaire supplémentaires peuvent ensuite être ajoutées à cet objet par l’application code si nécessaire.