topK

Introduit dans : v1.1.0 Renvoie un tableau des valeurs approximativement les plus fréquentes dans la colonne spécifiée. Le tableau résultant est trié par ordre décroissant de fréquence approximative des valeurs (et non selon les valeurs elles-mêmes). Implémente l’algorithme Filtered Space-Saving pour l’analyse de TopK, sur la base de l’algorithme reduce-and-combine de Parallel Space Saving. Cette fonction ne fournit pas de résultat garanti. Dans certaines situations, des erreurs peuvent se produire et elle peut renvoyer des valeurs fréquentes qui ne sont pas les plus fréquentes. Voir aussi

Syntaxe

topK(N)(column)
topK(N, load_factor)(column)
topK(N, load_factor, 'counts')(column)

Paramètres

N — Le nombre d’éléments à renvoyer. Valeur par défaut : 10. Valeur maximale : N = 65536. UInt64
load_factor — Facultatif. Définit le nombre de cellules réservées aux valeurs. Si uniq(column) > N * load_factor, le résultat de la fonction topK sera approximatif. Valeur par défaut : 3. UInt64
counts — Facultatif. Indique si le résultat doit contenir un nombre approximatif d’occurrences et une valeur d’erreur. Bool

Arguments

column — Le nom de la colonne pour laquelle trouver les valeurs les plus fréquentes. String

Valeur renvoyée Renvoie un tableau des valeurs approximativement les plus fréquentes, triées par ordre décroissant de fréquence approximative. Array Exemples Exemple d’utilisation

Query

SELECT topK(3)(AirlineID) AS res
FROM ontime;

Response

┌─res─────────────────┐
│ [19393,19790,19805] │
└─────────────────────┘

Voir aussi

​topK

topK