DataStore
Constructeur
| Paramètre | Type | Description |
|---|---|---|
data | dict/list/DataFrame/DataStore | Données d’entrée |
columns | list | Noms des colonnes |
index | Index | Index des lignes |
dtype | dict | Types de données des colonnes |
copy | bool | Copie des données |
Propriétés
| Propriété | Type | Description |
|---|---|---|
columns | Index | Noms des colonnes |
dtypes | Series | Types de données des colonnes |
shape | tuple | (lignes, colonnes) |
size | int | Nombre total d’éléments |
ndim | int | Nombre de dimensions (2) |
empty | bool | DataFrame vide ? |
values | ndarray | Données sous-jacentes sous forme de tableau NumPy |
index | Index | Index des lignes |
T | DataStore | Transposé |
axes | list | Liste des axes |
Méthodes de fabrique
| Méthode | Description |
|---|---|
uri(uri) | Fabrique universelle à partir d’un URI |
from_file(path, ...) | Créer à partir d’un fichier |
from_df(df) | Créer à partir d’un pandas DataFrame |
from_s3(url, ...) | Créer à partir de S3 |
from_gcs(url, ...) | Créer à partir de Google Cloud Storage |
from_azure(url, ...) | Créer à partir d’Azure Blob |
from_mysql(...) | Créer à partir de MySQL |
from_postgresql(...) | Créer à partir de PostgreSQL |
from_clickhouse(...) | Créer à partir de ClickHouse |
from_mongodb(...) | Créer à partir de MongoDB |
from_sqlite(...) | Créer à partir de SQLite |
from_iceberg(path) | Créer à partir d’une table Iceberg |
from_delta(path) | Créer à partir de Delta Lake |
from_numbers(n) | Créer avec une suite de nombres |
from_random(rows, cols) | Créer avec des données aléatoires |
run_sql(query) | Créer à partir d’une requête SQL |
Méthodes de requête
| Méthode | Renvoyer | Description |
|---|---|---|
select(*cols) | DataStore | Sélectionner des colonnes |
filter(condition) | DataStore | Filtrer les lignes |
where(condition) | DataStore | alias de filter |
sort(*cols, ascending=True) | DataStore | Trier les lignes |
orderby(*cols) | DataStore | alias de sort |
limit(n) | DataStore | Limiter le nombre de lignes |
offset(n) | DataStore | Ignorer certaines lignes |
distinct(subset=None) | DataStore | Supprimer les doublons |
groupby(*cols) | LazyGroupBy | Regrouper les lignes |
having(condition) | DataStore | Filtrer les groupes |
join(right, ...) | DataStore | Joindre des DataStore |
union(other, all=False) | DataStore | Combiner des DataStore |
when(cond, val) | CaseWhen | CASE WHEN |
Méthodes compatibles avec pandas
head(), tail(), sample(), loc, iloc, at, iat, query(), isin(), where(), mask(), get(), xs(), pop()
Agrégation :
sum(), mean(), std(), var(), min(), max(), median(), count(), nunique(), quantile(), describe(), corr(), cov(), skew(), kurt()
Manipulation :
drop(), drop_duplicates(), dropna(), fillna(), replace(), rename(), assign(), astype(), copy()
Tri :
sort_values(), sort_index(), nlargest(), nsmallest(), rank()
Restructuration :
pivot(), pivot_table(), melt(), stack(), unstack(), transpose(), explode(), squeeze()
Combinaison :
merge(), join(), concat(), append(), combine(), update(), compare()
Application/Transformation :
apply(), applymap(), map(), agg(), transform(), pipe(), groupby()
Séries temporelles :
rolling(), expanding(), ewm(), shift(), diff(), pct_change(), resample()
Méthodes d’E/S
| Méthode | Description |
|---|---|
to_csv(path, ...) | Exporter au format CSV |
to_parquet(path, ...) | Exporter au format Parquet |
to_json(path, ...) | Exporter au format JSON |
to_excel(path, ...) | Exporter au format Excel |
to_df() | Convertir en pandas DataFrame |
to_pandas() | alias de to_df |
to_arrow() | Convertir en Arrow Table |
to_dict(orient) | Convertir en dictionnaire |
to_records() | Convertir en enregistrements |
to_numpy() | Convertir en tableau NumPy |
to_sql() | Générer une chaîne SQL |
to_string() | Représentation sous forme de chaîne |
to_markdown() | Tableau Markdown |
to_html() | Tableau HTML |
Méthodes de débogage
| Méthode | Description |
|---|---|
explain(verbose=False) | Afficher le plan d’exécution |
clear_cache() | Effacer les résultats en cache |
Méthodes magiques
| Méthode | Description | |
|---|---|---|
__getitem__(key) | ds['col'], ds[['a', 'b']], ds[condition] | |
__setitem__(key, value) | ds['col'] = value | |
__delitem__(key) | del ds['col'] | |
__len__() | len(ds) | |
__iter__() | for col in ds | |
__contains__(key) | 'col' in ds | |
__repr__() | repr(ds) | |
__str__() | str(ds) | |
__eq__(other) | ds == other | |
__ne__(other) | ds != other | |
__lt__(other) | ds < other | |
__le__(other) | ds <= other | |
__gt__(other) | ds > other | |
__ge__(other) | ds >= other | |
__add__(other) | ds + other | |
__sub__(other) | ds - other | |
__mul__(other) | ds * other | |
__truediv__(other) | ds / other | |
__floordiv__(other) | ds // other | |
__mod__(other) | ds % other | |
__pow__(other) | ds ** other | |
__and__(other) | ds & other | |
__or__(other) | `ds | other` |
__invert__() | ~ds | |
__neg__() | -ds | |
__pos__() | +ds | |
__abs__() | abs(ds) |
ColumnExpr
Propriétés
| Propriété | Type | Description |
|---|---|---|
name | str | Nom de la colonne |
dtype | dtype | Type de données |
Accessors
| Accessor | Description | Methods |
|---|---|---|
.str | Opérations sur les chaînes | 56 méthodes |
.dt | Opérations sur les valeurs DateTime | 42+ méthodes |
.arr | Opérations sur les Array | 37 méthodes |
.json | Analyse du JSON | 13 méthodes |
.url | Analyse des URL | 15 méthodes |
.ip | Opérations sur les adresses IP | 9 méthodes |
.geo | Opérations Geo et de distance | 14 méthodes |
Opérations arithmétiques
Opérations de comparaison
Opérations logiques
Méthodes
| Méthode | Description |
|---|---|
as_(alias) | Définir un alias |
cast(dtype) | Convertir vers un type |
astype(dtype) | Alias de cast |
isnull() | Est NULL |
notnull() | N’est pas NULL |
isna() | Alias de isnull |
notna() | Alias de notnull |
isin(values) | Appartient à une liste de valeurs |
between(low, high) | Entre deux valeurs |
fillna(value) | Remplir les valeurs NULL |
replace(to_replace, value) | Remplacer des valeurs |
clip(lower, upper) | Limiter les valeurs |
abs() | Valeur absolue |
round(decimals) | Arrondir les valeurs |
floor() | Arrondi à l’entier inférieur |
ceil() | Arrondi à l’entier supérieur |
apply(func) | Appliquer une fonction |
map(mapper) | Mapper les valeurs |
Méthodes d’agrégation
| Méthode | Description |
|---|---|
sum() | Somme |
mean() | Moyenne |
avg() | Alias de mean() |
min() | Minimum |
max() | Maximum |
count() | Nombre de valeurs non nulles |
nunique() | Nombre de valeurs uniques |
std() | Écart type |
var() | Variance |
median() | Médiane |
quantile(q) | Quantile |
first() | Première valeur |
last() | Dernière valeur |
any() | Au moins une valeur vraie |
all() | Toutes les valeurs vraies |
LazyGroupBy
Méthodes
| Méthode | Renvoie | Description |
|---|---|---|
agg(spec) | DataStore | Agrégation |
aggregate(spec) | DataStore | alias de agg |
sum() | DataStore | Somme par groupe |
mean() | DataStore | Moyenne par groupe |
count() | DataStore | Nombre par groupe |
min() | DataStore | Minimum par groupe |
max() | DataStore | Maximum par groupe |
std() | DataStore | Écart-type par groupe |
var() | DataStore | Variance par groupe |
median() | DataStore | Médiane par groupe |
nunique() | DataStore | Nombre de valeurs uniques par groupe |
first() | DataStore | Première valeur par groupe |
last() | DataStore | Dernière valeur par groupe |
nth(n) | DataStore | Nième valeur par groupe |
head(n) | DataStore | n premières par groupe |
tail(n) | DataStore | n dernières par groupe |
apply(func) | DataStore | Application de la fonction par groupe |
transform(func) | DataStore | Transformation par groupe |
filter(func) | DataStore | Filtrage des groupes |
Sélection de colonnes
Spécifications d’agrégation
LazySeries
Propriétés
| Propriété | Type | Description |
|---|---|---|
name | str | Nom de la série |
dtype | dtype | Type de données |
Méthodes
ColumnExpr. Principales méthodes :
| Méthode | Description |
|---|---|
value_counts() | Fréquences des valeurs |
unique() | Valeurs uniques |
nunique() | Nombre de valeurs uniques |
mode() | Valeur la plus fréquente |
to_list() | Convertir en liste |
to_numpy() | Convertir en tableau |
to_frame() | Convertir en DataStore |