الانتقال إلى المحتوى الرئيسي

الوصف

يمكن تطبيق المُركِّب MergeState على الدالة avg لدمج حالات التجميع الجزئية من النوع AverageFunction(avg, T)، وإرجاع حالة تجميع وسيطة جديدة.

مثال على الاستخدام

يُعد المُركِّب MergeState مفيدًا بشكل خاص في سيناريوهات التجميع متعددة المستويات، حيث تحتاج إلى دمج الحالات المجمّعة مسبقًا والاحتفاظ بها كحالات (بدلًا من إنهائها) لمزيد من المعالجة. ولتوضيح ذلك، سنستعرض مثالًا نحوّل فيه مقاييس أداء الخوادم الفردية إلى تجميعات هرمية عبر عدة مستويات: مستوى الخادم → مستوى المنطقة → مستوى مركز البيانات. أولًا، ننشئ جدولًا لتخزين البيانات الخام:
CREATE TABLE raw_server_metrics
(
    timestamp DateTime DEFAULT now(),
    server_id UInt32,
    region String,
    datacenter String,
    response_time_ms UInt32
)
ENGINE = MergeTree()
ORDER BY (region, server_id, timestamp);
سننشئ جدول هدف للتجميع على مستوى الخادم، ونعرّف عرضًا ماديًا تزايديًا يعمل كمشغّل إدراج له:
CREATE TABLE server_performance
(
    server_id UInt32,
    region String,
    datacenter String,
    avg_response_time AggregateFunction(avg, UInt32)
)
ENGINE = AggregatingMergeTree()
ORDER BY (region, server_id);

CREATE MATERIALIZED VIEW server_performance_mv
TO server_performance
AS SELECT
    server_id,
    region,
    datacenter,
    avgState(response_time_ms) AS avg_response_time
FROM raw_server_metrics
GROUP BY server_id, region, datacenter;
سنطبّق الأمر نفسه على مستويي المنطقة ومركز البيانات:
CREATE TABLE region_performance
(
    region String,
    datacenter String,
    avg_response_time AggregateFunction(avg, UInt32)
)
ENGINE = AggregatingMergeTree()
ORDER BY (datacenter, region);

CREATE MATERIALIZED VIEW region_performance_mv
TO region_performance
AS SELECT
    region,
    datacenter,
    avgMergeState(avg_response_time) AS avg_response_time
FROM server_performance
GROUP BY region, datacenter;

-- datacenter level table and materialized view

CREATE TABLE datacenter_performance
(
    datacenter String,
    avg_response_time AggregateFunction(avg, UInt32)
)
ENGINE = AggregatingMergeTree()
ORDER BY datacenter;

CREATE MATERIALIZED VIEW datacenter_performance_mv
TO datacenter_performance
AS SELECT
      datacenter,
      avgMergeState(avg_response_time) AS avg_response_time
FROM region_performance
GROUP BY datacenter;
سنُدرِج بعد ذلك بيانات خام تجريبية في الجدول المصدر:
INSERT INTO raw_server_metrics (timestamp, server_id, region, datacenter, response_time_ms) VALUES
    (now(), 101, 'us-east', 'dc1', 120),
    (now(), 101, 'us-east', 'dc1', 130),
    (now(), 102, 'us-east', 'dc1', 115),
    (now(), 201, 'us-west', 'dc1', 95),
    (now(), 202, 'us-west', 'dc1', 105),
    (now(), 301, 'eu-central', 'dc2', 145),
    (now(), 302, 'eu-central', 'dc2', 155);
سنكتب ثلاثة استعلامات لكل مستوى من هذه المستويات:
SELECT
    server_id,
    region,
    avgMerge(avg_response_time) AS avg_response_ms
FROM server_performance
GROUP BY server_id, region
ORDER BY region, server_id;
┌─server_id─┬─region─────┬─avg_response_ms─┐
│       301 │ eu-central │             145 │
│       302 │ eu-central │             155 │
│       101 │ us-east    │             125 │
│       102 │ us-east    │             115 │
│       201 │ us-west    │              95 │
│       202 │ us-west    │             105 │
└───────────┴────────────┴─────────────────┘
يمكننا إدراج المزيد من البيانات:
INSERT INTO raw_server_metrics (timestamp, server_id, region, datacenter, response_time_ms) VALUES
    (now(), 101, 'us-east', 'dc1', 140),
    (now(), 201, 'us-west', 'dc1', 85),
    (now(), 301, 'eu-central', 'dc2', 135);
دعنا نتحقق مرة أخرى من الأداء على مستوى مركز البيانات. لاحظ كيف تم تحديث سلسلة التجميع بأكملها تلقائيًا:
SELECT
    datacenter,
    avgMerge(avg_response_time) AS avg_response_ms
FROM datacenter_performance
GROUP BY datacenter
ORDER BY datacenter;
┌─datacenter─┬────avg_response_ms─┐
│ dc1        │ 112.85714285714286 │
│ dc2        │                145 │
└────────────┴────────────────────┘

راجع أيضًا

آخر تعديل في ٢٩ يونيو ٢٠٢٦