- تخزين الكائنات Amazon S3.
- Azure Blob Storage.
- غير مدعوم: نظام ملفات Hadoop الموزّع (HDFS)
يدعم ClickHouse أيضًا محركات الجداول الخارجية، وهي تختلف عن
خيار التخزين الخارجي الموصوف في هذه الصفحة، لأنها تتيح قراءة البيانات
المخزّنة بتنسيقات ملفات عامة (مثل Parquet). في هذه الصفحة، نصف
إعدادات التخزين لعائلة جداول
MergeTree أو لعائلة جداول Log.- للعمل مع البيانات المخزّنة على أقراص
Amazon S3، استخدم محرك الجداول S3. - للعمل مع البيانات المخزّنة في Azure Blob Storage، استخدم محرك الجداول AzureBlobStorage.
- للعمل مع البيانات الموجودة في نظام ملفات Hadoop الموزّع (غير مدعوم)، استخدم محرك الجداول HDFS.
تهيئة التخزين الخارجي
MergeTree وLog
تخزين البيانات في S3 وAzureBlobStorage وHDFS (غير مدعوم) باستخدام قرص من الأنواع s3،
وazure_blob_storage وhdfs (غير مدعوم) على التوالي.
يتطلب إعداد القرص ما يلي:
- قسم
type، وتكون قيمته إحدى القيمs3أوazure_blob_storageأوhdfs(غير مدعوم) أوlocal_blob_storageأوweb. - تهيئة نوع محدد من التخزين الخارجي.
- قيمة
typeمساوية لـobject_storage object_storage_type، وتكون قيمته إحدى القيمs3أوazure_blob_storage(أو فقطazureبدءًا من24.3) أوhdfs(غير مدعوم) أوlocal_blob_storage(أو فقطlocalبدءًا من24.3) أوweb.
يمكن اختياريًا تحديد
metadata_type (وتكون قيمته local افتراضيًا)، كما يمكن أيضًا ضبطه على plain وweb وبدءًا من 24.4 على plain_rewritable.
يُشرح استخدام نوع البيانات الوصفية plain في قسم التخزين البسيط، ولا يمكن استخدام نوع البيانات الوصفية web إلا مع نوع تخزين الكائنات web، بينما يخزن نوع البيانات الوصفية local ملفات البيانات الوصفية محليًا (يحتوي كل ملف بيانات وصفية على ربط بالملفات في تخزين الكائنات، إلى جانب بعض المعلومات الوصفية الإضافية عنها).
على سبيل المثال:
24.1):
MergeTree،
أضِف القسم التالي إلى ملف التهيئة:
disk بدلًا من storage_policy. في هذه الحالة، لا حاجة إلى
وجود قسم storage_policy في ملف الإعدادات، ويكفي وجود قسم
disk.
refresh_parts_interval and table_disk
refresh_parts_interval تحديثًا دوريًا لقائمة أجزاء البيانات من التخزين الأساسي (على سبيل المثال، لاكتشاف الأجزاء المكتوبة خارجيًا). والتمييز المهم هنا هو بين البيانات الوصفية المشتركة بين النسخ المتماثلة والبيانات الوصفية المحلية لكل نسخة متماثلة (مثل S3 مع بيانات وصفية محلية لكل نسخة): فقط عندما تكون البيانات الوصفية مشتركة تصبح الأجزاء الجديدة مرئية لجميع النسخ المتماثلة. ولا يعني استخدام تخزين الكائنات وحده بالضرورة وجود بيانات وصفية مشتركة.
-
تخزين الكائنات (مثل
disk = 's3') لا يعني بالضرورة وجود بيانات وصفية مشتركة. عندما تُخزَّن البيانات الوصفية محليًا لكل نسخة متماثلة (وهو الوضع الافتراضي)، تدير كل نسخة بشكل مستقل مؤشراتِها إلى الكائنات في تخزين الكائنات. ولا تكون التغييرات التي تُجرى على إحدى النسخ مرئية للنسخ الأخرى. وفي هذه الحالة، لا يجعلrefresh_parts_intervalالأجزاء الجديدة مرئية عبر النسخ المتماثلة، لأن البيانات الوصفية التي تقرؤها كل نسخة محلية لتلك النسخة. -
يتطلب التحديث التلقائي للأجزاء أن تكون البيانات الوصفية لنظام الملفات مشتركة (أو أن يستخدم الجدول بيانات وصفية يملكها الجدول ومضبوطة للقراءة فقط بحيث يكون التحديث قابلًا للتطبيق). ويُعد ضبط
table_disk = trueمع قرص محلي على مستوى الجدول (مثلSETTINGS disk = disk(type=object_storage, ...), table_disk = true) إحدى طرق الحصول على السلوك الصحيح: إذ يتحكم الجدول في دورة حياة البيانات الوصفية، ويُتعامل مع التخزين على أنه للقراءة فقط، لذا يعملrefresh_parts_intervalويمكن اكتشاف الأجزاء المضافة خارجيًا. -
عند استخدام قرص معرّف على مستوى عام (مثل
disk = 's3'فيstorage_configuration) مع البيانات الوصفية المحلية الافتراضية، تكون لكل نسخة متماثلة حالتها الخاصة من البيانات الوصفية. وحتى إذا كانت الكائنات موجودة في S3، فلا يُعدّ التخزين مشتركًا لأغراضrefresh_parts_interval، ولن تُكتشف الأجزاء الجديدة التي أُنشئت خارج ClickHouse أو على نسخة متماثلة أخرى.
table_disk = true كما هو موضح أعلاه. أما الاعتماد على refresh_parts_interval وحده مع بيانات وصفية محلية لكل نسخة متماثلة، فلن يؤدي إلى تحديث الأجزاء كما هو متوقع.
لا يُستخدم
refresh_parts_interval مع جداول ReplicatedMergeTree.
فالجداول المكررة تزامن الأجزاء بالفعل عبر آلية النسخ المتماثل.
ولا ينطبق هذا الإعداد إلا على جداول MergeTree غير المكررة التي تُكتب أجزاؤها خارجيًا ويكون فيها تحديث البيانات الوصفية مطلوبًا.التهيئة الديناميكية
CREATE/ATTACH.
يعتمد استعلام المثال التالي على تهيئة القرص الديناميكية المذكورة أعلاه، ويوضح كيفية استخدام قرص محلي لتخزين بيانات جدول مخزَّن على URL مؤقتًا.
type=web متداخل داخل
القرص ذي type=cache.
يستخدم المثال
type=web، لكن يمكن تهيئة أي نوع قرص ليكون ديناميكيًا،
بما في ذلك القرص المحلي. تتطلب الأقراص المحلية أن تكون وسيطة path ضمن
معامل config الخاص بالخادم custom_local_disks_base_directory، والذي لا
يملك قيمة افتراضية، لذا اضبطه أيضًا عند استخدام القرص المحلي.web وارد في ملف تهيئة الخادم:
استخدام S3 للتخزين
المعلمات المطلوبة
| المعلمة | الوصف |
|---|---|
endpoint | عنوان URL لنقطة نهاية S3 بنمط path أو virtual hosted الأنماط. يجب أن يتضمن الحاوية والمسار الجذر لتخزين البيانات. |
access_key_id | معرّف مفتاح الوصول إلى S3 المستخدم للمصادقة. |
secret_access_key | مفتاح الوصول السري إلى S3 المستخدم للمصادقة. |
المعلمات الاختيارية
| Parameter | Description | Default Value |
|---|---|---|
region | اسم Region الخاصة بـ S3. | - |
support_batch_delete | يحدد ما إذا كان يجب التحقق من دعم الحذف على دفعات. اضبطه على false عند استخدام Google Cloud Storage (GCS)، لأن GCS لا يدعم الحذف على دفعات. | true |
use_environment_credentials | يقرأ بيانات الاعتماد الخاصة بـ AWS من متغيرات البيئة: AWS_ACCESS_KEY_ID وAWS_SECRET_ACCESS_KEY وAWS_SESSION_TOKEN إذا كانت موجودة. ملاحظة: تتم مشاركة بيانات اعتماد البيئة بين جميع أقراص S3. لاستخدام بيانات اعتماد مختلفة لأقراص مختلفة، حدِّد بدلًا من ذلك access_key_id وsecret_access_key صراحةً لكل قرص. | false |
use_insecure_imds_request | إذا كانت القيمة true، يستخدم طلب IMDS غير آمن عند الحصول على بيانات الاعتماد من EC2 metadata الخاصة بـ Amazon. | false |
expiration_window_seconds | فترة سماح (بالثواني) للتحقق مما إذا كانت بيانات الاعتماد المعتمدة على انتهاء الصلاحية قد انتهت. | 120 |
proxy | إعداد proxy لنقطة نهاية S3. يجب أن يحتوي كل عنصر uri داخل كتلة proxy على عنوان URL للـ proxy. | - |
connect_timeout_ms | مهلة اتصال socket بالمللي ثانية. | 10000 (10 ثوانٍ) |
request_timeout_ms | مهلة الطلب بالمللي ثانية. | 5000 (5 ثوانٍ) |
retry_attempts | عدد محاولات إعادة المحاولة للطلبات الفاشلة. | 10 |
single_read_retries | عدد محاولات إعادة المحاولة عند انقطاع الاتصال أثناء القراءة. | 4 |
min_bytes_for_seek | الحد الأدنى لعدد البايتات لاستخدام عملية seek بدلًا من القراءة التسلسلية. | 1 MB |
metadata_path | مسار نظام الملفات المحلي لتخزين ملفات metadata الخاصة بـ S3. | /var/lib/clickhouse/disks/<disk_name>/ |
skip_access_check | إذا كانت القيمة true، يتخطى فحوصات الوصول إلى القرص أثناء بدء التشغيل. | false |
header | يضيف HTTP header المحدد إلى الطلبات. ويمكن تحديده عدة مرات. | - |
server_side_encryption_customer_key_base64 | الترويسات المطلوبة للوصول إلى كائنات S3 المشفرة باستخدام SSE-C. | - |
server_side_encryption_kms_key_id | الترويسات المطلوبة للوصول إلى كائنات S3 باستخدام تشفير SSE-KMS. تؤدي السلسلة الفارغة إلى استخدام مفتاح S3 المُدار من AWS. | - |
server_side_encryption_kms_encryption_context | ترويسة سياق التشفير لـ SSE-KMS (تُستخدم مع server_side_encryption_kms_key_id). | - |
server_side_encryption_kms_bucket_key_enabled | يفعّل مفاتيح S3 bucket لـ SSE-KMS (يُستخدم مع server_side_encryption_kms_key_id). | يطابق الإعداد على مستوى bucket |
s3_max_put_rps | الحد الأقصى لطلبات PUT في الثانية قبل تطبيق throttling. | 0 (غير محدود) |
s3_max_put_burst | الحد الأقصى لطلبات PUT المتزامنة قبل بلوغ حد RPS. | مثل s3_max_put_rps |
s3_max_get_rps | الحد الأقصى لطلبات GET في الثانية قبل تطبيق throttling. | 0 (غير محدود) |
s3_max_get_burst | الحد الأقصى لطلبات GET المتزامنة قبل بلوغ حد RPS. | مثل s3_max_get_rps |
read_resource | اسم المورد لطلبات القراءة الخاصة بـ scheduling. | سلسلة فارغة (معطّل) |
write_resource | اسم المورد لطلبات الكتابة الخاصة بـ scheduling. | سلسلة فارغة (معطّل) |
key_template | يحدد تنسيق إنشاء مفتاح الكائن باستخدام صياغة re2. ويتطلب العلامة storage_metadata_write_full_object_key. وهو غير متوافق مع root path في endpoint. كما يتطلب key_compatibility_prefix. | - |
key_compatibility_prefix | مطلوب مع key_template. يحدد root path السابق من endpoint لقراءة إصدارات metadata الأقدم. | - |
read_only | يتيح القراءة من القرص فقط. | - |
يُدعَم أيضًا Google Cloud Storage (GCS) باستخدام النوع
s3. راجع GCS backed MergeTree.استخدام التخزين البسيط
22.10 أُضيف نوع قرص جديد s3_plain يوفّر تخزينًا للكتابة مرة واحدة.
ومَعلَمات التهيئة الخاصة به هي نفسها الخاصة بنوع القرص s3.
وعلى خلاف نوع القرص s3، فإنه يخزّن البيانات كما هي. وبعبارة أخرى،
فبدلًا من استخدام أسماء blob مُولَّدة عشوائيًا، يستخدم أسماء ملفات عادية
(بالطريقة نفسها التي يخزّن بها ClickHouse الملفات على القرص المحلي)، ولا يخزّن أي
بيانات وصفية محليًا. فعلى سبيل المثال، تُستخلص البيانات الوصفية من البيانات الموجودة على s3.
يتيح نوع القرص هذا الاحتفاظ بإصدار ثابت من الجدول، لأنه لا
يسمح بتنفيذ عمليات الدمج على البيانات الموجودة، كما لا يسمح بإدراج بيانات
جديدة. ومن حالات الاستخدام لهذا النوع من الأقراص إنشاء نسخ احتياطية عليه، ويمكن تنفيذ ذلك
عبر BACKUP TABLE data TO Disk('plain_disk_name', 'backup_name'). بعد ذلك،
يمكنك تنفيذ RESTORE TABLE data AS data_restored FROM Disk('plain_disk_name', 'backup_name')
أو استخدام ATTACH TABLE data (...) ENGINE = MergeTree() SETTINGS disk = 'plain_disk_name'.
التهيئة:
24.1، أصبح من الممكن تهيئة أي قرص تخزين كائني (s3, azure, hdfs (غير مدعوم), local) باستخدام
نوع البيانات الوصفية plain.
التهيئة:
استخدام تخزين S3 Plain Rewritable
s3_plain_rewritable في 24.4.
وكما هو الحال مع نوع القرص s3_plain، فإنه لا يتطلب مساحة تخزين إضافية لملفات
البيانات الوصفية. وبدلًا من ذلك، تُخزَّن البيانات الوصفية في S3.
وعلى عكس نوع القرص s3_plain، يتيح s3_plain_rewritable تنفيذ عمليات الدمج
ويدعم عمليات INSERT.
عمليات التعديل ونسخ الجداول متماثلًا غير مدعومين.
من حالات الاستخدام المناسبة لهذا النوع من الأقراص جداول MergeTree غير المُكرَّرة. ومع أن
نوع القرص s3 مناسب لجداول MergeTree غير المُكرَّرة، فقد تختار
نوع القرص s3_plain_rewritable إذا كنت لا تحتاج إلى بيانات وصفية محلية
للجدول، وكنت مستعدًا لقبول مجموعة محدودة من العمليات. وقد يكون هذا
مفيدًا، على سبيل المثال، لجداول النظام.
التهيئة:
24.5، أصبح بالإمكان إعداد أي قرص تخزين كائني
(s3, azure, local) باستخدام نوع البيانات الوصفية plain_rewritable.
استخدام Azure Blob Storage
MergeTree تخزين البيانات في Azure Blob Storage
باستخدام قرص من النوع azure_blob_storage.
بنية التهيئة:
معلمات الاتصال
| المعلمة | الوصف | القيمة الافتراضية |
|---|---|---|
storage_account_url (مطلوب) | عنوان URL لحساب Azure Blob Storage. أمثلة: http://account.blob.core.windows.net أو http://azurite1:10000/devstoreaccount1. | - |
container_name | اسم الحاوية الهدف. | default-container |
container_already_exists | يتحكم في سلوك إنشاء الحاوية: - false: ينشئ حاوية جديدة - true: يتصل مباشرةً بحاوية موجودة - غير معيّن: يتحقق مما إذا كانت الحاوية موجودة وينشئها عند الحاجة | - |
| المعلمة | الوصف |
|---|---|
connection_string | للمصادقة باستخدام سلسلة اتصال. |
account_name | للمصادقة باستخدام Shared Key (تُستخدم مع account_key). |
account_key | للمصادقة باستخدام Shared Key (تُستخدم مع account_name). |
معلمات الحد
| المعلمة | الوصف |
|---|---|
s3_max_single_part_upload_size | الحد الأقصى لحجم رفع كتلة واحدة إلى Blob Storage. |
min_bytes_for_seek | الحد الأدنى لحجم نطاق يمكن إجراء seek داخله. |
max_single_read_retries | الحد الأقصى لعدد محاولات قراءة جزء من البيانات من Blob Storage. |
max_single_download_retries | الحد الأقصى لعدد محاولات تنزيل مخزن مؤقت قابل للقراءة من Blob Storage. |
thread_pool_size | الحد الأقصى لعدد سلاسل التنفيذ اللازمة لإنشاء مثيلات IDiskRemote. |
s3_max_inflight_parts_for_one_file | الحد الأقصى لعدد طلبات PUT المتزامنة لكائن واحد. |
معلمات أخرى
| المعلمة | الوصف | القيمة الافتراضية |
|---|---|---|
metadata_path | مسار في نظام الملفات المحلي لتخزين ملفات البيانات الوصفية الخاصة بـ Blob Storage. | /var/lib/clickhouse/disks/<disk_name>/ |
skip_access_check | إذا كانت القيمة true، يتم تخطي عمليات التحقق من الوصول إلى القرص أثناء بدء التشغيل. | false |
read_resource | اسم المورد لطلبات القراءة الخاصة بـ الجدولة. | سلسلة فارغة (معطّل) |
write_resource | اسم المورد لطلبات الكتابة الخاصة بـ الجدولة. | سلسلة فارغة (معطّل) |
metadata_keep_free_space_bytes | مقدار المساحة الحرة المطلوب حجزها على قرص البيانات الوصفية. | - |
النسخ المتماثل من دون نسخ ليس جاهزًا لبيئات الإنتاجيكون النسخ المتماثل من دون نسخ معطّلًا افتراضيًا في ClickHouse الإصدار 22.8 وما بعده. لا يُنصح باستخدام هذه الميزة في بيئات الإنتاج.
استخدام مساحة تخزين HDFS (غير مدعوم)
- القرص من النوع
hdfs(غير مدعوم) - توجد البيانات في
hdfs://hdfs1:9000/clickhouse/
استخدام تشفير البيانات
encrypted واختيار القرص الذي ستُحفَظ عليه البيانات. يقوم قرص encrypted بتشفير جميع الملفات المكتوبة لحظيًا، وعند قراءة الملفات من قرص encrypted يفك تشفيرها تلقائيًا. لذلك يمكنك التعامل مع قرص encrypted كما لو كان قرصًا عاديًا.
مثال على إعدادات القرص:
store/all_1_1_0/data.bin على disk1، فإن هذا الملف سيُكتَب فعليًا على القرص الفعلي في المسار /path1/store/all_1_1_0/data.bin.
وعند كتابة الملف نفسه على disk2، فسيُكتَب فعليًا على القرص الفعلي في المسار /path1/path2/store/all_1_1_0/data.bin بصيغة مشفّرة.
المعلمات المطلوبة
| المعلمة | النوع | الوصف |
|---|---|---|
type | String | يجب ضبطه على encrypted لإنشاء قرص مُشفَّر. |
disk | String | نوع القرص المستخدم في طبقة التخزين الأساسية. |
key | Uint64 | المفتاح المستخدم للتشفير وفك التشفير. يمكن تحديده بصيغة سداسية عشرية باستخدام key_hex. ويمكن تحديد عدة مفاتيح باستخدام السمة id. |
المعلمات الاختيارية
| المعلمة | النوع | الافتراضي | الوصف |
|---|---|---|---|
path | String | الدليل الجذر | المسار على القرص الذي ستُحفَظ فيه البيانات. |
current_key_id | String | - | معرّف المفتاح المستخدم للتشفير. ويمكن استخدام جميع المفاتيح المحددة لفك التشفير. |
algorithm | Enum | AES_128_CTR | خوارزمية التشفير. الخيارات: - AES_128_CTR (مفتاح بحجم 16 بايت) - AES_192_CTR (مفتاح بحجم 24 بايت) - AES_256_CTR (مفتاح بحجم 32 بايت) |
استخدام ذاكرة التخزين المؤقت المحلية
s3. وبالنسبة إلى الإصدارات >= 22.8، تكون ذاكرة التخزين المؤقت مدعومة لأي نوع من الأقراص: S3 وAzure وLocal وEncrypted وغيرها.
بالنسبة إلى الإصدارات >= 23.5، لا تكون ذاكرة التخزين المؤقت مدعومة إلا لأنواع الأقراص البعيدة: S3 وAzure وHDFS (غير مدعوم).
تستخدم ذاكرة التخزين المؤقت سياسة LRU.
مثال على الإعداد للإصدارات الأحدث من 22.8 أو المساوية له:
| المعلمة | النوع | القيمة الافتراضية | الوصف |
|---|---|---|---|
path | String | - | مطلوب. المسار إلى الدليل الذي سيُخزَّن فيه التخزين المؤقت. |
max_size | Size | - | مطلوب. الحجم الأقصى للتخزين المؤقت بالبايت أو بصيغة مقروءة (مثل 10Gi). تُزال الملفات وفق سياسة LRU عند بلوغ الحد الأقصى. ويدعم التنسيقات ki وMi وGi (منذ v22.10). |
cache_on_write_operations | Boolean | false | يفعّل التخزين المؤقت بالكتابة المباشرة لاستعلامات INSERT وعمليات الدمج في الخلفية. ويمكن تجاوز هذا الإعداد لكل query باستخدام enable_filesystem_cache_on_write_operations. |
enable_filesystem_query_cache_limit | Boolean | false | يفعّل حدود حجم التخزين المؤقت لكل query استنادًا إلى max_query_cache_size. |
enable_cache_hits_threshold | Boolean | false | عند تفعيله، لا تُخزَّن البيانات مؤقتًا إلا بعد قراءتها عدة مرات. |
cache_hits_threshold | Integer | 0 | عدد عمليات القراءة المطلوبة قبل تخزين البيانات مؤقتًا (يتطلب enable_cache_hits_threshold). |
enable_bypass_cache_with_threshold | Boolean | false | يتجاوز التخزين المؤقت لنطاقات القراءة الكبيرة. |
bypass_cache_threshold | Size | 256Mi | حجم نطاق القراءة الذي يؤدي إلى تجاوز التخزين المؤقت (يتطلب enable_bypass_cache_with_threshold). |
max_file_segment_size | Size | 8Mi | الحجم الأقصى لملف تخزين مؤقت واحد بالبايت أو بصيغة مقروءة. |
max_elements | Integer | 10000000 | الحد الأقصى لعدد ملفات التخزين المؤقت. |
load_metadata_threads | Integer | 16 | عدد الخيوط المستخدمة لتحميل البيانات الوصفية للتخزين المؤقت عند بدء التشغيل. |
use_split_cache | Boolean | false | يستخدم فصل الملفات إلى system/data. |
split_cache_ratio | Double | 0.1 | نسبة مقطع النظام إلى الحجم الإجمالي للتخزين المؤقت في split_cache. |
ملاحظة: تدعم قيم الحجم وحدات مثلkiوMiوGiوغيرها (مثل10Gi).
إعدادات الاستعلام/الملف التعريفي لـ File Cache
| الإعداد | النوع | القيمة الافتراضية | الوصف |
|---|---|---|---|
enable_filesystem_cache | Boolean | true | يفعّل/يعطّل استخدام ذاكرة التخزين المؤقت لكل استعلام، حتى عند استخدام نوع القرص cache. |
read_from_filesystem_cache_if_exists_otherwise_bypass_cache | Boolean | false | عند تفعيله، تُستخدم ذاكرة التخزين المؤقت فقط إذا كانت البيانات موجودة؛ أما البيانات الجديدة فلن تُخزَّن مؤقتًا. |
enable_filesystem_cache_on_write_operations | Boolean | false (Cloud: true) | يفعّل التخزين المؤقت بالكتابة المباشرة. ويتطلب cache_on_write_operations في إعدادات cache. |
enable_filesystem_cache_log | Boolean | false | يفعّل تسجيلًا تفصيليًا لاستخدام ذاكرة التخزين المؤقت في system.filesystem_cache_log. |
filesystem_cache_allow_background_download | Boolean | true | يسمح بإكمال المقاطع التي نُزِّلت جزئيًا في الخلفية. عطّله للإبقاء على التنزيلات ضمن الاستعلام/الجلسة الحالية بدلًا من متابعتها في الخلفية. |
max_query_cache_size | Size | false | الحد الأقصى لحجم ذاكرة التخزين المؤقت لكل استعلام. ويتطلب enable_filesystem_query_cache_limit في إعدادات cache. |
filesystem_cache_skip_download_if_exceeds_per_query_cache_write_limit | Boolean | true | يحدد السلوك عند بلوغ max_query_cache_size: - true: يوقف تنزيل البيانات الجديدة - false: يزيل البيانات القديمة لإفساح المجال للبيانات الجديدة |
جداول النظام لذاكرة التخزين المؤقت لنظام الملفات
| اسم الجدول | الوصف | المتطلبات |
|---|---|---|
system.filesystem_cache | يعرض الحالة الحالية لذاكرة التخزين المؤقت لنظام الملفات. | لا توجد |
system.filesystem_cache_log | يوفّر إحصاءات مفصّلة عن استخدام ذاكرة التخزين المؤقت لكل استعلام. | يتطلب enable_filesystem_cache_log = true |
أوامر ذاكرة التخزين المؤقت
SYSTEM CLEAR|DROP FILESYSTEM CACHE (<cache_name>) (ON CLUSTER) — ON CLUSTER
<cache_name>
SHOW FILESYSTEM CACHES
22.8 أو المساوية له، يكون اسم الأمر SHOW CACHES)
Query
Response
DESCRIBE FILESYSTEM CACHE '<cache_name>'
SHOW FILESYSTEM CACHES. (بالنسبة إلى الإصدارات الأقدم
أو المساوية لـ 22.8، يُسمّى الأمر DESCRIBE CACHE)
Query
Response
| مقاييس ذاكرة التخزين المؤقت الحالية | مقاييس ذاكرة التخزين المؤقت غير المتزامنة | أحداث profile لذاكرة التخزين المؤقت |
|---|---|---|
FilesystemCacheSize | FilesystemCacheBytes | CachedReadBufferReadFromSourceBytes, CachedReadBufferReadFromCacheBytes |
FilesystemCacheElements | FilesystemCacheFiles | CachedReadBufferReadFromSourceMicroseconds, CachedReadBufferReadFromCacheMicroseconds |
CachedReadBufferCacheWriteBytes, CachedReadBufferCacheWriteMicroseconds | ||
CachedWriteBufferCacheWriteBytes, CachedWriteBufferCacheWriteMicroseconds |
استخدام تخزين Web الثابت (للقراءة فقط)
ATTACH TABLE (انظر المثال أدناه). ولا يُستخدم القرص المحلي
فعليًا، إذ يؤدي كل استعلام SELECT إلى طلب http
لجلب البيانات المطلوبة. وسيؤدي أي تعديل في بيانات الجدول إلى
استثناء، أي إن الأنواع التالية من الاستعلامات غير مسموح بها: CREATE TABLE,
ALTER TABLE, RENAME TABLE,
DETACH TABLE وTRUNCATE TABLE.
يمكن استخدام تخزين Web لأغراض القراءة فقط. ومن أمثلة استخدامه استضافة
بيانات نموذجية أو ترحيل البيانات. توجد أداة باسم clickhouse-static-files-uploader،
تُعِدّ دليل بيانات لجدول معيّن (SELECT data_paths FROM system.tables WHERE name = 'table_name').
ولكل جدول تحتاج إليه، ستحصل على دليل من الملفات. ويمكن رفع هذه الملفات
إلى، على سبيل المثال، خادم ويب يقدّم ملفات ثابتة. بعد هذا الإعداد،
يمكنك تحميل هذا الجدول إلى أي خادم ClickHouse باستخدام DiskWeb.
في هذا الإعداد النموذجي:
- القرص من النوع
web - تُستضاف البيانات على
http://nginx:80/test1/ - يُستخدم cache على التخزين المحلي
ATTACH TABLE هذا، يطابق UUID المقدَّم اسم دليل البيانات، وتكون نقطة النهاية هي URL الخاص بمحتوى GitHub الخام.
المعلمات المطلوبة
| Parameter | Description |
|---|---|
type | web. وإلا فلن يتم إنشاء القرص. |
endpoint | عنوان URL لنقطة النهاية بتنسيق path. ويجب أن يتضمن عنوان URL لنقطة النهاية مسار جذر لتخزين البيانات التي رُفعت إليه. |
المعلمات الاختيارية
| المعلمة | الوصف | القيمة الافتراضية |
|---|---|---|
min_bytes_for_seek | الحد الأدنى لعدد البايتات لاستخدام عملية seek بدلًا من القراءة التسلسلية | 1 MB |
remote_fs_read_backoff_threashold | الحد الأقصى لوقت الانتظار عند محاولة قراءة البيانات من القرص البعيد | 10000 ثانية |
remote_fs_read_backoff_max_tries | الحد الأقصى لعدد محاولات القراءة باستخدام backoff | 5 |
DB:Exception Unreachable URL، فيمكنك محاولة ضبط الإعدادات التالية: http_connection_timeout، وhttp_receive_timeout، وkeep_alive_timeout.
للحصول على الملفات المراد رفعها، شغّل:
clickhouse static-files-disk-uploader --metadata-path <path> --output-dir <dir> (يمكن العثور على --metadata-path في الاستعلام SELECT data_paths FROM system.tables WHERE name = 'table_name').
عند تحميل الملفات عبر endpoint، يجب تحميلها إلى المسار <endpoint>/store/، لكن يجب أن يحتوي config على endpoint فقط.
إذا تعذر الوصول إلى URL عند تحميل القرص أثناء بدء الخادم للجداول، فستُلتقط جميع الأخطاء. وإذا حدثت أخطاء في هذه الحالة، فيمكن إعادة تحميل الجداول (لتصبح مرئية) عبر DETACH TABLE table_name -> ATTACH TABLE table_name. وإذا جرى تحميل البيانات الوصفية بنجاح عند بدء تشغيل الخادم، فستكون الجداول متاحة مباشرةً.
استخدم الإعداد http_max_single_read_retries لتقييد الحد الأقصى لعدد retries أثناء عملية قراءة HTTP واحدة.
النسخ المتماثل دون نسخ (غير جاهز لبيئة الإنتاج)
S3 وHDFS (غير مدعومة). ويعني النسخ المتماثل دون نسخ أنه إذا كانت البيانات مخزنة عن بُعد على عدة أجهزة وتحتاج إلى المزامنة، فلا تُنسخ متماثلًا إلا البيانات الوصفية (مسارات أجزاء البيانات)، وليس البيانات نفسها.
النسخ المتماثل دون نسخ غير جاهز لبيئة الإنتاجيُعطَّل النسخ المتماثل دون نسخ افتراضيًا في ClickHouse الإصدار 22.8 والإصدارات الأحدث. هذه الميزة غير موصى بها للاستخدام في بيئة الإنتاج.