تفاصيل مجموعة البيانات
Parquet موجودة على huggingface.co. وتحمل هذه الملفات الأسماء 0.parquet و1.parquet و… و25.parquet. للاطلاع على بعض الصفوف النموذجية من مجموعة البيانات، يُرجى زيارة صفحة Hugging Face هذه.
إنشاء جدول
dbpedia لتخزين معرّف المقالة والعنوان والنص ومتجه التضمين:
تحميل الجدول
dbpedia:
البحث الدلالي
- تلقّي عبارة بحث من مستخدم بلغة طبيعية، مثل “أخبرني عن بعض رحلات القطارات ذات المناظر الخلابة” أو “روايات تشويق تدور أحداثها في أوروبا” وما إلى ذلك
- إنشاء متجه تضمين لعبارة البحث باستخدام نموذج LLM
- العثور على أقرب الجيران لمتجه تضمين البحث في مجموعة البيانات
نفّذ بحثًا بطريقة brute-force عن تشابه المتجهات
dbpedia،
فإن من أسرع الطرق لملاحظة البحث الدلالي بصريًا استخدام متجهات التضمين من مجموعة البيانات نفسها كمتجهات
للبحث. على سبيل المثال:
Query
Response
max_threads=1 لتحديد الاستخدام الفعلي لقدرة المعالجة
واستهلاك عرض نطاق التخزين (واستقرئه على مجموعة بيانات إنتاجية تضم ملايين المتجهات!)
إنشاء فهرس لتشابه المتجهات
vector:
إجراء بحث ANN
Query
Response
إنشاء متجهات التضمين لاستعلام البحث
dbpedia
باعتباره متجه البحث. في التطبيقات العملية، يجب
إنشاء متجه البحث لاستعلام يُدخله المستخدم، وقد يكون
بلغة طبيعية. وينبغي إنشاء متجه البحث
باستخدام نموذج LLM نفسه المستخدَم لإنشاء متجهات التضمين
لمجموعة البيانات.
يَرِد أدناه مثال لبرنامج نصي بلغة بايثون يوضح كيفية استدعاء OpenAI API برمجيًا من أجل
إنشاء متجهات التضمين باستخدام النموذج text-embedding-3-large. ثم يُمرَّر متجه التضمين الخاص بالبحث
كوسيط إلى الدالة cosineDistance() في استعلام SELECT.
يتطلب تشغيل البرنامج النصي تعيين مفتاح OpenAI API في متغير البيئة OPENAI_API_KEY.
ويمكن الحصول على مفتاح OpenAI API بعد التسجيل على https://platform.openai.com.
التطبيق التجريبي للأسئلة والأجوبة
- يستقبل موضوعًا كمدخل من المستخدم
- يُنشئ متجه تضمين للـ موضوع عبر استدعاء OpenAI API باستخدام النموذج
text-embedding-3-large - يسترجع مقالات/مستندات Wikipedia عالية الصلة باستخدام البحث عن تشابه المتجهات على الجدول
dbpedia - يستقبل من المستخدم سؤالًا مفتوح الصياغة بلغة طبيعية يتعلق بالـ موضوع
- يستخدم OpenAI
gpt-3.5-turboChat API للإجابة عن السؤال استنادًا إلى المعرفة الواردة في المستندات المسترجعة في الخطوة رقم 3. وتُمرَّر المستندات المسترجعة في الخطوة رقم 3 باعتبارها سياقًا إلى Chat API، وهي حلقة الوصل الأساسية في الذكاء الاصطناعي التوليدي.
OPENAI_API_KEY. ويمكن الحصول على مفتاح OpenAI API بعد التسجيل على https://platform.openai.com.