الانتقال إلى المحتوى الرئيسي

categoricalInformationValue

أُضيف في: v20.1.0 تحسب هذه الدالة قيمة المعلومات (IV) للسمات الفئوية بالنسبة إلى متغير هدف ثنائي. لكل فئة، تحسب الدالة: (P(tag = 1) - P(tag = 0)) × (log(P(tag = 1)) - log(P(tag = 0))) حيث:
  • P(tag = 1) هو احتمال أن تكون قيمة الهدف 1 للفئة المعطاة
  • P(tag = 0) هو احتمال أن تكون قيمة الهدف 0 للفئة المعطاة
قيمة المعلومات هي مقياس إحصائي يُستخدم لقياس قوة العلاقة بين سمة فئوية ومتغير هدف ثنائي في النمذجة التنبؤية. وتشير القيم المطلقة الأكبر إلى قدرة تنبؤية أقوى. تشير النتيجة إلى مدى إسهام كل سمة منفصلة (فئوية) [category1, category2, ...] في نموذج تعلّم يتنبأ بقيمة tag. الصيغة
categoricalInformationValue(category1[, category2, ...,]tag)
الوسائط
  • category1, category2, ... — سمة فئوية واحدة أو أكثر لتحليلها. يجب أن تحتوي كل فئة على قيم منفصلة. UInt8
  • tag — متغير هدف ثنائي للتنبؤ. يجب أن يحتوي على القيمتين 0 و1. UInt8
القيمة المعادة تُرجِع مصفوفة من قيم Float64 تمثل قيمة المعلومات لكل توليفة فريدة من الفئات. وتشير كل قيمة إلى القوة التنبؤية لتلك التوليفة من الفئات بالنسبة إلى متغير الهدف. Array(Float64) أمثلة الاستخدام الأساسي لتحليل الفئات العمرية مقابل استخدام الهاتف المحمول
Query
-- Using the metrica.hits dataset (available on https://sql.clickhouse.com/) to analyze age-mobile relationship
SELECT categoricalInformationValue(Age < 15, IsMobile)
FROM metrica.hits;
Response
[0.0014814694805292418]
سمات فئوية متعددة مع البيانات الديموغرافية للمستخدمين
Query
SELECT categoricalInformationValue(
    Sex,                 -- 0=male, 1=female
    toUInt8(Age < 25),   -- 0=25+, 1=under 25
    toUInt8(IsMobile)    -- 0=desktop, 1=mobile
) AS iv_values
FROM metrica.hits
WHERE Sex IN (0, 1);
Response
[0.00018965785460692887,0.004973668839403392]
آخر تعديل في ٢٩ يونيو ٢٠٢٦