الريجريشن (Regression) عنصر مهم جداً في صندوق أدوات كل محلل بيانات أو data scientist. على الأغلب بتستخدمه طول الوقت - وده كويس! بس أحياناً الريجريشن مش الأداة الصح للشغلانة.
تخيل معايا المثال ده:
عايز تتنبأ بارتفاع كرة جولف بعد 5 أمتار من الضرب، معطى:
إزاي هتحل المشكلة دي؟
ممكن تقول: "سهلة! ريجريشن بسيط. هجمع بيانات من لاعبين مختلفين، هقيس الارتفاع بعد 5 أمتار، وأبني نموذج."
صح! ده الحل المثالي.

لسبب ما، فيه تلاجة وسط الملعب!
تخيل إنك عملت التجربة، واللاعبين التلاتة ضربوا الكرات:
دلوقتي عندك مشكلة! البيانات بتاعتك ناقصة - عندك القياس الكامل من لاعب واحد بس.
وللأسف: ماتقدرش تعيد التجربة. اللاعبين الملونين دول مشغولين جداً دلوقتي! (والتلاجة لسه موجودة)
دلوقتي لازم تفكر خارج الصندوق.
ممكن تقول: "ماشي، هستبعد اللاعبين البنفسجي والوردي، وأستخدم بيانات اللاعب الأخضر بس."
المشكلة: عينة واحدة مش كفاية! مش هتقدر تبني نموذج ريجريشن من نقطة بيانات واحدة.
مش فكرة كويسة!
الحل الذكي: بدل ما تتنبأ بـ "الارتفاع عند نقطة واحدة" (5 أمتار)، إيه رأيك تتنبأ بـ **"مسار الكرة الكامل"**؟
يعني بدل:
هتعمل:
كده بقى عندك بيانات أكتر:
مش وحش! دلوقتي عندك بيانات كتير تقدر تستخدمها عشان تقدر h(d).
الميزة: بمجرد ما تعرف h(d)، تقدر تستخدمها عند أي مسافة - مش 5 أمتار بس!
بس بدل التلاجة الوحشة، عندك الوقت الغير صبور.
تحليل البقاء اتاخترع أصلاً عشان نقيس تأثير الأدوية على المرضى.
السيناريو:
المشكلة: مستحيل تستنى 80 سنة لحد ما كل المرضى يموتوا عشان تعرف النتيجة النهائية!
الحل: بدل ما تتنبأ بـ "وقت الموت" (تقدير نقطة)، دلوقتي هتتنبأ بـ دالة البقاء S(t).
دالة البقاء S(t) = احتمالية إن المريض يبقى عايش لحد الوقت t
مثال:
كده تقدر تقيم الدوا من غير ما تستنى كل المرضى يموتوا!
فيه طريقتين أساسيتين:
الفكرة: نفترض إن دالة البقاء ليها شكل معين.
اللي إحنا عارفينه:
دالة بتناسب الوصف ده: الاضمحلال الأسي (Exponential Decay)

اللي محتاج تعمله: استخدم البيانات اللي عندك عشان تلاقي قيمة λ المناسبة (curve fitting).
دوال تانية شائعة:
المشكلة: إنت بتفترض شكل معين للدالة. لو البيانات مش مناسبة للشكل ده؟ النموذج هيبقى غلط!
الفكرة: ماتفترضش حاجة - خلي البيانات تقول الشكل.
مثال: طريقة كابلان-ماير (Kaplan-Meier):
الميزة: مش بتعمل افتراضات ممكن تكون غلط
العيب: مش بتقدر تستقرئ (extrapolate) بعد آخر نقطة بيانات عندك
ممكن كمان تستخدم نماذج Machine Learning - أي نموذج بيتنبأ بمنحنى (curve) بدل نقطة واحدة ممكن يعمل الشغلانة دي.
ممكن تقول: "أنا مش دكتور، ومش بختبر أدوية. وبرضه مفيش تلاجات في ملعب الجولف بتاعي. ليه أتعلم تحليل البقاء؟"
الإجابة: المفهوم ده بيستخدم في مشاكل كتير جداً في عالم البيانات والأعمال!
المشكلة العامة: في أي موقف البيانات فيه ناقصة أو مش مكتملة بسبب الوقت - ودي اسمها Right Censoring.
أمثلة عملية:
1. معدل ترك العملاء (Churn Rate):
2. معدل إرجاع المنتجات:
3. قيمة مدى الحياة للعميل (Customer Lifetime Value):
4. تطبيقات المواعدة (Dating Apps):
5. صيانة الأجهزة:
تحليل البقاء مش بس للمرضى والأدوية!
استخدمه في أي موقف فيه:
الفرق بين الريجريشن وتحليل البقاء:
متى تستخدم تحليل البقاء؟
طارق عمرو، 24 يناير 2024