امتى نستخدم تحليل البقاء بدلاً من الريجريشن؟

"وإيه هي دالة البقاء؟"، سمعتك بتسأل

الريجريشن (Regression) عنصر مهم جداً في صندوق أدوات كل محلل بيانات أو data scientist. على الأغلب بتستخدمه طول الوقت - وده كويس! بس أحياناً الريجريشن مش الأداة الصح للشغلانة.

تخيل معايا المثال ده:

مثال ملعب الجولف: المشكلة بتاعتنا

عايز تتنبأ بارتفاع كرة جولف بعد 5 أمتار من الضرب، معطى:

إزاي هتحل المشكلة دي؟

ممكن تقول: "سهلة! ريجريشن بسيط. هجمع بيانات من لاعبين مختلفين، هقيس الارتفاع بعد 5 أمتار، وأبني نموذج."

صح! ده الحل المثالي.

لكن... فيه مشكلة!

التلاجة بتسد طريق لاعبي الجولف

لسبب ما، فيه تلاجة وسط الملعب!

تخيل إنك عملت التجربة، واللاعبين التلاتة ضربوا الكرات:

دلوقتي عندك مشكلة! البيانات بتاعتك ناقصة - عندك القياس الكامل من لاعب واحد بس.

وللأسف: ماتقدرش تعيد التجربة. اللاعبين الملونين دول مشغولين جداً دلوقتي! (والتلاجة لسه موجودة)

دلوقتي لازم تفكر خارج الصندوق.

الخيار الأول: لسه هستخدم الريجريشن على أي حال

ممكن تقول: "ماشي، هستبعد اللاعبين البنفسجي والوردي، وأستخدم بيانات اللاعب الأخضر بس."

المشكلة: عينة واحدة مش كفاية! مش هتقدر تبني نموذج ريجريشن من نقطة بيانات واحدة.

مش فكرة كويسة!

الخيار التاني: أعدل المشكلة عشان تناسب التجربة

الحل الذكي: بدل ما تتنبأ بـ "الارتفاع عند نقطة واحدة" (5 أمتار)، إيه رأيك تتنبأ بـ **"مسار الكرة الكامل"**؟

يعني بدل:

هتعمل:

كده بقى عندك بيانات أكتر:

مش وحش! دلوقتي عندك بيانات كتير تقدر تستخدمها عشان تقدر h(d).

الميزة: بمجرد ما تعرف h(d)، تقدر تستخدمها عند أي مسافة - مش 5 أمتار بس!

ده بالضبط اللي اسمه تحليل البقاء (Survival Analysis)!

بس بدل التلاجة الوحشة، عندك الوقت الغير صبور.

التطبيق الحقيقي: اختبار الأدوية

تحليل البقاء اتاخترع أصلاً عشان نقيس تأثير الأدوية على المرضى.

السيناريو:

المشكلة: مستحيل تستنى 80 سنة لحد ما كل المرضى يموتوا عشان تعرف النتيجة النهائية!

الحل: بدل ما تتنبأ بـ "وقت الموت" (تقدير نقطة)، دلوقتي هتتنبأ بـ دالة البقاء S(t).

دالة البقاء S(t) = احتمالية إن المريض يبقى عايش لحد الوقت t

مثال:

كده تقدر تقيم الدوا من غير ما تستنى كل المرضى يموتوا!

إزاي دوال البقاء بتتقدر؟

فيه طريقتين أساسيتين:

1. دوال البقاء البارامترية (Parametric)

الفكرة: نفترض إن دالة البقاء ليها شكل معين.

اللي إحنا عارفينه:

دالة بتناسب الوصف ده: الاضمحلال الأسي (Exponential Decay)

دالة البقاء الأسية: S(t) = e^(-λt)

اللي محتاج تعمله: استخدم البيانات اللي عندك عشان تلاقي قيمة λ المناسبة (curve fitting).

دوال تانية شائعة:

المشكلة: إنت بتفترض شكل معين للدالة. لو البيانات مش مناسبة للشكل ده؟ النموذج هيبقى غلط!

2. دالة البقاء غير البارامترية (Non-Parametric)

الفكرة: ماتفترضش حاجة - خلي البيانات تقول الشكل.

مثال: طريقة كابلان-ماير (Kaplan-Meier):

الميزة: مش بتعمل افتراضات ممكن تكون غلط

العيب: مش بتقدر تستقرئ (extrapolate) بعد آخر نقطة بيانات عندك

3. Machine Learning كبديل

ممكن كمان تستخدم نماذج Machine Learning - أي نموذج بيتنبأ بمنحنى (curve) بدل نقطة واحدة ممكن يعمل الشغلانة دي.

طيب، تحليل البقاء ده كويس لإيه بالضبط؟

تطبيقات عملية في الأعمال والتكنولوجيا

ممكن تقول: "أنا مش دكتور، ومش بختبر أدوية. وبرضه مفيش تلاجات في ملعب الجولف بتاعي. ليه أتعلم تحليل البقاء؟"

الإجابة: المفهوم ده بيستخدم في مشاكل كتير جداً في عالم البيانات والأعمال!

المشكلة العامة: في أي موقف البيانات فيه ناقصة أو مش مكتملة بسبب الوقت - ودي اسمها Right Censoring.

أمثلة عملية:

1. معدل ترك العملاء (Churn Rate):

2. معدل إرجاع المنتجات:

3. قيمة مدى الحياة للعميل (Customer Lifetime Value):

4. تطبيقات المواعدة (Dating Apps):

5. صيانة الأجهزة:

الخلاصة

تحليل البقاء مش بس للمرضى والأدوية!

استخدمه في أي موقف فيه:

الفرق بين الريجريشن وتحليل البقاء:

متى تستخدم تحليل البقاء؟


طارق عمرو، 24 يناير 2024

الترجمات: [EN], [NL]