كيف تقوم البيانات الاصطناعية التي تعمل بنظام Genai بإعادة تشكيل سير عمل الاستثمار

في بيئة الاستثمار التي تعتمد على البيانات اليوم ، يمكن أن تجعل جودة البيانات وتوافرها وخصوصية البيانات أو كسرها. ومع ذلك ، يواجه محترفي الاستثمار قيودًا بشكل روتيني: قد لا تجسد مجموعات البيانات التاريخية المخاطر الناشئة ، وغالبًا ما تكون البيانات البديلة غير مكتملة أو باهظة الثمن ، وتتمحور النماذج ومجموعات البيانات مفتوحة المصدر نحو الأسواق الرئيسية ومحتوى اللغة الإنجليزية.
نظرًا لأن الشركات تبحث عن أدوات أكثر قابلية للتكيف وتطلعية ، فإن البيانات الاصطناعية-خاصة عند اشتقاقها من الذكاء الاصطناعي (GENAI)-تظهر كأصل استراتيجي ، حيث تقدم طرقًا جديدة لمحاكاة سيناريوهات السوق ، ونماذج التعلم الآلي للدرار ، واستراتيجيات الاستثمار الاحتياطي. يستكشف هذا المنشور كيف تقوم البيانات الاصطناعية التي تعمل بنظام Genai بإعادة تشكيل سير عمل الاستثمار-من محاكاة ارتباطات الأصول إلى تعزيز نماذج المشاعر-وما يحتاج الممارسون إلى معرفته لتقييم فائدتها والقيود.
ما هي البيانات الاصطناعية بالضبط ، وكيف يتم إنشاؤها بواسطة نماذج Genai ، ولماذا تكون ذات صلة بشكل متزايد بحالات استخدام الاستثمار؟
النظر في اثنين من التحديات الشائعة. يقيد مدير محفظة يتطلع إلى تحسين الأداء عبر أنظمة السوق المتغيرة بالبيانات التاريخية ، والتي لا يمكن أن تفسر سيناريوهات “ماذا لو” التي لم تحدث بعد. وبالمثل ، قد يجد عالم البيانات الذي يراقب المشاعر في الأخبار باللغة الألمانية للأسهم الصغيرة أن معظم مجموعات البيانات المتاحة باللغة الإنجليزية وتركز على الشركات الكبيرة الحجم ، مما يحد من التغطية والأهمية. في كلتا الحالتين ، توفر البيانات الاصطناعية حلاً عمليًا.
ما يميز البيانات الاصطناعية Genai – ولماذا يهم الآن
تشير البيانات الاصطناعية إلى مجموعات البيانات التي تم إنشاؤها مصطنعًا والتي تكرر الخصائص الإحصائية للبيانات في العالم الحقيقي. على الرغم من أن المفهوم ليس جديدًا – تقنيات مثل Monte Carlo Simulation و Bootstrapping ، فقد دعمت فترة طويلة من التحليل المالي – ما تم تغييره هو كيف.
يشير Genai إلى فئة من نماذج التعلم العميق القادرة على توليد بيانات اصطناعية عالية الدقة عبر طرائق مثل النص والجدولة والصورة والسلاسل الزمنية. على عكس الطرق التقليدية ، تتعلم نماذج Genai توزيعات العالم الحقيقي المعقدة مباشرة من البيانات ، مما يلغي الحاجة إلى افتراضات صلبة حول العملية التوليدية الأساسية. تفتح هذه القدرة حالات الاستخدام القوية في إدارة الاستثمار ، وخاصة في المجالات التي تكون فيها البيانات الحقيقية نادرة أو معقدة أو غير مكتملة أو مقيدة بالتكلفة أو اللغة أو اللوائح.
نماذج GENAI المشتركة
هناك أنواع مختلفة من نماذج Genai. تعد أجهزة الترميز التلقائي المتنوع (VAES) ، والشبكات العدائية التوليدية (GANS) ، والنماذج القائمة على الانتشار ، ونماذج اللغة الكبيرة (LLMS) هي الأكثر شيوعًا. تم تصميم كل نموذج باستخدام بنية الشبكة العصبية ، على الرغم من أنها تختلف في حجمها وتعقيدها. لقد أظهرت هذه الطرق بالفعل إمكانية تعزيز بعض سير العمل المتمحورة حول البيانات داخل الصناعة. على سبيل المثال ، تم استخدام VAEs لإنشاء أسطح تقلبات اصطناعية لتحسين تداول الخيارات (Bergeron وآخرون.، 2021). أثبتت Gans مفيدة لتحسين المحفظة وإدارة المخاطر (Zhu ، Mariani and Li ، 2020 ؛ Cont وآخرون.، 2023). أثبتت النماذج القائمة على الانتشار أنها مفيدة لمحاكاة مصفوفات ارتباط عائد الأصول تحت مختلف أنظمة السوق (Kubiak وآخرون.، 2024). وقد أثبتت LLMs مفيدة لمحاكاة السوق (LI وآخرون.، 2024).
الجدول 1. نهج لتوليد البيانات الاصطناعية.
طريقة | أنواع البيانات التي يولدها | مثال على التطبيقات | توليدي؟ |
مونت كارلو | سلسلة الوقت | تحسين المحفظة ، إدارة المخاطر | لا |
وظائف القائمة على Copula | السلسلة الزمنية ، جدولي | تحليل مخاطر الائتمان ، نمذجة ارتباط الأصول | لا |
نماذج الانحدار التلقائي | سلسلة الوقت | التنبؤ بالتقلب ، محاكاة إرجاع الأصول | لا |
bootstrapping | السلسلة الزمنية ، جدولة ، نصية | خلق فترات ثقة ، اختبار الإجهاد | لا |
أجهزة الترميز التلقائية المتغيرة | الجدولة ، السلسلة الزمنية ، الصوت ، الصور | محاكاة الأسطح التقلب | نعم |
شبكات الخصومة التوليدية | الجدولة ، السلسلة الزمنية ، الصوت ، الصور ، | تحسين المحفظة ، إدارة المخاطر ، التدريب النموذجي | نعم |
نماذج الانتشار | الجدولة ، السلسلة الزمنية ، الصوت ، الصور ، | نمذجة الارتباط ، تحسين الحافظة | نعم |
نماذج لغة كبيرة | نص ، جدولة ، صور ، صوت | تحليل المعنويات ، محاكاة السوق | نعم |
تقييم جودة البيانات الاصطناعية
يجب أن تكون البيانات الاصطناعية واقعية وتطابق الخصائص الإحصائية لبياناتك الحقيقية. تقع أساليب التقييم الحالية في فئتين: كمية ونوعية.
تتضمن الأساليب النوعية تصور مقارنات بين مجموعات البيانات الحقيقية والاصطناعية. ومن الأمثلة على ذلك تصور التوزيعات ، ومقارنة قطع النثر بين أزواج من المتغيرات ، ومسارات السلاسل الزمنية ومصفوفات الارتباط. على سبيل المثال ، يجب أن يقوم نموذج GAN المدرب على محاكاة عوائد الأصول لتقدير القيمة المعرضة للخطر بنجاح إعادة إنتاج ذيول التوزيع الثقيل. يجب أن يلتقط نموذج الانتشار المدربين على إنتاج مصفوفات الارتباط الاصطناعية في ظل أنظمة السوق المختلفة بشكل كاف من الحركات المشتركة للأصول.
تشمل الأساليب الكمية اختبارات إحصائية لمقارنة التوزيعات مثل Kolmogorov-Smirnov ، ومؤشر الاستقرار السكاني وتباعد Jensen-Shannon. هذه الاختبارات إحصائيات الإخراج التي تشير إلى التشابه بين توزيعين. على سبيل المثال ، يقوم اختبار Kolmogorov-Smirnov بإخراج قيمة p التي ، إذا كانت أقل من 0.05 ، تشير إلى أن توزيعات مختلفة بشكل كبير. يمكن أن يوفر هذا قياسًا أكثر ملموسًا للتشابه بين توزيعين بدلاً من التصورات.
يتضمن نهج آخر “قطار على التوفيق ، اختبار التشغيل” ، حيث يتم تدريب نموذج على البيانات الاصطناعية واختباره على بيانات حقيقية. يمكن مقارنة أداء هذا النموذج بنموذج مدرب واختباره على بيانات حقيقية. إذا نجحت البيانات الاصطناعية في تكرار خصائص البيانات الحقيقية ، فيجب أن يكون الأداء بين النموذجين متشابهًا.
في العمل: تعزيز تحليل المعنويات المالية مع بيانات Genai الاصطناعية
لوضع هذا موضع التنفيذ ، قمت بتنشيط LLM صغير مفتوح المصدر ، QWEN3-0.6B ، لتحليل المشاعر المالية باستخدام مجموعة بيانات عامة من العناوين المتعلقة بالتمويل ومحتوى الوسائط الاجتماعية ، والمعروفة باسم FIQA-SA[1]. تتكون مجموعة البيانات من 822 أمثلة تدريبية ، مع تصنيف معظم الجمل على أنها مشاعر “إيجابية” أو “سلبية”.
ثم استخدمت GPT-4O لإنشاء 800 أمثلة تدريب اصطناعية. كانت مجموعة البيانات الاصطناعية التي تم إنشاؤها بواسطة GPT-4O أكثر تنوعًا من بيانات التدريب الأصلية ، والتي تغطي المزيد من الشركات والشعور (الشكل 1). توفر زيادة تنوع بيانات التدريب LLM مع المزيد من الأمثلة التي يتعلم من خلالها تحديد المعنويات من المحتوى النصي ، مما يحسن أداء النموذج على البيانات غير المرئية.
الشكل 1. توزيع فئات المشاعر لكل من مجموعة بيانات التدريب الحقيقية (اليسارية) ، الاصطناعية (يمين) ، ومجموعة من البيانات الحقيقية والاصطناعية.

الجدول 2. مثال جمل من مجموعات بيانات التدريب الحقيقية والاصطناعية.
جملة | فصل | بيانات |
الركود في وير يؤدي ftse إلى أسفل من الرقم القياسي. | سلبي | حقيقي |
Astrazeneca يفوز موافقة إدارة الأغذية والعقاقير على حبة سرطان الرئة الجديدة. | إيجابي | حقيقي |
مساهمو شل و BG للتصويت على صفقة في نهاية يناير. | حيادي | حقيقي |
يُظهر تقرير تسلا الفصلي زيادة في عمليات توصيل المركبات بنسبة 15 ٪. | إيجابي | الاصطناعية |
يعقد Pepsico مؤتمرا صحفيا لمعالجة استدعاء المنتج الأخير. | حيادي | الاصطناعية |
تنحى الرئيس التنفيذي لشركة Home Depot بشكل مفاجئ وسط خلافات داخلية. | سلبي | الاصطناعية |
بعد ضبط النموذج الثاني على مجموعة من البيانات الحقيقية والاصطناعية باستخدام نفس إجراء التدريب ، زادت درجة F1 بنسبة 10 نقاط مئوية تقريبًا على مجموعة بيانات التحقق من الصحة (الجدول 3) ، مع درجة F1 النهائية البالغة 82.37 ٪ على بيانات بيانات الاختبار.
الجدول 3. أداء النموذج على مجموعة بيانات التحقق من صحة FIQA-SA.
نموذج | مرجح F1 درجة |
النموذج 1 (حقيقي) | 75.29 ٪ |
النموذج 2 (حقيقي + صناعي) | 85.17 ٪ |
لقد وجدت أن زيادة نسبة البيانات الاصطناعية أكثر مما ينبغي كان له تأثير سلبي. هناك منطقة Goldilocks بين الكثير من البيانات الاصطناعية القليلة جدًا لتحقيق النتائج المثلى.
ليست رصاصة فضية ، ولكن أداة قيمة
البيانات الاصطناعية ليست بديلاً للبيانات الحقيقية ، ولكنها تستحق التجربة. اختر طريقة ، وتقييم جودة البيانات الاصطناعية ، وقم بإجراء اختبار A/B في بيئة رمل حيث تقارن سير العمل مع أو بدون نسب مختلفة من البيانات الاصطناعية. قد تفاجأ بالنتائج.
يمكنك عرض جميع التعليمات البرمجية ومجموعات البيانات على مستودع GitHub RABS RPC واتخاذ غوص أعمق في دراسة حالة LLM في تقرير أبحاث “البيانات الاصطناعية في إدارة الاستثمار” في مركز البحث والسياسة.
[1] مجموعة البيانات متاحة للتنزيل هنا: https://huggingface.co/Datasets/Thefinai/FIQA-Sentiment