بحاجة إلى مزيد .. الذكاء الاصطناعي يبلغ حدود بيانات الإنسان
تستكشف شركات الذكاء الاصطناعي طريقة جديدة كي تحصل على الكميات الهائلة من البيانات اللازمة لتطوير نماذج توليدية قوية، وهي إنشاء المعلومات من الصفر.
“مايكروسوفت” و”أوبن أيه آي” و”كوهير” من بين المجموعات، التي تجرب استخدام ما يسمى بالبيانات المصطنعة – وهي معلومات يولدها الحاسوب لتدريب أنظمة الذكاء الاصطناعي التابعة للمجموعات والمعروفة باسم النماذج اللغوية الضخمة – حيث وصلت المجموعات إلى حدود البيانات، التي أوجدها الإنسان، من التي في إمكانها تحسين التكنولوجيا المتطورة أكثر.
أدى إطلاق شات جي بي تي من “أوبن أيه آي” المدعومة من “مايكروسوفت” في تشرين الثاني (نوفمبر) الماضي إلى تدفق المنتجات، التي طرحتها شركات من ضمنها “جوجل” و”آنثروبيك” للعامة هذا العام، والتي يمكنها أن تنتج نصوصا أو صورا أو تعليمات برمجية منطقية استجابة للطلبات البسيطة.
أدت التكنولوجيا، المعروفة باسم الذكاء الاصطناعي التوليدي، إلى زيادة اهتمام المستثمرين والمستهلكين، حيث تتسابق أكبر شركات التكنولوجيا في العالم للسيطرة على هذا الفضاء، بما فيها “جوجل” و”مايكروسوفت” و”ميتا”.
حاليا، النماذج اللغوية الضخمة، التي تشغل برامج الدردشة مثل شات جي بي تي من “أوبن أيه آي” وبارد من “جوجل”، يتم تدريبها أساسا بتمشيط الإنترنت واستخراج البيانات. تشمل البيانات المستخدمة لتدريب هذه الأنظمة الكتب الرقمية والمقالات الإخبارية والمدونات واستعلامات البحث ومنشورات تويتر وريديت ومقاطع الفيديو من يوتيوب والصور من منصة فليكر، ومحتويات أخرى.
بعدها، يتم توظيف البشر للتعقيب وسد الثغرات في المعلومات في عملية تعرف باسم التعلم المعزز بتعقيب البشر.
لكن بما أن برامج الذكاء الاصطناعي التوليدي أصبحت أكثر تعقيدا، حتى شركات الذكاء الاصطناعي غزيرة الموارد بدأت تنفد من البيانات عالية الجودة التي يسهل الوصول إليها لتدريب الذكاء الاصطناعي عليها. ومن جهة أخرى، تتعرض الشركات لانتقادات شديدة من جهات التنظيمية وفنانين ومؤسسات إعلامية في جميع أنحاء العالم بشأن حجم ومصدر البيانات الشخصية التي تستهلكها هذه التكنولوجيا.
في حدث أقيم في لندن في أيار (مايو)، سئل الرئيس التنفيذي لشركة أوبن أيه آى، سام ألتمان، عما إذا كان قلقا بشأن التحقيقات التنظيمية في انتهاكات الخصوصية المحتملة لشات جي بي تي. تجاهل ألتمان السؤال، قائلا: “أنا واثق تماما من أن جميع البيانات ستكون بيانات مصطنعة قريبا”.
ووفقا لمطورين، فإن البيانات العامة من الإنترنت لم تعد مفيدة بما يكفي لتحسين أداء نماذج الذكاء الاصطناعي.
قال آيدان جوميز، الرئيس التنفيذي لشركة كوهير الناشئة للنماذج اللغوية الضخمة، المقدرة بملياري دولار: “إذا تمكنت من الحصول على جميع البيانات التي تحتاج إليها من الشبكة العنكبوتية فهذا أمر رائع. لكن الشبكة مشوشة وفوضوية لدرجة أنها لا تمثل حقا البيانات التي تريدها. الشبكة لا تلبي احتياجاتنا كلها”.
في الوقت الحالي، تقترب النماذج الأكثر تطورا، مثل جي بي تي-4 من “أوبن أيه آي”، من مستوى الأداء البشري في مجالات مثل الكتابة والتعليمات البرمجية، وهي قادرة على اجتياز اختبارات مثل امتحان نقابة المحامين في الولايات المتحدة.
من أجل تحسين أدائها كثيرا وجعلها قادرة على مواجهة التحديات في العلوم أو الطب أو الأعمال التجارية، ستتطلب نماذج الذكاء الاصطناعي مجموعات بيانات فريدة ومعقدة. سيتعين إنشاؤها إما على أيدي خبراء عالميين مثل علماء أو أطباء أو مؤلفين أو ممثلين أو مهندسين، أو الحصول عليها من بيانات مملوكة لشركات كبيرة مثل شركات الأدوية والبنوك وشركات البيع بالتجزئة. لكن جوميز قال: “إن البيانات التي أوجدها الإنسان (…) مكلفة للغاية”.
لكن التوجه الجديد نحو استخدام البيانات المصطنعة يتجنب هذا المتطلب الباهظ. بدلا من ذلك، يمكن للشركات استخدام نماذج الذكاء الاصطناعي لإنتاج نصوص أو تعليمات برمجية أو معلومات أكثر تعقيدا تتعلق بالرعاية الصحية أو الاحتيال المالي. ومن ثم يتم استخدام هذه البيانات المصطنعة لتدريب النماذج اللغوية الضخمة المتقدمة لتصبح أكثر براعة.
ووفقا لجوميز، تستخدم “كوهير” وعديد من منافساتها البيانات المصطنعة بالفعل، التي يضبطها ويعدلها البشر لاحقا. قال: “البيانات المصطنعة ضخمة بالفعل (…) حتى لو لم يتم نشرها على نطاق واسع”.
مثلا، لتدريب نموذج على الرياضيات المتقدمة، قد تستخدم “كوهير” نموذجي ذكاء اصطناعي ليتحدثا مع بعضهما، حيث يتصرف أحدهما مدرسا للرياضيات والآخر طالبا.
قال جوميز: “إنها تجري محادثة حول علم المثلثات (…) وكلها مصطنعة. يتخيل النموذج كل شيء. ثم يطلع الإنسان على هذه المحادثة ويتدخل ويصححها إذا ذكر النموذج شيئا خاطئا. هذا هو الوضع الراهن اليوم”.
أظهرت دراستان حديثتان من مايكروسوفت ريسيرتش للأبحاث إمكانية استخدام البيانات المصطنعة لتدريب نماذج أصغر وأبسط من أحدث البرامج مثل جي بي تي-4 من “أوبن أيه آي” أو بالم-2 من “جوجل”.
وصفت إحدى الدراستين مجموعة بيانات مصطنعة من قصص قصيرة أنشأها جي بي تي-4، التي تحتوي فقط على كلمات قد يفهمها طفل عادي في الرابعة. ثم تم استخدام مجموعة البيانات هذه، المعروفة باسم تايني ستوريز، لتدريب نموذج لغوي ضخم بسيط قادر على إنتاج قصص سلسة وصحيحة نحويا. أظهر البحث الآخر أنه يمكن تدريب الذكاء الاصطناعي على تعليمات برمجية مصطنعة للغة بايثون في شكل كتب وتمارين، والذي وجدوا أنه يبلي بلاء حسنا نسبيا في مهام البرمجة.
ظهرت شركات ناشئة مثل سكيل أيه آي وجريتل.أيه آي لتقديم خدمة تزويد الشركات ببيانات مصطنعة، حيث تعمل “جريتل”، التي أسسها محللون استخباراتيون أمريكيون سابقون من وكالة الأمن القومي ووكالة المخابرات المركزية، مع شركات من بينها “جوجل” و”إتش إس بي سي” و”رايوت جيمز” و”إلومينا” لزيادة بياناتها الحالية بنسخ مصطنعة يمكن أن تسهم في تدريب نماذج ذكاء اصطناعي أفضل.
إن العامل الرئيس للبيانات المصطنعة، حسب علي جولشان، رئيس “جريتل” التنفيذي، هو أنها تحافظ على خصوصية جميع الأفراد في مجموعة البيانات، مع الحفاظ على سلامتها الإحصائية في الوقت نفسه.
وأضاف أن في إمكان البيانات المصطنعة المولدة بعناية إزالة التحيزات والاختلالات في البيانات الحالية أيضا. قال جولشان: “يمكن لصناديق التحوط أن تبحث في أحداث مفاجئة، ولنقل مثلا، تنشئ مائة نسخة مختلفة لمعرفة ما إذا كانت نماذجنا تظهر خللا”. أما في حالة البنوك، حيث يمثل الاحتيال عادة أقل من 0.01 في المائة من إجمالي البيانات، يمكن لبرنامج “جريتل” توليد “آلاف السيناريوهات لحالات احتيال متطورة وتدريب النماذج عليها”.
يشير نقاد إلى أنه لن يتم توليد جميع البيانات المصطنعة بعناية بغية أن تمثل بيانات العالم الحقيقي أو تحسنها. وبما أن النصوص والصور التي يولدها الذكاء الاصطناعي بدأت تملأ الإنترنت، فمن المحتمل حتما أن ينتهي الأمر بشركات الذكاء الاصطناعي التي تمشط الإنترنت بحثا عن بيانات للتدريب باستخدامها بيانات خام أنتجتها إصدارات أولية من نماذجها.
حذرت أبحاث أجرتها جامعات من بينها أكسفورد وكامبريدج أخيرا من أن تدريب نماذج الذكاء الاصطناعي على مخرجاتها الخام، التي قد تحتوي على أكاذيب أو تلفيقات، يمكن أن يفسد التكنولوجيا ويؤدي إلى تدهورها بمرور الوقت، محدثة “مواطن خلل لا يمكن إصلاحها”.
يتفق جولشان بأن التدريب بالاستعانة ببيانات مصطنعة رديئة يمكن أن يعوق التقدم. قال: “يتم توليد المحتوى على الإنترنت باستخدام الذكاء الاصطناعي بازدياد، وسينجم عنه تدهور بمرور الوقت كما أرى، لأن النماذج اللغوية الضخمة تنتج معرفة مكررة، دون أي معلومة جديدة”.
على الرغم من هذه الأخطار، قال باحثون في الذكاء الاصطناعي مثل جوميز من “كوهير” إنه بوسع البيانات المصطنعة تسريع الطريق المؤدي إلى أنظمة ذكاء اصطناعي فائقة الذكاء.
وقال: “ما نريده حقا هو أن تقدر النماذج على تعليم نفسها. نريدها أن تقدر على ذلك (…) أن تطرح أسئلتها وتكتشف حقائق جديدة وتوجد معرفتها. هذا هو الحلم”.