أعلنت OpenAI يوم الاثنين عن نموذجها الجديد للذكاء الاصطناعي التوليدي الذي يحمل اسم GPT-4o — حيث يشير “o” إلى “أومني – omni”، والذي يعبر عن قدرة النموذج على التعامل مع النص والصوت والفيديو. ومن المقرر أن يتم طرح GPT-4o بشكل تدريجي عبر منتجات الشركة الموجهة للمطورين والمستهلكين خلال الأسابيع القليلة القادمة.
قالت مديرة التكنولوجيا Mira Murati في OpenAI، إن GPT-4o يقدم ذكاءً بمستوى GPT-4، لكنه يحسن من قدرات GPT-4 عبر وسائط متعددة. وأوضحت مراتي خلال عرض مباشر في مكاتب OpenAI في سان فرانسيسكو أن GPT-4o يمكنه التحليل عبر الصوت والنص والرؤية. وأضافت أن هذا التحليل المتعدد الوسائط مهم جدًا لمستقبل التفاعل بين البشر والآلات.
تحسينات متعددة في GPT-4o
تم تدريب نموذج GPT-4 Turbo السابق من OpenAI على مزيج من الصور والنصوص وكان بإمكانه تحليل الصور والنصوص لأداء مهام مثل استخراج النصوص من الصور أو حتى وصف محتويات الصور. ولكن GPT-4o يضيف الصوت إلى هذه المزايا، مما يعزز تجربة المستخدم في ChatGPT. لطالما قدمت المنصة وضع الصوت الذي يحول ردود الدردشة إلى نص منطوق باستخدام نموذج لتحويل النص إلى كلام، لكن GPT-4o يعزز هذا الوضع، مما يسمح للمستخدمين بالتفاعل مع ChatGPT بشكل أشبه بمساعد شخصي.
على سبيل المثال، يمكن للمستخدمين طرح سؤال على ChatGPT المدعوم بـ GPT-4o ومقاطعة ChatGPT أثناء الإجابة. تقول OpenAI إن النموذج يوفر استجابة “في الوقت الحقيقي” ويمكنه حتى التقاط الفروق الدقيقة في صوت المستخدم، مما يمكنه من توليد أصوات بأساليب عاطفية مختلفة (بما في ذلك الغناء).
قدرات رؤية متطورة
كما يقوم GPT-4o بترقية قدرات رؤية ChatGPT. فعند إعطاء صورة — أو شاشة سطح مكتب — يمكن لـ ChatGPT الآن الإجابة بسرعة على الأسئلة المتعلقة بها، بدءًا من “ما الذي يحدث في هذا الكود البرمجي؟” إلى “ما هي العلامة التجارية لهذا القميص الذي يرتديه الشخص؟”
تقول Murati إن هذه الميزات ستتطور أكثر في المستقبل. ففي الوقت الحالي، يمكن لـ GPT-4o النظر إلى صورة لقائمة طعام بلغة مختلفة وترجمتها، ولكن في المستقبل، يمكن أن يسمح النموذج لـ ChatGPT بمشاهدة مباراة رياضية مباشرة وشرح قواعد اللعبة لك.
ميزات متعددة اللغات وسرعة الأداء
وفقًا لـ OpenAI، فان GPT-4o يتميز بأنه متعدد اللغات بشكل أكبر، مع أداء محسّن في حوالي 50 لغة. وفي واجهة برمجة التطبيقات من OpenAI وخدمة Azure OpenAI من مايكروسوفت، يتميز GPT-4o بسرعة مضاعفة ونصف التكلفة وحدود معدلات أعلى مقارنة بـ GPT-4 Turbo.
الوصول المحدود للقدرات الصوتية
حاليًا، الصوت ليس جزءًا من واجهة برمجة التطبيقات الخاصة بـ GPT-4o لجميع العملاء. تقول OpenAI إنها تخطط لإطلاق دعم القدرات الصوتية الجديدة لـ GPT-4o لمجموعة صغيرة من الشركاء الموثوق بهم في الأسابيع المقبلة، مشيرة إلى خطر إساءة الاستخدام.
يتوفر GPT-4o في الطبقة المجانية من ChatGPT بدءًا من اليوم وللمشتركين في خطط ChatGPT Plus وTeam المتميزة مع حدود رسائل “أعلى بخمس مرات”. (تلاحظ OpenAI أن ChatGPT سيتحول تلقائيًا إلى GPT-3.5، النموذج الأقدم والأقل قدرة، عندما يصل المستخدمون إلى الحد الأقصى). ستصل تجربة الصوت المحسنة لـ ChatGPT المدعومة بـ GPT-4o في نسخة ألفا لمستخدمي Plus خلال الشهر المقبل، جنبًا إلى جنب مع خيارات موجهة للشركات.
تحديثات واجهة المستخدم والأخبار ذات الصلة
في أخبار ذات صلة، أعلنت OpenAI عن إطلاق واجهة مستخدم محدثة لـ ChatGPT على الويب بشاشة رئيسية وتخطيط رسائل “أكثر تفاعلية”، وإصدار سطح مكتب من ChatGPT لنظام macOS يتيح للمستخدمين طرح الأسئلة عبر اختصار لوحة المفاتيح أو أخذ ومناقشة لقطات الشاشة. سيحصل مستخدمو ChatGPT Plus على الوصول إلى التطبيق أولاً، بدءًا من اليوم، وستصل نسخة لنظام Windows لاحقًا هذا العام.
بالإضافة إلى ذلك، “GPT Store”، مكتبة OpenAI وأدوات إنشاء الدردشة التابعة لجهات خارجية والمبنية على نماذج الذكاء الاصطناعي الخاصة بها، أصبحت متاحة الآن لمستخدمي الطبقة المجانية من ChatGPT. ويمكن للمستخدمين المجانيين الاستفادة من ميزات ChatGPT التي كانت سابقًا محجوبة خلف جدار الدفع، مثل القدرة على “تذكر” التفضيلات للتفاعلات المستقبلية، تحميل الملفات والصور، والبحث في الويب للإجابة على الأسئلة في الوقت المناسب.