ChatGPT كان دائمًا معتمدًا على النصوص فقط في التفاعل معه. ومع ذلك، يعمل الآن على فهم أسئلتك بوسائل جديدة.
معظم التغييرات الجديدة التي أدخلتها OpenAI على ChatGPT تركز على قدرات الشات بوت الذكي: أنواع الأسئلة التي يستطيع الإجابة عليها، والمعلومات التي يمكنه الوصول إليها، وتحسين النماذج الأساسية. ولكن هذه المرة، تم تغيير طريقة استخدام ChatGPT نفسه. الشركة تقدم نسخة جديدة من الخدمة تتيح لك توجيه الشات بوت ليستجيب لك ليس فقط عبر كتابة الجمل في مربع نص، بل أيضًا بالتحدث بصوت عالٍ أو برفع صورة. ستكون هذه الميزات الجديدة متاحة للمشتركين الذين يدفعون مقابل استخدام ChatGPT خلال الأسبوعين القادمين، وستصبح متاحة للجميع “قريبًا” وفقًا لتصريح OpenAI.
المحادثات الصوتية سهلة الاستخدام: ما عليك سوى النقر على زر والتحدث لطرح سؤالك، يحول ChatGPT الصوت إلى نص ويقدمه للنموذج اللغوي الضخم، ثم يحصل على إجابة ويحولها إلى كلام مرة أخرى ويقرأ الإجابة بصوت عال. ستشعر وكأنك تتحدث مع أليكسا أو مساعد جوجل، ولكن OpenAI يأمل أن تكون الإجابات أفضل بفضل التقنيات المتطورة في الخلفية. يبدو أن معظم المساعدين الافتراضيين يتم إعادة بناؤهم للتعتمد على نماذج اللغة الكبيرة، وOpenAI هي في مقدمة اللعبة.
تعتمد OpenAI على نموذج Whisper الممتاز للتحويل من الكلام إلى النص، وهم يقومون الآن بإطلاق نموذج جديد لتحويل النص إلى كلام بجودة صوتية مشابهة للإنسان، وذلك باستخدام مجرد نص وعينات صوتية قصيرة. ستكون لديك خيارات لاختيار صوت ChatGPT من بينها خمسة أصوات مختلفة، ولكن يعتقد OpenAI أن هذا النموذج لديه إمكانيات أكبر من ذلك بكثير. OpenAI تتعاون حاليًا مع Spotify لترجمة البودكاست إلى لغات أخرى، مع الحفاظ على صوت مقدم البودكاست. هناك العديد من الاستخدامات المثيرة لأصوات اصطناعية، ويمكن أن تلعب OpenAI دورًا كبيرًا في هذه الصناعة.
ومع ذلك، فإن إمكانية بناء صوت اصطناعي قوي بسرعة باستخدام عينات صوتية قصيرة تفتح الباب أمام مشكلات محتملة، مثل تقمص الجهات الفاعلة الضارة للشخصيات العامة أو ارتكاب الاحتيال. تحذر الشركة في منشور على مدونتها من هذه المخاطر الجديدة، وبالتالي فإن النموذج ليس متاحًا للاستخدام العام. سيتم التحكم في استخدامه وتقييده لحالات استخدام محددة وشراكات معينة.
أما بالنسبة لبحث الصور، فهو يشبه إلى حد ما تقنية Lens الخاصة بجوجل. تلتقط صورة للشيء الذي تهتم به، وبعد ذلك يحاول ChatGPT معرفة موضوع الصورة وتقديم الرد المناسب. يمكنك أيضًا استخدام أداة الرسم في التطبيق للمساعدة في توضيح استفسارك، أو يمكنك توجيه السؤال شفهيًا أو كتابيًا للصورة. هكذا تكون طبيعة الدردشة التفاعلية مع ChatGPT مفيدة: بدلاً من إجراء بحث ثم الحصول على إجابة خاطئة وبعد ذلك إجراء بحث آخر، يمكنك توجيه الشات بوت وتحسين الإجابة بينما تتقدم. هذه الطريقة تشبه إلى حد كبير ما تفعله جوجل مع بحث متعدد الوسائط.
من الواضح أن بحث الصور يأتي مع مشكلاته المحتملة أيضًا. واحدة من هذه المشكلات تتعلق بما يمكن أن يحدث عندما تطرح سؤالًا حول شخص ما باستخدام صورة: OpenAI تقول إنها حدَّدت بوضوح “قدرة ChatGPT على تحليل واستخراج بيانات مباشرة حول الأشخاص” لأسباب الدقة والخصوصية. هذا يعني أن واحدة من أكثر رؤى الذكاء الاصطناعي ذات طابع الخيال العلمي — القدرة على مشاهدة شخص والسؤال: “من هذا؟” — لن تصبح حقيقة قريبًا، وهذا قرار جيد على الأرجح.
بعد مضي ما يقرب من عام على إطلاق ChatGPT لأول مرة، يبدو أن OpenAI لا تزال تحاول معرفة كيفية إضافة المزيد من الميزات والقدرات إلى الشات بوت دون إحداث مشكلات أو عيوب جديدة. من خلال هذه الإصدارات الجديدة، حاولت الشركة أن تجد التوازن بين تقديم المزيد من القدرات وتقييد ما يمكن أن تفعله النماذج الجديدة. ولكن هذا النهج لن يكون مستدامًا بشكل دائم. مع زيادة استخدام التحكم بالصوت وبحث الصور من قبل المستخدمين، ومع اقتراب ChatGPT من أن يصبح مساعدًا افتراضيًا حقيقيًا ومتعدد الوسائط ومفيدًا بشكل أكبر، سيصبح الأمر أكثر صعوبة في الحفاظ على القواعد والضوابط اللازمة.