أعلنت شركة OpenAI البارحة عن نموذجها الرائد الجديد ChatGPT-4o، وهو روبوت دردشة يعمل بالذكاء الاصطناعي يمكنه رؤية المحادثات وسماعها وإجراءها في الوقت الفعلي. يرمز الحرف “o” في نموذج الذكاء الاصطناعي ChatGPT-4o إلى “omni”، في إشارة إلى قدرة النموذج على التعامل مع النص والكلام والفيديو.
الذكاء الاصطناعي ChatGPT-4o – مساعد شخصي
تم تدريب GPT-4 Turbo، النموذج السابق “الأكثر تقدماً” الرائد في OpenAI، على مجموعة من الصور والنصوص ويمكنه تحليل الصور والنصوص لإنجاز مهام مثل استخراج النص من الصور أو حتى وصف محتوى تلك الصور. لكن GPT-4o يضيف الكلام إلى هذا المزيج.
يعمل GPT-4o على تحسين تجربة ChatGPT المدعومة بالذكاء الاصطناعي من OpenAI بشكل كبير. لقد أظهرت المنصة منذ فترة طويلة القدرة على نسخ استجابات chatbot باستخدام نموذج تحويل النص إلى كلام، ولكن GPT-4o يعزز ذلك، مما يسمح للمستخدمين بالتفاعل مع ChatGPT بشكل أشبه بالمساعد الشخصي.
على سبيل المثال، يمكن للمستخدمين طرح سؤال على ChatGPT الذي يعمل بنظام GPT-4o وحتى مقاطعة ChatGPT أثناء الرد. يوفر النموذج استجابة “في الوقت الفعلي”، كما تقول OpenAI، ويمكنه التقاط الفروق الدقيقة في صوت المستخدم، استجابةً لتوليد أصوات في “مجموعة من الأنماط العاطفية المختلفة” (بما في ذلك الغناء).
مستقبل ChatGPT-4o – أكثر من 50 لغة
سوف تتطور الميزات أكثر في المستقبل. في حين أن GPT-4o اليوم يمكنه النظر إلى صورة لقائمة طعام بلغة مختلفة وترجمتها. كما يمكن للنموذج أن يسمح لـ ChatGPT، على سبيل المثال، بمشاهدة” مباراة رياضية مباشرة وشرح ما يجري أو يأخذ دور المعلقين الرياضيين مثلاً.
تزداد هذه النماذج تعقيداً، ولكننا المطلوب أن تصبح تجربة التفاعل أكثر طبيعية وسهولة، وأن لا تركز الجهود على واجهة المستخدم بل تركز على التعاون مع ChatGPT. على مدى العامين الماضيين، كان التركيز على تحسين ذكاء هذه النماذج… ولكن هذه المرة التركيز على بسهولة الاستخدام.
يعد GPT-4o متعدد اللغات أيضاً، مع أداء محسّن في حوالي 50 لغة. في الوقت الحالي، لا يعد الصوت جزءاً من واجهة برمجة تطبيقات GPT-4o لجميع العملاء لتقليل مخاطر سوء الاستخدام. سيتم في الأسابيع المقبلة إطلاق الدعم لقدرات الصوت الجديدة لـ GPT-4o إلى “مجموعة صغيرة من الشركاء الموثوق بهم من Open AI.
نموذج الذكاء الاصطناعي ChatGPT-4o متاح للمستخدمين المجانيين من ChatGPT بدءاً من اليوم. و لكنه متاح للمشتركين في ChatGPT Plus واشتراكات الفرق من OpenAI بعدد رسائل “أعلى بمقدار 5 مرات”. علماً أن ChatGPT سيتحول تلقائياً إلى GPT-3.5، وهو النموذج الأقدم والأقل قدرة، عندما يصل المستخدمون إلى الحد الأقصى المسموح. بينما ستصل تجربة ChatGPT الصوتية المحسنة المدعومة بـ GPT-4o إلى مستخدمي Plus الشهر القادم جنباً إلى جنب مع الخيارات التي تركز على المؤسسات.
كما أعلنت OpenAI عن واجهة مستخدم ChatGPT محدثة على الويب وإصدار سطح مكتب من ChatGPT لنظام التشغيل macOS يتيح للمستخدمين طرح الأسئلة عبر اختصار لوحة المفاتيح أو تلقي الأسئلة وطرحها. وتمكن مستخدمو ChatGPT Plus من الوصول إلى التطبيق بدءاً من الأمس، بينما سيُطلق إصدار Windows في وقت لاحق من العام.
ويمكن للمستخدمين المجانيين الاستفادة من ميزات ChatGPT التي كانت حصرية للاشتراك المدفوع، مثل إمكانية الذاكرة التي تسمح لـ ChatGPT بتذكر” تفضيلات التفاعلات المستقبلية، وتحميل الملفات والصور، والبحث في الويب عن إجابات للأسئلة في الوقت المناسب.
الذكاء الاصطناعي ChatGPT-4o – مزايا تنافسية
قالت شركة Open AI في إعلانها إن ChatGPT-4o أرخص بنسبة 50% وأسرع بمرتين من GPT-4 Turbo. يمكن لنموذج الذكاء الاصطناعي ChatGPT-4o أن يستمع إلى تنفس شخص ويرشده إلى كيفية أخذ أنفاس أعمق.,ويمكنه كذلك التصرف كمدرس رياضيات حيث يمكن لبرنامج ChatGPT-4o النظر من خلال عدسة كاميرا الهاتف أو رؤية شاشة الكمبيوتر ومساعدة المستخدمين على حل مشكلة رياضية في الوقت الفعلي. ويمكنه النظر إلى وجوه المستخدمين من خلال كاميرا الصور الشخصية وتحليل حالتهم المزاجية من خلال تعابير وجوههم. يمكن للمستخدمين أيضاً أن يطلبوا من ChatGPT-4o إخبارهم بقصص ما قبل النوم بأصوات مختلفة وترجمة المحادثات. في المستقبل، ستسمح التحسينات بإجراء محادثة صوتية أكثر طبيعية في الوقت الفعلي والقدرة على التحدث مع ChatGPT عبر الفيديو في الوقت الفعلي.
كلمة أخيرة
يمثل إطلاق GPT-o لحظة فارقة في عالم الذكاء الاصطناعي وسيكون الهدف المستقبلي أن تكون هذه الأدوات المتقدمة متوفرة للجميع مجاناً مع حماية فعالة من سوء الاستخدام.