جديد OpenAI تطلق 3 نماذج صوتية فورية جديدة أبرزها GPT-Realtime-2 للاستجابة الأسرع والأدق

dzkhaled · السبت في 6:40 مساءاً

أطلقت OpenAI، عبر واجهة API، ثلاثة نماذج صوتية جديدة تعمل في الوقت الفعلي، في خطوة تنقل الذكاء الصوتي من مجرد محادثات بسيطة إلى أنظمة قادرة على الفهم والتفكير والترجمة وتنفيذ المهام أثناء الحوار المباشر.

ويأتي في مقدمة هذه النماذج GPT-Realtime-2، المبني على قدرات استدلال من فئة GPT-5، حيث يعالج الصوت بشكل متواصل دون الاعتماد على تحويل منفصل للكلام إلى نص ثم إلى صوت، ما يقلل التأخير بشكل كبير. كما يدعم نافذة سياق ضخمة تصل إلى 128 ألف رمز، ما يسمح بإجراء محادثات أطول وأكثر تعقيدًا.

ويوفر النموذج الجديد سلوكًا تفاعليًا أقرب للمساعد البشري، مثل تنفيذ أوامر متعددة في وقت واحد، والتحدث أثناء تنفيذ المهام، والتعامل مع الأخطاء بشكل مباشر داخل المحادثة، إضافة إلى تعديل نبرة الصوت حسب السياق.

أما النموذج الثاني GPT-Realtime-Translate فيركز على الترجمة الفورية المباشرة لأكثر من 70 لغة، مع دعم سيناريوهات مثل خدمة العملاء والتعليم والبث المباشر.

بينما يأتي GPT-Realtime-Whisper كنسخة مطورة من Whisper لتوفير تفريغ صوتي لحظي أثناء الحديث، ما يجعله مناسبًا للاجتماعات والبثوص والتوثيق الفوري.

وتتوفر النماذج الثلاثة الآن عبر API الخاص بـ OpenAI مع تحديثات إضافية لمنصة Realtime API.

أطلقت OpenAI كلاً من GPT-Realtime-2 و GPT-Realtime-Translate و GPT-Realtime-Whisper من خلال واجهة برمجة التطبيقات Realtime API الخاصة بها، وهي متاحة الآن بشكل عام لوكلاء الصوت في الإنتاج.

أطلقت OpenAI ثلاثة نماذج صوتية جديدة تعمل في الوقت الفعلي عبر واجهة برمجة التطبيقات (API) الخاصة بها، مما يرتقي بمستوى الذكاء الاصطناعي الصوتي من مجرد التفاعلات البسيطة القائمة على الأسئلة والأجوبة إلى وكلاء قادرين على الاستماع والاستدلال والترجمة والتصرف ضمن محادثة مباشرة واحدة. ويمثل هذا الإصدار أيضًا خروج واجهة برمجة التطبيقات Realtime من مرحلة الاختبار التجريبي، لتصبح متاحة للاستخدام الإنتاجي بشكل عام لأول مرة.

يُعدّ GPT-Realtime-2 محور هذا الإصدار، وهو أول نموذج صوتي من OpenAI مبنيّ على أساس منطق GPT-5. على عكس البنية التدريجية التي تعتمد عليها معظم أنظمة الصوت، يُعالج GPT-Realtime-2 الصوت في تدفق مستمر، مما يسمح له بتفسير الكلام فور حدوثه والاستجابة دون انقطاع ناتج عن مراحل النسخ والتوليف المنفصلة. يدعم النموذج نافذة سياقية تصل إلى 128 ألف رمز، مقارنةً بـ 32 ألفًا في الإصدار السابق، مما يجعل جلسات الصوت الطويلة وتدفقات الوكلاء المعقدة متعددة الخطوات عمليةً دون الحاجة إلى ذاكرة خارجية.

ما يمكن أن يفعله GPT-Realtime-2
صُمم هذا النموذج خصيصًا لما يُطلق عليه OpenAI "السلوك التفاعلي" أثناء المكالمات الصوتية. تسمح له المقدمات بقول عبارات مثل "دعني أتحقق من ذلك" أو "لحظة من فضلك" أثناء تنفيذ استدعاءات الأدوات، حتى لا يبقى المستخدمون في حالة صمت. كما تُمكّنه استدعاءات الأدوات المتوازية من تشغيل طلبات متعددة في وقت واحد وتوضيح أي منها قيد التنفيذ. ويعني سلوك الاسترداد القوي أنه يتعامل مع حالات الفشل بصوت عالٍ بدلًا من التوقف في منتصف المحادثة. ويتيح تعديل النبرة له التبديل بين أنماط مختلفة بناءً على السياق: نبرة أكثر هدوءًا لمكالمات الدعم ونبرة أكثر حيوية للتأكيدات.

يحقق GPT-Realtime-2 أداءً أفضل بنسبة 15.2% من GPT-Realtime-1.5 على منصة Big Bench Audio، وهي معيار OpenAI لاختبار الاستدلال الصوتي، وبنسبة 13.8% على منصة Audio Multichallenger في اختبار تتبع التعليمات. وفي اختبارات عملية، أفادت شركة Zillow بتحسن ملحوظ في معدل نجاح المكالمات بمقدار 26 نقطة على أصعب معيار اختبار تنافسي لديها، حيث ارتفع من 69% إلى 95% بعد التحسين الفوري لـ GPT-Realtime-2. ويبلغ سعر النموذج 32 دولارًا لكل مليون رمز إدخال صوتي، و64 دولارًا لكل مليون رمز إخراج صوتي، بالإضافة إلى 0.40 دولار لكل مليون رمز إدخال مُخزّن مؤقتًا.

GPT-الترجمة الفورية و GPT-الهمس الفوري
النموذج الثاني، GPT-Realtime-Translate ، هو نظام ترجمة فورية مخصص للكلام. يعالج هذا النظام المدخلات الصوتية باستمرار ويُخرج الترجمات في الوقت الفعلي دون الحاجة إلى توقف المتحدثين أو إكمال جملهم. يدعم النموذج أكثر من 70 لغة إدخال و13 لغة إخراج، ويستهدف مجالات دعم العملاء والتعليم والفعاليات المباشرة والمبيعات عبر الحدود. تُشير شركة BolnaAI، المتخصصة في الذكاء الاصطناعي الصوتي والمُصممة خصيصًا لأسواق اللغات الهندية، إلى انخفاض معدلات أخطاء الكلمات بنسبة 12.5% في اللغات الهندية والتاميلية والتيلوجوية مقارنةً بأسلوب الترجمة السابق. يُباع GPT-Realtime-Translate بسعر 0.034 دولار أمريكي للدقيقة الواحدة من معالجة الصوت.

يُعدّ GPT-Realtime-Whisper النموذج الثالث، وهو امتداد لتقنية التعرف على الكلام Whisper من OpenAI، والتي لاقت رواجًا واسعًا، لتشمل نظام البث المباشر. فبينما صُمم النموذج الأصلي Whisper لنسخ التسجيلات الصوتية بعد انتهائها، يُنتج هذا الإصدار ترجمة فورية أثناء الكلام. تشمل استخداماته الاجتماعات المباشرة، وتوثيق قاعات المحاكم، ونسخ الأخبار، وأدوات تسهيل الوصول للمستخدمين ذوي الإعاقة السمعية. وهو الأقل تكلفة بين النماذج الثلاثة، إذ تبلغ تكلفته 0.017 دولارًا أمريكيًا للدقيقة. جميع النماذج الثلاثة متاحة الآن عبر واجهة برمجة تطبيقات OpenAI وبيئة التطوير التجريبية.

كما يضيف الإطلاق دعم خادم MCP، وإمكانيات إدخال الصور، وتكامل مكالمات الهاتف SIP إلى واجهة برمجة التطبيقات Realtime API، مما يوسع نطاق خدمات الاتصالات الهاتفية المؤسسية وسير العمل الوكيل الذي يمكن للمطورين بناؤه دون مغادرة واجهة برمجة التطبيقات.

اجتذب مجال أدوات الذكاء الاصطناعي أيضًا مهاجمين يسعون لاستغلال الاهتمام بالمنتجات الجديدة. وقد نشر موقع Notebookcheck أمس تقريرًا عن موقع ويب مزيف يحمل اسم Claude AI ، كان يروج لثغرة Beagle الخبيثة لنظام Windows عبر نتائج البحث الممولة من جوجل، باستخدام برنامج تثبيت Claude-Pro Relay المُخترق.

المصدر

جديد OpenAI تطلق 3 نماذج صوتية فورية جديدة أبرزها GPT-Realtime-2 للاستجابة الأسرع والأدق

dzkhaled

المسؤول

منتديات اللمّة ستار الجزائرية

روابط مهمة

الأعضاء الجدد

مشاركة هذه الصفحة