
أخبار التكنولوجيا : نموذج MuseStreamer من Baidu لتوليد فيديو ذكاء اصطناعي ينافس Veo 3 من Google
نافذة على العالم - أفادت تقارير أن Baidu أطلقت مؤخرا نموذجًا جديدًا لتوليد الفيديو بالذكاء الاصطناعي، ووفقًا للتقرير، يُمكن لنموذج MuseStreamer للذكاء الاصطناعي أيضًا دمج الصوت الصيني في الفيديوهات المُولّدة، مما يجعله النموذج الثاني من نوعه بعد Veo 3 من Google، وتزعم الشركة أنه أول نموذج ذكاء اصطناعي في العالم يدعم توليد الصوت الصيني الأصلي، إلى جانب طرح نموذج اللغة الكبير (LLM)، أفادت التقارير أن الشركة أطلقت أيضًا منصة جديدة لإنشاء محتوى الفيديو تُسمى HuiXiang، والجدير بالذكر أن MuseStreamer وHuiXiang غير متوفرين حاليًا خارج الصين.
وشهد عالم نماذج توليد الفيديو بالذكاء الاصطناعي تطورًا ملحوظًا خلال العامين الماضيين، فقد انتقلنا من النماذج التي كانت تواجه صعوبة في توليد أشخاص بعدد ثابت من الأصابع إلى نماذج LLM التي يُمكنها الآن تصوير الفيزياء والحركة الواقعية بدقة، ومع ذلك، كان أحد المجالات التي امتنعت معظم شركات الذكاء الاصطناعي عن الخوض فيها هو مقاطع الفيديو التي تدعم الصوت بشكل أصلي.
في مؤتمر جوجل للمطورين (Google I/O 2025)، أصبحت أول شركة تقدم هذه الإمكانية من خلال Veo 3، الذي أصبح حديث الساعة، متفوقًا على منافسه الأكبر، Sora من OpenAI، قامت شركة التكنولوجيا العملاقة، ومقرها ماونتن فيو، مؤخرًا بتوسيع Veo 3 في جميع الدول الـ 154 التي يتوفر فيها تطبيق Gemini، مما يُبرز جهود الشركة الحثيثة لتطوير هذه الأداة.
ومع ذلك، ووفقًا لتقرير Tech in Asia (عبر AI Base)، دخلت شركة التكنولوجيا الصينية العملاقة Baidu أيضًا في السباق بنموذج الذكاء الاصطناعي MuseStream، ويُقال إنه يُنتج مقاطع فيديو بصوت صيني، وهو النموذج الوحيد القادر على ذلك، والجدير بالذكر أن Veo 3 لا يُنتج الصوت إلا باللغة الإنجليزية.
يُقال إن MuseStreamer لا يقتصر على إنشاء حوارات متزامنة مع مقاطع الفيديو فحسب، بل يُمكنه أيضًا إضافة مؤثرات صوتية وضوضاء محيطة إليها، ويُقال إن بايدو زعمت أن النموذج حقق نسبة 89،38% على معيار VBench I2V، مُحتلًا المركز الأول، تُقدم شركة التكنولوجيا العملاقة برنامج LLM كأداة لإنشاء المحتوى للمستهلكين.
وإلى جانب نموذج الذكاء الاصطناعي، أفادت التقارير أن بايدو أطلقت أيضًا منصة جديدة لمحتوى الفيديو تُسمى HuiXiang، ويُقال إن HuiXiang تُمثل الواجهة الأمامية لنموذج الذكاء الاصطناعي، حيث يُمكن للمستخدمين مشاركة المطالبات وإنشاء مقاطع فيديو، وذكر التقرير أن المنصة تدعم حاليًا إنشاء مقاطع فيديو مدتها 10 ثوانٍ بدقة 1080 بكسل، وبالمقارنة، لا يُمكن لـ Veo 3 إنشاء مقاطع فيديو مدتها 8 ثوانٍ فقط، لا يوجد وضوح بشأن نسبة العرض إلى الارتفاع الافتراضية للفيديو، وما إذا كان بإمكان المستخدمين إنشاء مقاطع فيديو بنسب عرض إلى ارتفاع مختلفة.

جرب ميزات الذكاء الاصطناعي لدينا
اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:
التعليقات
لا يوجد تعليقات بعد...
أخبار ذات صلة


نافذة على العالم
منذ يوم واحد
- نافذة على العالم
أخبار التكنولوجيا : تعرف على نموذج أبل الجديد للغة البرمجة.. أسرع فى التعامل مع لنصوص
الأحد 6 يوليو 2025 11:50 صباحاً نافذة على العالم - أطلقت أبل بهدوء نموذج ذكاء اصطناعي جديد، وبدلاً من كتابة الشيفرة البرمجية كما تفعل برامج LLM التقليدية، حيث تُولّد النصوص (من اليسار إلى اليمين، ومن الأعلى إلى الأسفل)، يُمكنها أيضًا الكتابة خارج الترتيب، وتحسين أجزاء متعددة في آنٍ واحد، والنتيجة هي توليد شيفرة برمجية أسرع، بأداء يُضاهي أفضل نماذج البرمجة مفتوحة المصدر. وفا لما ذكره موقع "9to5mac"، أصدروا نموذجًا مفتوح المصدر يُسمى DiffuCode-7B-cpGRPO، وهو مبني على ورقة بحثية بعنوان DiffuCoder: فهم وتحسين نماذج الانتشار المقنعة لتوليد الشيفرة. تصف الورقة البحثية نموذجًا يعتمد نهج الانتشار أولًا لتوليد الشيفرة، ولكن مع إضافة جديدة: "عندما تُرفع درجة أخذ العينات من 0.2 الافتراضية إلى 1.2، يُصبح DiffuCoder أكثر مرونة في ترتيب توليد الرموز، مُحررًا نفسه من قيود اليسار إلى اليمين الصارمة"، وهذا يعني أنه يُمكنه أيضًا أن يتصرف بمرونة أكبر لتوليد الرموز بترتيب غير مُرتب" ومع خطوة تدريب إضافية تُسمى coupled-GRPO، تعلّم DiffuCoder توليد رموز بجودة أعلى بعدد أقل من التمريرات، والنتيجة تكون كود أسرع في التوليد، ومتماسك عالميًا، وذو قدرة تنافسية مع بعض أفضل نماذج البرمجة مفتوحة المصدر الموجودة.


نافذة على العالم
منذ يوم واحد
- نافذة على العالم
أخبار التكنولوجيا : نموذج MuseStreamer من Baidu لتوليد فيديو ذكاء اصطناعي ينافس Veo 3 من Google
الأحد 6 يوليو 2025 02:30 صباحاً نافذة على العالم - أفادت تقارير أن Baidu أطلقت مؤخرا نموذجًا جديدًا لتوليد الفيديو بالذكاء الاصطناعي، ووفقًا للتقرير، يُمكن لنموذج MuseStreamer للذكاء الاصطناعي أيضًا دمج الصوت الصيني في الفيديوهات المُولّدة، مما يجعله النموذج الثاني من نوعه بعد Veo 3 من Google، وتزعم الشركة أنه أول نموذج ذكاء اصطناعي في العالم يدعم توليد الصوت الصيني الأصلي، إلى جانب طرح نموذج اللغة الكبير (LLM)، أفادت التقارير أن الشركة أطلقت أيضًا منصة جديدة لإنشاء محتوى الفيديو تُسمى HuiXiang، والجدير بالذكر أن MuseStreamer وHuiXiang غير متوفرين حاليًا خارج الصين. وشهد عالم نماذج توليد الفيديو بالذكاء الاصطناعي تطورًا ملحوظًا خلال العامين الماضيين، فقد انتقلنا من النماذج التي كانت تواجه صعوبة في توليد أشخاص بعدد ثابت من الأصابع إلى نماذج LLM التي يُمكنها الآن تصوير الفيزياء والحركة الواقعية بدقة، ومع ذلك، كان أحد المجالات التي امتنعت معظم شركات الذكاء الاصطناعي عن الخوض فيها هو مقاطع الفيديو التي تدعم الصوت بشكل أصلي. في مؤتمر جوجل للمطورين (Google I/O 2025)، أصبحت أول شركة تقدم هذه الإمكانية من خلال Veo 3، الذي أصبح حديث الساعة، متفوقًا على منافسه الأكبر، Sora من OpenAI، قامت شركة التكنولوجيا العملاقة، ومقرها ماونتن فيو، مؤخرًا بتوسيع Veo 3 في جميع الدول الـ 154 التي يتوفر فيها تطبيق Gemini، مما يُبرز جهود الشركة الحثيثة لتطوير هذه الأداة. ومع ذلك، ووفقًا لتقرير Tech in Asia (عبر AI Base)، دخلت شركة التكنولوجيا الصينية العملاقة Baidu أيضًا في السباق بنموذج الذكاء الاصطناعي MuseStream، ويُقال إنه يُنتج مقاطع فيديو بصوت صيني، وهو النموذج الوحيد القادر على ذلك، والجدير بالذكر أن Veo 3 لا يُنتج الصوت إلا باللغة الإنجليزية. يُقال إن MuseStreamer لا يقتصر على إنشاء حوارات متزامنة مع مقاطع الفيديو فحسب، بل يُمكنه أيضًا إضافة مؤثرات صوتية وضوضاء محيطة إليها، ويُقال إن بايدو زعمت أن النموذج حقق نسبة 89،38% على معيار VBench I2V، مُحتلًا المركز الأول، تُقدم شركة التكنولوجيا العملاقة برنامج LLM كأداة لإنشاء المحتوى للمستهلكين. وإلى جانب نموذج الذكاء الاصطناعي، أفادت التقارير أن بايدو أطلقت أيضًا منصة جديدة لمحتوى الفيديو تُسمى HuiXiang، ويُقال إن HuiXiang تُمثل الواجهة الأمامية لنموذج الذكاء الاصطناعي، حيث يُمكن للمستخدمين مشاركة المطالبات وإنشاء مقاطع فيديو، وذكر التقرير أن المنصة تدعم حاليًا إنشاء مقاطع فيديو مدتها 10 ثوانٍ بدقة 1080 بكسل، وبالمقارنة، لا يُمكن لـ Veo 3 إنشاء مقاطع فيديو مدتها 8 ثوانٍ فقط، لا يوجد وضوح بشأن نسبة العرض إلى الارتفاع الافتراضية للفيديو، وما إذا كان بإمكان المستخدمين إنشاء مقاطع فيديو بنسب عرض إلى ارتفاع مختلفة.


موجز نيوز
منذ 2 أيام
- موجز نيوز
بايدو الصينية تتجه بكل طاقتها نحو الذكاء الاصطناعى فى محرك البحث وتوليد الفيديو
في خطوة تعكس تصاعد المنافسة العالمية في مجال الذكاء الاصطناعي ، أعلنت شركة بايدو، وهي واحدة من أضخم شركات التكنولوجيا في الصين، عن إطلاق حزمة جديدة من الأدوات الذكية التي تعيد إحياء محرك بحثها الرئيسي، إلى جانب تقديم نموذج مبتكر لتوليد الفيديوهات يمكنه تحويل الصور الثابتة إلى مقاطع مرئية نابضة بالحياة. ونقلت شبكة سي إن بي سي عن دان آيفز، رئيس الأبحاث التقنية العالمية في شركة Wedbush Securities، قوله إن بايدو تسير بكل قوة نحو تسريع تبني الذكاء الاصطناعي في منتجاتها الأساسية. محرك البحث الذي أطلقته بايدو لأول مرة عام 2000 شهد في السنوات الأخيرة إضافات تدريجية من تقنيات الذكاء الاصطناعي ، لكن التحديث الأخير يعد الأكبر منذ عقد كامل، ويأتي في وقت تسعى فيه الشركة لتقديم تجربة بحث أكثر ذكاءً وسلاسة للمستخدمين، من خلال تطوير آليات الفهم والتفاعل مع الأسئلة المطروحة. في النسخة الجديدة، أصبح محرك البحث قادرًا على التعامل مع استعلامات أطول تصل إلى ألف حرف باللغة الصينية، مقارنة بالحد السابق الذي لم يتجاوز 28 حرفًا. كما أتاحت الشركة للمستخدمين إمكانية استخدام لغة محادثة طبيعية بدلًا من الاعتماد على الكلمات المفتاحية فقط، وهو تطور يعكس نقلة نوعية في طريقة التفاعل مع محركات البحث، إلى جانب ذلك تم تفعيل خيارات البحث بالصوت وتحميل الصور، ما يفتح الباب أمام أشكال أكثر تنوعًا من الإدخال والتفاعل. هذا التحول يعكس رغبة بايدو في العودة إلى جذورها كمزود رائد لمحركات البحث، لكنها الآن تفعل ذلك من بوابة الذكاء الاصطناعي، في محاولة لإعادة تشكيل مكانتها في السوق الصينية المتسارعة النمو، ومجاراة المنافسة الشرسة عالميًا. وفي موازاة هذا التحديث، كشفت الشركة أيضًا عن إطلاق نموذج متقدم لتوليد الفيديوهات يحمل اسم MuseSteamer، هذا النموذج الجديد يعد جزءًا من استراتيجية أوسع لتوسيع قدرات منتجها الرئيسي في الذكاء الاصطناعي Ernie Bot، الذي أطلقته بايدو العام الماضي. وعلى الرغم من أن Ernie Bot لم يحقق بعد نفس الزخم الذي تحظى به نماذج مثل ChatGPT من أوبن إيه آي، أو DeepSeek الصيني، فإن MuseSteamer يمثل دفعة قوية في هذا المضمار. النموذج الجديد يمكن المستخدمين من توليد فيديوهات واقعية تصل مدتها إلى 10 ثوانٍ وبدقة عالية تبلغ 1080p، وتجمع بين الصورة والحركة والصوت، بما في ذلك أصوات بشرية مركبة تمنح المشاهد طابعًا أكثر واقعية. وبحسب ما أعلنته الشركة، فقد حقق MuseSteamer نتيجة بلغت 89.38% على مقياس VBench I2V المتخصص في قياس جودة تحويل الصور إلى فيديو، وهي أعلى نتيجة مسجلة على هذا المعيار. بهذه الخطوات، تواصل بايدو ترسيخ موقعها في سباق الذكاء الاصطناعي، وسط بيئة تنظيمية وتقنية متغيرة، حيث تسعى الشركات الصينية إلى الابتكار داخليًا بعد القيود الغربية على تقنيات الذكاء الاصطناعي المتقدمة.