استعد.. تقنية تمكنك من الحديث وجهاً لوجه مع الذكاء الاصطناعي

منذ 2 أيام

أزاحت شركة الذكاء الاصطناعي «Character.AI» الستار عن بعضٍ من أبحاثها في مجال الفيديو التوليدي، ضمن جهودها الرامية إلى ابتكار تقنية تتيح التفاعل مع الذكاء الاصطناعي وجهًا لوجه.
وطوّرت الشركة نموذجًا جديدًا يدعى «TalkingMachines»، يستطيع توليد فيديو لشخصيات ذكاء اصطناعي تتحرك وتتحدث في الوقت الآني، وذلك انطلاقًا فقط من صورة وإشارة صوتية.
وبهذا التقدّم، تقترب الشركة من تقديم تجارب تفاعلية مرئية شبيهة بمكالمات فيديو «FaceTime» لكن مع شخصيات ذكاء اصطناعي، بحسب تقرير لموقع «Neowin» المتخصص في أخبار التكنولوجيا، اطلعت عليه «العربية Business».
ولا تزال هذه الأبحاث في مراحلها الأولى، وإذا وصل هذا التطور إلى تطبيق «Character.AI»، فسيتيح للمستخدمين الانخراط في تجارب أكثر تفاعلية وواقعية مع الذكاء الاصطناعي، وإمكانية بناء عوالم مرئية.
وأكدت «Character.AI» أن هذا الإنجاز البحثي لا يقتصر على تحريك الوجوه فحسب، بل إنه خطوة نحو تطوير شخصيات ذكاء اصطناعي سمعية وبصرية تفاعلية يمكن التواصل معها في الوقت الفعلي. ويعني هذا أنه يمكن التفاعل مع هذه الشخصيات من خلال الصوت وأنها متحركة.
ويدعم هذا النموذج مجموعة واسعة من الأنماط، بما في ذلك البشر الواقعيين، والأنمي، وصور أفاتار ثلاثية الأبعاد، ويمكن من التحدث مباشرةً مع شخصية ذكاء اصطناعي مع فترات استماع وتحدث طبيعية تحاكي الحوار الطبيعي.
وهذه الميزة غير جاهزة لتطبيق «Character.AI» بعد، حيث تقول الشركة إنها لا تزال في مرحلة البحث والتطوير.
وإذا أطلقت الشركة هذه التقنية، فمن المؤكد أنها ستكون واحدة من أوائل الشركات التي تحقق ذلك، إن لم تكن الأولى، وهي بالتأكيد محطة فارقة في سباق الذكاء الاصطناعي.
أخبار ذات صلة

هاشتاغز

جرب ميزات الذكاء الاصطناعي لدينا

اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:

أخبار ذات صلة

ثورة في أعمال المنزل.. روبوت صيني يطهو اللحم من بُعد 1800 كيلومتر

الشرق السعودية

منذ 40 دقائق

الشرق السعودية

ثورة في أعمال المنزل.. روبوت صيني يطهو اللحم من بُعد 1800 كيلومتر

نجح روبوت بشري من شركة "شنتشن دوبوت" الصينية في طهي شريحة لحم، بينما يتحكم به شخص على بُعد 1800 كيلومتر باستخدام نظارة الواقع الافتراضي، حسب ما أفادت صحيفة "ساوث تشاينا مورنينج بوست". ونُشر مقطع فيديو لهذا الإنجاز الجمعة الماضي على الحساب الرسمي للشركة على تطبيق WeChat، وعرض أحدث تقنياتها، التي قد تُحدث تغييراً جذرياً في طريقة أداء البشر للأعمال المنزلية، وإجراء العمليات الجراحية، وتفتيش المحطات النووية، وحتى استكشاف الفضاء الخارجي. وأُجريت عملية الطهي بواسطة "دوبوت أتوم"، أول روبوت بشري من الشركة، والذي أُطلق في مارس الماضي. وبينما كان الروبوت في مقاطعة شاندونج، تم التحكم فيه عن بُعد من مقاطعة جوانجدونج - على بُعد 1800 كيلومتر. وأظهر الفيديو الروبوت وهو يُقلّد حركات الشخص الذي يتحكم وهو يرتدي نظارة الواقع الافتراضي لالتقاط حركات يده أثناء مراقبة المنضدة أمام الروبوت. وأظهر المقطع، الذي تبلغ مدته أربع دقائق، الروبوت وهو يُنجز بعض المهام الدقيقة، بما في ذلك مسح شريحة اللحم بمنشفة ورقية، وسكب الزيت، وتقليب اللحم، وحتى رش الملح على الطبق. وصرحت الشركة أن التقنية توفر دقة تبلغ 0.05 مليمتر، لكنها حالياً قادرة فقط على التحكم في الجزء العلوي من جسم الروبوت. وأغلقت أسهم شركة "دوبوت" المدرجة في بورصة هونج كونج على ارتفاع بنسبة 3% تقريباً عند 55.60 دولاراً هونج كونجي يوم الجمعة. وتأسست شركة "دوبوت" عام 2015، وتخصصت في البداية في الأذرع الروبوتية قبل أن تتجه إلى الروبوتات البشرية. وفي الأسبوع الماضي، بدأت الشركة رسمياً عمليات تسليم الروبوت عالمياً، والذي يبلغ سعره 199 ألف يوان (27500 دولار أميركي)، حيث استلمت اليابان الدفعة الأولى. ويجعل هذا الإنجاز شركة "دوبوت" واحدة من القلائل من مطوري الروبوتات البشرية الصينيين الذين وصلوا إلى مرحلة الإنتاج الضخم. ووفقاً لتقرير صادر عن شركة أبحاث السوق "تريند فورس" في أبريل، أطلقت 11 شركة صينية متخصصة في الروبوتات مبادرات إنتاج ضخمة في عام 2024، وتخطط ست شركات لتصنيع أكثر من 1000 وحدة هذا العام.

الشرق الأوسط

منذ 2 ساعات

الشرق الأوسط

الذكاء الاصطناعي والإبداع

هناك فكرة مخيفة مفادها أن أحد أشهر برامج الذكاء الاصطناعي «ChatGPT» يستطيع أن يكتب مقالةً أو روايةً أو حتى بحثاً علمياً، بإتقان وبراعة لا متناهية. قدم لي أحد أقاربي مقالاً مذيلاً باسمي، وقال إنه مقال قديم لي. قرأته، نعم يشبهني، لكني كنت متأكدة أني لم أكتبه يوماً، واحتفظت بإنكاري أنني لم أفعل. المقال كان يتبنى أفكاري وأسلوبي الكتابي الذي ينفرد به كل كاتب، أستطيع أن أقول إنه يمثلني بنسبة تفوق 80 بالمائة، وهي نسبة مرعبة. اتضح أن الموقف كان مزحةً من قريبي المتخصص في تقنية المعلومات، أراد أن يقنعني بسلطة الذكاء الاصطناعي وهيمنته التي لا نستطيع أن نتخيل إلى أي مدى ستصل. أنا اليوم على قيد الحياة وأستطيع إنكار ما هو ليس لي، لكن دوام الحال من المحال، بعد مدة، قد لا أكون متوفرة لأقول هذا لي أو لا. موقف بسيط لكنه شرح بوضوح الجانب السلبي للذكاء الجديد. منذ بدء التاريخ الإنساني، كان التزوير وتلفيق المنتج الأدبي موجوداً، قصائد ومقالات وقصص وأبحاث لم يكتبها أصحابها، كانت أقلام مأجورة، لكنها مكلفة مادياً للذين لهثوا خلف الشهرة لأنها مدفوعة الثمن، كما أنها قد تكون عرضة للكشف والفضيحة لأي سبب. أما اليوم فهذه المخاطر غير واردة مع «ذ.إ» لا تكلفة ولا فضيحة. وأنا أكتب هذا المقال فتحت تطبيق «ChatGPT» ووضعت هذا الأمر: اكتب لي عبارة تحاكي أسلوب الروائي ديستوفسكي. جاءت الإجابة خلال ثانيتين تماماً: «كان يمشي في الزقاق الضيق كما لو أن خطاياه تُثقل قدميه، وكل ظلٍّ يمرّ به يهمس له بما يعرفه جيداً: أنك لست ضحية العالم، بل صنيعة جراحك التي اخترت ألا تداويها»!! ذُهلت، هل هذا حقيقة؟ عدت لأسأله: ما احتمالية أن أجد هذه العبارة في «غوغل» أو في أي مكان؟ جاءتني الإجابة: هذه العبارة من تأليفي ولم تُنقل من أي مصدر معروف أو منشور، لذا لن تجدها مطابقة في «غوغل» أو في أي مكان آخر. اليوم علينا أن نعيد حساباتنا، على مؤسسات التعليم أن تدرك أن الطالب يستطيع أن ينجز بحثاً متقناً بكل تفاصيله خلال ثوانٍ. هذا غش وتزوير صريحان، يتنافيان مع شرط الأصالة، فماذا هم فاعلون؟ في فترة مضت، كنا نحذر الطلبة بألا يعتمدوا في أبحاثهم على موقع «ويكيبيديا» بل يتوجهون للمصادر العلمية المعروفة، أولاً، لأنه مصدر غير موثوق، وثانياً لأن معلوماته قابلة للتعديل من أي شخص كان. كان من السهل كشف الطالب الذي لا يمتثل من خلال اقتطاع سطور من بحثه والبحث عنها في «غوغل». لكن مع «ذ.إ» الوضع آمن. حينما أتأمل هذه التقنية أفكر أن الأسوأ في نظري يلامس حالتين؛ الأولى من سيكتب التاريخ؟ التاريخ الذي تمتلئ به مكتباتنا اليوم كان دائماً عرضة للنقد والتشكيك بالمؤلفين وحقبهم الزمنية، والأخذ والرد، والتفنيد، رغم أنه كُتب بشكل تقليدي على يد إنسان. بعد 20 عاماً كم كتاب تاريخ على الرف نثق أنه حقيقي النقل والكتابة، وليس صنيعة آلة ابتكرها الإنسان وأصبحت أكثر تفوقاً منه في سرعة التنفيذ والإنجاز. هل سنتوه داخل دائرة مغلقة بحثاً عن الحقيقة؟ الحالة الثانية المقلقة هي الأبحاث العلمية. الباحث يقضي شهوراً وربما سنوات ليخرج ببحث رصين يستطيع نشره. في واقعنا اليوم، يستطيع الباحث إنجاز بحث يتضمن نتائج علمية لا تمت للواقع بصلة سوى ما اجتهد فيه «ذ.إ»، وأخرجه بعد المرور على آلاف الأبحاث المشابهة. حتى أنه يستطيع أن يقدم إحصاءات، وجداول، ورسوماً بيانيةً ليبدو البحث متكاملاً. في حالتنا التقليدية، كان الباحث ليُطرد من الجامعة أو المركز البحثي إن تسربت معلومات حول حقيقة أبحاثه، لكن من يستطيع اليوم أن يكون شرطياً للأبحاث؟ من ناحية أخرى، يستطيع من يتهمني بالسلبية والسوداوية أن يقول إنه استطاع عمل دراسة جدوى لمشروع اقتصادي كبير خلال دقائق بفضل «ذ.إ» مما وفر عليه الوقت والجهد. برنامج إيلون ماسك «Neuralink» يخترق العقل البشري، هذه سلبية، لكنه قد يساعد في الشفاء من الشلل والأمراض العصبية. وأمثلة أخرى كثيرة لا حصر لها. أنا مؤيدة لذلك، وأنوي شخصياً الاستفادة من هذه الثورة المعلوماتية، ولكن فكرتي أن «ذ.إ» سلاح ذو حدين، والحد الموجع الرهيف مؤذٍ، وقد ينتج لنا أفراداً جهلاء فقيري المعرفة لكنهم أصبحوا مرموقين بفضل أعمال لم يقوموا بها ومعارف لم يكتسبوها. هذه المعضلة لا أستطيع تجاوزها. الحقيقة أن «ChatGPT» وغيره من التطبيقات غيرت وستغير حياة الناس للأفضل، وظهر وسيظهر في المستقبل المزيد منها التي تعمل عمل المستشار والسكرتارية والهندسة وكفاءة الأعمال وتشخيص الأمراض وتصميم الأدوية ومنافع لا نهاية لها. لكن المخاطر حاضرة، وعلينا إيجاد حلول لها، مثل مخاطر كل تقنية عشنا ظهورها؛ الطائرات والكهرباء والهندسة الوراثية والطاقة النووية... إلخ خلال كتابة مقالي هذا سألت «ChatGPT» عن أنواع وخصائص التقنيات الحديثة وأجابني. ثم وجدت منه سؤالاً أسفل الصفحة أضحكني: هل ترغبين أن أكتب لك سيناريو قصيراً أو قصة قصيرة بأسلوب دوستويفسكي عن شخصية تعيش وسط هذه التقنيات الخطيرة؟

"SpeechSSM".. نموذج صوتي جديد يولد كلاماً طبيعياً يصل لـ 16 دقيقة

الشرق السعودية

منذ 4 ساعات

الشرق السعودية

"SpeechSSM".. نموذج صوتي جديد يولد كلاماً طبيعياً يصل لـ 16 دقيقة

طوّرت باحثة من كوريا الجنوبية نموذجاً لغوياً صوتياً جديداً يُعرف باسم "SpeechSSM"، يمكّن من توليد كلام اصطناعي لكنه يبدو طبيعياً ومتواصلاً دون قيود زمنية، ما يُمهّد الطريق لتطوير نماذج صوتية تعمل على مدار الساعة. ويُعدّ النموذج الجديد خطوة رائدة في تكنولوجيا الذكاء الاصطناعي التي تولد الأصوات، إذ يتغلب على القيود المعروفة للنماذج السابقة في إنتاج محتوى صوتي طويل كالذي تتطلبه برامج بودكاست، والكتب المسموعة، والتطبيقات التفاعلية. وأفادت ورقة بحثية نشرتها منصة arXive العلمية، بأن الباحثة سي جين بارك، طالبة الدكتوراه في فريق البروفيسور يونج مان رو، بكلية الهندسة الكهربائية، طورت النموذج "SpeechSSM" ضمن مشروع بحثي نُشر على المنصة، ومن المقرر تقديمه خلال مؤتمر تعلم الآلة الدولي ICML لعام 2025. جيل جديد من تقنيات معالجة اللغة تبرز النماذج اللغوية الصوتية (SLMs) بوصفها الجيل القادم من تقنيات معالجة اللغة، كونها تتخطى قيود النماذج النصية التقليدية من خلال قدرتها على تعلم الكلام البشري مباشرة دون حاجة لتحويله إلى نص، وتستفيد هذه النماذج من الخصائص الصوتية الفريدة للبشر لإنتاج كلام عالي الجودة بسرعة، حتى في النماذج واسعة النطاق. لكن النماذج السابقة كانت تواجه تحديات كبيرة في توليد محتوى طويل المدة، بسبب ارتفاع دقة تحليل المقاطع الصوتية واستهلاك الذاكرة أثناء محاولة التقاط التفاصيل الدقيقة عبر تقسيم الكلام إلى أجزاء صغيرة جداً، وكان من الصعب الحفاظ على الاتساق في المعنى ونبرة المتحدث عند التوليد لمدة طويلة. توليد كلام لمدة طويلة وسرد سليم النموذج الجديد "SpeechSSM" يعتمد على هيكل "هجيني" يجمع بين طبقات "الانتباه" التي تركز على المعلومات الحديثة، وطبقات "تكرارية" تتيح تذكّر السياق الكامل للنص أو المحادثة، وهذا التصميم يسمح بتوليد كلام يمتد لفترة طويلة مع الحفاظ على تماسك المعنى وسلاسة السرد، دون فقدان الخيط العام أو انحراف عن الموضوع. وإلى جانب الحفاظ على التماسك السردي، فإن "SpeechSSM" يقلل بشكل كبير من استهلاك الذاكرة والموارد الحاسوبية، إذ لا يتزايد الحمل الحسابي مع زيادة طول المدخلات، ما يجعل النموذج أكثر كفاءة واستقراراً. ويعالج النموذج تسلسلات الكلام غير المحدودة عبر تقسيم البيانات إلى وحدات زمنية ثابتة وقصيرة (نوافذ)، وتحليل كل واحدة منها بشكل مستقل، ثم دمجها لإنتاج كلام طويل متماسك. توليد كلام يصل إلى 16 دقيقة في مرحلة توليد الصوت، يستخدم "SpeechSSM" نموذجاً يُعرف باسم "SoundStorm"، وهو نموذج تركيب صوتي غير تسلسلي (Non-Autoregressive) يتيح إنتاج مقاطع متعددة في آن واحد، على عكس النماذج التقليدية التي تبني الصوت كلمةً بكلمة أو حرفاً بحرف، وهذه التقنية تُسرّع عملية التوليد بشكل كبير دون التضحية بجودة الصوت. وعلى عكس النماذج السابقة التي غالباً ما كانت تقتصر على توليد مقاطع قصيرة لا تتعدى 10 ثوانٍ، أنشأت الباحثة مجموعة بيانات جديدة تحت اسم "LibriSpeech-Long"، تتيح اختبار قدرات النموذج في توليد كلام يصل إلى 16 دقيقة، ما يمثل إنجازاً مهماً في تقييم قدرات التوليد الصوتي طويل المدى. ابتكار أدوات تقييم جديدة إلى جانب تطوير النموذج، قدّمت الباحثة، أدوات تقييم جديدة تعالج قصور المقاييس التقليدية مثل Perplexity (الحيّرة) التي تقتصر على قياس الصحة اللغوية فقط. وتشمل الأدوات الجديدة مقياس "SC-L" (الاتساق الدلالي مع مرور الوقت)، ومقياس "N-MOS-T" (معدل تقييم الطبيعية الصوتية على مدى الزمن)، ما يتيح فهماً أعمق لتماسك وجودة المحتوى الصوتي الناتج. وأظهرت التقييمات أن الكلام الذي يولده نموذج "SpeechSSM" يحافظ على الشخصيات والأحداث المذكورة في بداية المحتوى، ويضيف شخصيات ومعلومات جديدة بطريقة طبيعية ومتسقة، حتى مع توليد كلام طويل المدة، وهو ما يمثل قفزة نوعية مقارنة بالنماذج السابقة التي كانت تميل إلى التكرار أو فقدان الموضوع مع مرور الوقت. وقالت الباحثة: "كانت النماذج اللغوية الصوتية التقليدية محدودة في قدراتها على توليد محتوى طويل المدى، وكان هدفنا تطوير نموذج يمكنه دعم الاستخدام البشري الحقيقي عبر توليد كلام طويل ومتسق". وأضافت: "نعتقد أن هذا الإنجاز سيسهم في تطوير مجالات المحتوى الصوتي وتطبيقات الذكاء الاصطناعي مثل المساعدات الصوتية، من خلال تحسين الاتساق في المحتوى وقدرة النماذج على التفاعل بكفاءة وسرعة في الزمن الحقيقي".