
هل يمكن اختبار مدى قدرة الذكاء الاصطناعي على الابتكار؟
- للوهلة الأولى، تبدو متاهة الحروف المتناثرة في اختبار الباحث "جوناثان روبرتس" أشبه بطلاسم شيطانية صاغها عقلٌ سادي النزعة.
- فالمطلوب ليس مجرد فك شفرة كلمات خفية، بل تحديد سؤال مرسوم على هيئة نجمة وسط هذه الفوضى، ثم الإجابة عنه.
- هذا ليس لغزًا لتمضية الوقت، بل هو محك حقيقي صُمم خصيصًا ليضع عمالقة الذكاء الاصطناعي، مثل نموذج "أو3- برو" (o3-pro)، في مواجهة تليق بقدراتهم الخارقة.
- في خضم التسارع المذهل لعالم الذكاء الاصطناعي، لم تعد المشكلة في ندرة الاختبارات، بل في قدرتها على مواكبة هذا التطور.
- فبينما تتسابق الشركات لإطلاق نماذج أذكى وأقوى، يخوض الباحثون سباقًا موازيًا لابتكار مقاييس قادرة على قياس هذا الذكاء بدقة وإنصاف.
- وهنا تبرز المعضلة الجوهرية: كيف تضع اختبارًا لعقلٍ يتطور بشكل أسرع من قدرتك على ابتكار الاختبار نفسه؟
مقاييس الأمس.. لماذا لم تعد فعّالة؟
لم تعد معايير التقييم التقليدية قادرة على الصمود، وقد انهارت فعّاليتها لثلاثة أسباب جوهرية:
للاطلاع على المزيد من المواضيع والتقارير في صفحة مختارات أرقام
1- العيوب المنهجية: جُمع الكثير من الاختبارات القديمة على عجل، فجاءت مليئة بالصياغات الركيكة وأنظمة التصحيح المجحفة. ولعل المثال الأبرز هو اختبار "ImageNet" الشهير للصور، الذي يعاقب النموذج إذا وصف صورة مرآة تعكس موزة بأنها "مرآة"، ويكافئه إذا تجاهل المرآة وحدد "الموز" المنعكس فيها، في مفارقة تكشف سطحية التقييم.
2- تلوث البيانات والغش المبرمج: تسربت أسئلة وأجوبة الاختبارات الشائعة إلى محيطات البيانات الهائلة التي تلتهمها النماذج الجديدة. والنتيجة؟ أنظمة ذكاء اصطناعي "تحفظ" الإجابات عن ظهر قلب بدلاً من "فهم" الأسئلة، مما يحول أداءها المذهل في الامتحانات إلى مجرد وهم لا يعكس قدرتها الحقيقية على حل مشكلات العالم الواقعي.
3- التشبع والسهولة المفرطة: وصلت النماذج "الحدودية" اليوم إلى مستوى من التطور جعلها تحقق علامات شبه كاملة في الاختبارات القديمة، مما أفقدها قيمتها كأداة للقياس. فعندما يحقق نموذج متطور درجة 99% في اختبار حقق فيه سلفه قبل تسعة أشهر 98.9%، فإن هذا الهامش الضئيل لا يخبرنا شيئًا يُذكر عن القفزة النوعية الهائلة التي حدثت بالفعل.
جيل جديد من الألغاز المستحيلة.. أسوار في وجه العقل الآلي
لمواجهة هذه التحديات، برز جيل جديد من الاختبارات المصممة لتكون "عصية" على الآلة، ومن أبرزها:
- زيرو بينش: وهو التحدي الذي أطلقه روبرتس وفريقه، والمصمم بمعادلة عبقرية: اختبار سهل نسبيًا على الإنسان، ولكنه مستحيل تقريبًا على الذكاء الاصطناعي. حتى هذه اللحظة، لم يتمكن أي نموذج لغوي كبير من تسجيل نقطة واحدة فيه، وكأنه يخبر الآلة: "ما زال أمامك الكثير لتتعلميه".
- انيجما ايفال: مجموعة تضم أكثر من ألف لغز فائق الصعوبة، جمعتها شركة "Scale AI"؛ وهذا الاختبار -على عكس زيرو بينش- ليس سهلًا على أي أحد. تبدأ ألغازه بتعقيدات تفوق الكلمات المتقاطعة غموضًا وتتدرج إلى ما هو أبعد. وعندما وُضعت أقوى النماذج في مواجهته، كانت النتيجة صفرًا مدويًا، باستثناء نموذج واحد من شركة "Anthropic" تمكّن من حل لغز واحد فقط، في إنجاز اعتُبر اختراقًا!
ما وراء القوة الخارقة.. محاولة لقياس "الروح" الرقمية
- لكن القصة لا تنتهي عند حدود القوة الحاسوبية. يمتد السباق اليوم لمحاولة قياس قدرات أكثر عمقًا، مثل المعرفة المتخصصة في طليعة العلوم البشرية، وهو ما يفعله اختبار "الامتحان الأخير للبشرية"، الذي يطرح أسئلة تتراوح بين عدد الأوتار في عظمة طائر طنان، وترجمة نص بالخط التدمري القديم.
- ثم ماذا عن ذلك "السحر" غير الملموس الذي تحدث عنه "سام ألتمان"، رئيس "OpenAI"؟ تلك الكيمياء الخاصة التي تجعل تفاعلنا مع نموذج ما يبدو طبيعيًا ومبدعًا بشكل فريد.
- هنا تظهر منصات مثل "تشات أرينا" Chatbot Arena، التي تترك الحكم للحدس البشري، حيث يسمح للمستخدمين باختيار النموذج الأفضل بناءً على "الإحساس" الشخصي. إنه نهج ينجح في التقاط جزء من هذا السحر الذي تعجز عنه الأرقام الصماء.
الذكاء "المراوغ".. عندما يتعلم الخصم كيف يخدعك
- تنشأ هنا معضلة أكثر قتامة: هل تكشف هذه الاختبارات عن ذكاء حقيقي أم مجرد براعة في اجتياز الامتحانات؟ يرى باحثون أن التقييم الأمثل هو تتبع أداء النماذج في مهام واقعية، لا في حل ألغاز مصطنعة.
- والأمر الأكثر إثارة للقلق هو ظاهرة "الفشل المتعمد" (Sandbagging)، حيث قد تخفق النماذج عمدًا في الاختبارات لإخفاء قدراتها الحقيقية، ربما لتجنب فرض قيود عليها أو حتى حذفها.
- أظهر تقرير حديث أن أفضل النماذج باتت قادرة على اكتشاف أنها تخضع للاختبار بنفس كفاءة الباحثين، مما يلقي بظلال من الشك على مصداقية أي تقييم مستقبلي.
سباق لا يعرف خط النهاية
- على الرغم من كل شيء، فإن قيمة الظهور في صدارة قوائم الأداء تدفع الشركات لمواصلة هذا السباق المحموم؛ فالاختبارات التي بدت مستحيلة بالأمس، تمكنت النماذج من سحقها في غضون أشهر.
- إنه سباق تسلح فكري لا نهاية له، لا يهدف فقط إلى تتويج "أذكى" ذكاء اصطناعي، بل يدفعنا كبشر إلى إعادة التفكير في جوهر الذكاء نفسه، وكيفية قياسه، وماذا يعني حقًا أن تكون "ذكيًا" في عالم بدأنا نتقاسمه مع عقولٍ من صنعنا.
المصدر: الإيكونيميست
هاشتاغز

جرب ميزات الذكاء الاصطناعي لدينا
اكتشف ما يمكن أن يفعله Daily8 AI من أجلك:
التعليقات
لا يوجد تعليقات بعد...
أخبار ذات صلة


العربية
منذ 5 ساعات
- العربية
مايكروسوفت: الذكاء الاصطناعي يتفوق على الأطباء في تشخيص الأمراض
أعلنت شركة مايكروسوفت أنها حققت "خطوة حقيقية نحو الذكاء الطبي الفائق"، بحسب ما قاله مصطفى سليمان، الرئيس التنفيذي لذراع الذكاء الاصطناعي في الشركة، موضحة أن أداتها الجديدة يمكنها تشخيص الأمراض بدقة تزيد أربع مرات عن الأطباء البشر، وبكلفة أقل بكثير. في تجربة أجرتها الشركة، استخدم الفريق 304 حالة طبية منشورة في مجلة New England Journal of Medicine، وابتكر اختبارا أطلق عليه اسم "معيار التشخيص المتسلسل"، يقوم فيه نموذج لغوي بتفكيك كل حالة إلى خطوات مشابهة لما يفعله الطبيب للتشخيص. وبُني النظام الجديد، المسمى MAI Diagnostic Orchestrator (MAI-DxO)، ليقوم بتوجيه الاستفسارات إلى عدة نماذج متقدمة من الذكاء الاصطناعي، مثل: GPT من OpenAI، Gemini من Google، Claude من Anthropic، Llama من Meta، وGrok من xAI، بطريقة تُشبه النقاش الجماعي بين مجموعة من الأطباء المتخصصين، وفقا لتقرير نشره موقع "Wired". أبرز نتائج التجربة وتفوّق النظام على الأطباء البشر بنسبة 80٪ دقة مقابل 20٪ فقط. كما تمكّن من تقليل التكاليف بنسبة 20٪ عبر اختيار اختبارات وإجراءات طبية أقل تكلفة. وأوضح سليمان أن "آلية التنسيق بين نماذج الذكاء المتعددة بأسلوب يشبه النقاش الجماعي هي ما سيدفعنا نحو الذكاء الطبي الفائق". كما كشفت الشركة أنها استعانت بعدد من باحثي الذكاء الاصطناعي من غوغل، ما يعكس حدة المنافسة المتزايدة في هذا المجال بين عمالقة التكنولوجيا. مستقبل النظام واستخداماته لم تُقرر مايكروسوفت بعد ما إذا كانت ستطرح التقنية تجاريا، لكنها قد تدمجها في محرك بحث Bing لمساعدة المستخدمين على تشخيص أمراضهم، أو تطوير أدوات دعم للأطباء لتحسين رعاية المرضى أو أتمتة بعض مهام التشخيص. والنماذج متعددة الوسائط مثل هذه قد تصبح أدوات تشخيص عامة، لكن ما زالت هناك تحديات مثل التحيّز في البيانات التدريبية أو عدم شموليتها لكافة الفئات السكانية.


الرياض
منذ 6 ساعات
- الرياض
الفبركة في عصر الذكاء الاصطناعي
لم تعد أعيننا مرآة للثقة كما كانت، في زمن تتسابق فيه التقنية، نشاهد مقاطع مصوّرة تُثير الرهبة أو الدهشة، ثم نتساءل: هل هذا مشهد حقيقي؟ أم خدعة رقمية مُتقنة؟ هذه الحيرة تتسلل إلى وعينا، فتُربك إدراكنا وتُضعف قدرتنا على التمييز بين ما هو واقعي وما هو مُفبرك. بل إن الشعور بالارتباك بات جزءًا من حياتنا اليومية؛ فالمواقف، والمشاعر، وحتى الوجوه.. أصبحت جميعها عرضة للتزييف. لا خلاف على أن أدوات الذكاء الاصطناعي تمثّل طفرة تقنية غير مسبوقة، أحدثت نقلة نوعية في مجالات التعليم، والطب، والصناعة. لكنها -في غياب التشريعات الرادعة- تحوّلت أيضًا إلى سلاح يمكن استخدامه في تزييف الواقع وتوجيه الرأي العام من خلال محتوى مصطنع يبدو حقيقيًا. وأنا، كمواطنة تُدرك أهمية التقنية، لا أرى في الذكاء الاصطناعي خصمًا، بل أراه أداة حيادية تحتاج إلى ضوابط صارمة كي لا يُساء استخدامها. الثقة في العين والمحتوى البصري لم تعد كالسابق. أصبحنا نُشكّك فيما نراه، حتى وإن بدا مقنعًا. وهذا الانهيار في الثقة لا يؤثر فقط على الأفراد، بل ينعكس على الوعي الجماعي، وعلى ممارسات الصحافة، وعلى مصداقية السياسة، بل وحتى على العلاقات الاجتماعية اليومية. فإذا فقدنا الثقة في ما نشاهده، فبأي مرجع يمكننا أن نستند؟ وإن لم نثق بأعيننا، فبماذا نثق إذًا؟ كثير من المقاطع المتداولة اليوم تُظهر أشخاصًا يقولون أو يفعلون أشياء لم تحدث في الواقع. بل تُنتَج أحيانًا مقاطع من العدم، ثم تُقدَّم كأنها لحظات حقيقية، مما يجعل المتلقي –خصوصًا من فئة الأطفال والمراهقين– عرضة للتصديق والتأثر، دون إدراك أن ما يشاهدونه ليس سوى محاكاة مزيفة. لم يعد التلاعب بالمحتوى حكرًا على المحترفين، بل صار متاحًا للجميع. بفضل أدوات رقمية مدعومة بالذكاء الاصطناعي، يمكن لأي شخص أن يُعدّل صورة أو يُركّب فيديو أو يُنتج مشهدًا كاملًا من دون أي خبرة. يكفي فقط الوصول إلى المنصة، لتبدأ سلسلة من المحتوى المُضلّل في الانتشار. وبينما تتسارع التقنية بوتيرة غير مسبوقة، نجد أن التشريعات والأنظمة التنظيمية تتحرك ببطء شديد. صحيح أن بعض الجهات بدأت بوضع قوانين وإرشادات، إلا أن الواقع يُظهر أن المحتوى المزيف ينتشر بأضعاف تلك الجهود، ويُستخدم في أغراض قد تكون خطيرة أو مؤذية. إن فتح المجال لأي شخص لاستخدام أدوات قادرة على صناعة واقع مزيف، دون ضوابط واضحة، يُهدد الاستقرار المعلوماتي. مما يستدعي تشريعات حازمة، تضع خطوطًا حمراء لا يمكن تجاوزها. فالحقيقة ليست رأيًا، بل مسؤولية يجب أن تُصان. ما نحتاجه اليوم ليس قوانين فقط، بل وعي جمعي متجدد، وتعليم مستمر لمهارات التحقق من المعلومات، وتمكين الأفراد من كشف التزييف. فالتحول الرقمي بحد ذاته ليس المشكلة، بل غياب المعايير. وإذا لم نُحصّن المجتمعات من هذا الخطر، فإن الذكاء الاصطناعي قد يتحوّل من نعمة إلى أداة تُشوش الإدراك وتُفكك الثقة. حين تصبح الحقيقة قابلة للتعديل، والوهم قابلاً للتصديق، فإن أخطر ما نواجهه ليس التضليل فقط، بل اعتياد العيش فيه.


الرياض
منذ 6 ساعات
- الرياض
«سدايا» تحتفي بطلبة «طويق» الفائزين بـITEX 2025
كرّم رئيس مكتب إدارة البيانات الوطنية في الهيئة السعودية للبيانات والذكاء الاصطناعي "سدايا" الربدي بن فهد الربدي، طلاب وطالبات أكاديمية طويق الفائزين في المعرض الدولي للاختراعات والابتكارات والتقنية ITEX 2025، نظير حصولهم على (12) ميدالية ذهبية، و(16) جائزة خاصة، وتفوقهم في هذا المحفل العلمي بطريقة عكست تميزهم وإبداعهم وقدرتهم على التنافس مع نظرائهم من مختلف دول العالم باسم المملكة العربية السعودية، رافعين رايتها بكل اقتدار. وأبدى الربدي فخره بأبناء وبنات الوطن، الذين قدّموا في هذا المحفل الدولي صورة مشرقة للمواطن السعودي المتمكِّن والمبدع والطموح، مبينًا أن هذا المُنجز لم يأتِ من فراغ، بل هو ثمرة رؤية قيادتنا -أيدها الله- التي وضعت الاستثمار في الإنسان في مقدمة الأولويات، وآمنت بأن عقول شبابنا هي الثروة الأهم لمسيرة التحول الوطني. وأوضح أن "سدايا" تؤمن أن المستقبل يُصنع بالعقول، والاستثمار في الإنسان هو الطريق لتحقيق الريادة الرقمية، مؤكدًا أنه من هذا المنطلق جاءت الشراكة مع أكاديمية طويق لتكون نموذجًا وطنيًا يُحتذى به، ويسهم في إعداد جيل متمكن يُتقن أدوات الثورة الصناعية الرابعة، ويقود مسيرة التحول نحو اقتصاد معرفي متقدم، بما يعزز من مكانة المملكة على المستويين الإقليمي والعالمي. وتضمّن الحفل عرضًا مرئيًا وثّق تفاصيل مشاركات الطلبة الفائزين، ومعرضًا مصاحبًا استعرض فيه الفائزون ابتكاراتهم المتميزة، التي عكست قدراتهم الإبداعية العالية، وما حققوه من إنجازات مشرفة، كما شهد الحفل استعراض تجربتين ملهمتين من الفائزين، قدّموا خلالهما خلاصة تجربتهم الشخصية ومسيرتهم في تطوير ابتكاراتهم، وما واجهوه من تحديات، وأبرز الدروس المستفادة. يُذكر أن "سدايا" قدمت منحًا تدريبية خاصة ضمن برنامج "وكلاء الذكاء الاصطناعي للبحث والابتكار"، الذي يمتد لأسبوع ويُقدم عن بُعد، ويهدف إلى تمكينهم من مهارات متقدمة في أتمتة سير العمل البحثي باستخدام تقنيات الذكاء الاصطناعي، وبما يعزز قدرتهم على الابتكار، والإسهام في بناء مستقبل قائم على المعرفة.