تكنولوجيا

رغم تطوره.. جي بي تي 4 يفشل في تقليد البشر

على الرغم من أن “شات جي بي تي” يظهر ذكاءً واضحًا في المحادثات، مما يعطيه مظهرًا شبيهًا بالإنسان من خلال استخدام الفكاهة ومحاكاة عبارات المراهقين وحتى اجتياز بعض امتحانات الكليات، إلا أنه في بعض الأحيان يبدو وكأنه يهلوس.

حيث يكون النص الأصلي صحيحًا لغويًا ونحويًا، ولكنه غير منطقي.

وهذا الأمر أدى إلى الاعتقاد بأن الآلة، مهما تقدمت، لا يمكن أن تكون مثل الإنسان.

ولتقييم “شات جي بي تي” بشكل علمي وحاسم، ولمعرفة ما إذا كان يمكنه الوصول إلى النقطة التي تخدع أي شخص فيعتقد بأنه إنسان، أجروا الباحثان المتخصصان في اللغة وعلم الدلالة والتعلم الآلي، كاميرون جونز وبنجامين بيرغن، اختبار تورينغ على الإصدار الأحدث من “جي بي تي”، والمعروف بـ “جي بي تي 4”.

ويُعزى اختبار تورينغ للعالم البريطاني آلان تورينغ، الذي اقترحه في عام 1950، ويعد طريقة تجريبية للإجابة على سؤال: “هل يمكن للآلات التفكير؟” وأشار إلى أنه إذا كان الإنسان غير قادر على تحديد ما إذا كان يتحدث إلى آلة ذكاء اصطناعي أو إنسان آخر بعد خمس دقائق من الاستجواب، فإن ذلك سيكون دليلاً على أن الذكاء الاصطناعي يتمتع بذكاء يشبه الإنسان.

وعلى الرغم من أن أنظمة الذكاء الاصطناعي لم تتمكن من اجتياز اختبار تورينغ خلال حياة تورينغ نفسه (الذي توفي في عام 1954)، فإنه توقع نجاحها في وقت لاحق.

واليوم، بعد مرور أكثر من 70 عامًا على وضع هذا الاختبار، تؤكد دراسة جديدة للباحثين في جامعة كاليفورنيا، التي تم نشرها على موقع “أرخايف” للأبحاث قبل الطباعة، أن النسخة الأحدث من روبوت الدردشة الآلية “جي بي تي 4” لم تتمكن من اجتياز الاختبار بنجاح.

اختبار تورينغ.. لعبة التقليد

اختبار تورينغ، المعروف أيضًا بـ”لعبة التقليد”، تم تقديمه في عام 1950 بواسطة تورينغ في بحثه المعنون “آلات الحوسبة والذكاء”.

وقد تم تصميم الاختبار خلال عمل تورينغ في جامعة مانشستر بهدف قياس قدرة الآلة على تظاهر سلوك ذكي يكون مكافئًا لسلوك الإنسان بحيث يصعب تمييزه عن الإنسان.

يتم بموجب الاختبار أن يقوم شخص بتقييم محادثات لغوية تجري بين الإنسان والآلة التي تولد استجابات تشبه استجابات الإنسان.

ويكون الشخص على علم بأن أحد الشركاء في المحادثة هو آلة، ولكنه لا يعرف أي منهما هو الآلة.

وإذا فشل الشخص في التفريق بين الآلة والإنسان بشكل موثوق، تكون الآلة قد اجتازت الاختبار.

حيث تقوم نتائج الاختبار على قدرة الآلة على تقليد الإنسان في توليد الاستجابات، بدلاً من قدرتها على تقديم الإجابات الصحيحة للأسئلة.

وويشير كاميرون جونز، إلى أن الآلة يجب أن تكون قادرة على تقليد كل جانب من جوانب الإنسان في المحادثة، بما في ذلك المعرفة والتفكير والشخصية والدعابة.

اختبار تورينغ.. لعبة التقليد

نجاح محدود للآلة

تم إجراء اختبار تورينغ لتقييم قدرة نموذج GPT-4 على التظاهر بالذكاء البشري.

في الاختبار، طُلب من 650 مشاركًا التفاعل مع 1400 محادثة قصيرة دون معرفة ما إذا كانوا يتحدثون مع إنسان أو آلة، وطُلب منهم تحديد الطرف الآخر.

وأظهرت النتائج أن نموذج GPT-4 تمكن من خداع المشاركين بنسبة 41%، وهو أعلى معدل تم تحقيقه في اختبار تورينغ حتى الآن.

ومع ذلك، يجب عدم اعتبار هذه النتيجة أن نموذج GPT-4 قد نجح في تجاوز اختبار تورينغ.

حيث أشار الباحثون إلى أن الاختبار لا يزال له قيمته كأداة لقياس فعالية الحوار الآلي.

وعلى الرغم من التطورات التكنولوجية، فإن الاختبار لا يزال قادرًا على تحديد فهم الآلة للغة وتفاعلها الاجتماعي مع البشر.

وساهم استخدام نموذج GPT-4 في تجاوز نسبة 41% في الاختبار في استخدامه لنمط اللغة والكلمات التي تميل إلى استخدامها في الإجابات، بدلاً من حفظ عبارات لمواقف محددة.

ومع ذلك، لا يزال هناك بعض العيوب في قدرة النموذج، مثل عدم القدرة على الوصول إلى الأحداث الجارية ونقص الشخصية البشرية والأسلوب اللغوي الرسمي الزائد أو غير الرسمي جدًا.

بشكل عام، فإن نجاح نموذج GPT-4 في اختبار تورينغ يشير إلى إمكانية تطوير أنظمة ذكاء اصطناعي مستقبلية قادرة على تجاوز الاختبار إذا تم التعامل مع الاختلافات المحددة التي تم تحديدها في الدراسة.

ومع ذلك، يجب مراعاة الفروق الأخرى بين البشر والنماذج الذكاء الاصطناعي إذا تم حل تلك المشكلات المحددة.

اختبار رائع.. ولكن

تعتبر النتائج المذكورة في اختبار تورينغ إنجازًا رائعًا، ولكن هناك عدة عوامل تجعله محدودًا في تقييم قرب الذكاء الاصطناعي من البشرية، وفقًا لمصطفى العطار مدير برنامج الذكاء الاصطناعي بجامعة النيل الأهلية في مصر.

أولاً، يشير العطار إلى أن النماذج اللغوية الكبيرة يتم تصميمها لتعلن بوضوح أنها غير بشرية، وهذا يمكن للمشاركين في الاختبار أن يستشعروا ويميزوا بسهولة إذا كانوا يتعاملون مع آلة أو إنسان.

ثانيًا، يلاحظ العطار أن بعض النماذج اللغوية قد يركزون على اللغة بدلاً من الدقة الفعلية للمعلومات المقدمة، مما يؤدي في بعض الأحيان إلى توليد إجابات ذات تصوّر جمالي للغة ولكنها غير صحيحة.

هذا يعني أن المشاركين في اختبار تورينغ قد يكون لديهم تحيز نحو الإجابات التي تبدو جمالية لغويًا، ولكنها في الواقع تعتمد على “هلوسة” النموذج اللغوي.

ثالثًا، يشير العطار إلى أن اختبار تورينغ لا يقيس جوانب مهمة من الذكاء البشري، مثل الجوانب التخليقية والعاطفية والفلسفية في التفكير.

وهذه الجوانب قد تؤدي إلى نتائج مضللة بشأن اقتراب الذكاء الاصطناعي من الذكاء البشري.

رابعًا، يشير العطار إلى أن الاختبار لا يقيس الوعي بالبيئة المحيطة، حيث يمكن للبشر توظيف ذاكرتهم الطويلة المدى التي تحتفظ بتجارب ومعرفة سنوات لبناء قراراتهم، في حين أن ذاكرة الذكاء الاصطناعي قصيرة المدى.

أخيرًا، يلاحظ العطار أن الاختبار لا يقيس قدرات الذاكرة البشرية طويلة المدى، وهذا يعني أنه في حالات كثيرة يمكن للبشر استخدام ذاكرتهم الطويلة المدى لبناء قراراتهم اليومية، بينما يكون للذكاء الاصطناعي ذاكرة قصيرة المدى.

بناءً على ذلك، يرى العطار أن اختبار تورينغ مفيد ولكنه لا يمكنه تقييم الذكاء الاصطناعي.

 

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى