
کیا ایکس اے آئی نے گروک 3 کے نتائج میں ہیر پھیر کی؟
ہیلو دوستو! آج ہم ایک دلچسپ مگر متنازعہ بحث پر بات کرنے والے ہیں۔ مصنوعی ذہانت کی دنیا میں ہمیشہ کچھ نہ کچھ نیا ہو رہا ہوتا ہے۔ لیکن اس بار معاملہ تھوڑا گرم ہے۔ ہوا کچھ یوں کہ اس ہفتے اوپن اے آئی کے ایک ملازم نے ایکس اے آئی پر الزام لگایا کہ انہوں نے اپنے نئے مصنوعی ذہانت ماڈل گروک 3 کے بینچ مارک نتائج میں ہیر پھیر کی ہے۔ دوسری طرف، ایکس اے آئی کے شریک بانی ایگور بابشکن نے صاف کہہ دیا کہ “ہم نے کچھ غلط نہیں کیا!” اب سوال یہ ہے کہ سچائی کہاں ہے؟
اصل معاملہ کیا ہے؟
ایکس اے آئی نے اپنے بلاگ پر ایک خوبصورت گراف شائع کیا۔ جس میں گروک 3 کے دو ورژنز گروک 3 ریزننگ بیٹا اور گروک 3 منی ریزننگ کو اے آئی ایم ای 2025 کے امتحان میں اوپن اے آئی کے بہترین ماڈل او 3-منی-ہائی سے بہتر دکھایا گیا۔ اے آئی ایم ای 2025 بنیادی طور پر مشکل ریاضی کے سوالات کا ایک مجموعہ ہے۔ جسے مصنوعی ذہانت ماڈلز کی ریاضیاتی مہارت جانچنے کے لیے استعمال کیا جاتا ہے۔ کچھ ماہرین کہتے ہیں کہ یہ مصنوعی ذہانت کی جانچ کا بہترین معیار نہیں۔ مگر پھر بھی، اسے عام طور پر ماڈلز کی صلاحیتوں کو پرکھنے کے لیے قبول کیا جاتا ہے۔
مسئلہ کہاں کھڑا ہوا؟
اوپن اے آئی کے ملازمین نے فوراً ایکس (سابقہ ٹوئٹر) پر نشاندہی کی کہ ایکس اے آئی نے اپنے گراف میں او 3-منی-ہائی کا “کونس ایٹ 64” اسکور شامل نہیں کیا!
اب یہ کونس ایٹ 64 کیا چیز ہے؟
سادہ الفاظ میں، “کونسینسس ایٹ 64” کا مطلب یہ ہے۔ کہ کسی ماڈل کو ہر سوال کا جواب دینے کے لیے 64 مواقع دیے جاتے ہیں، اور جو جواب سب سے زیادہ مرتبہ آتا ہے، اسے حتمی جواب مان لیا جاتا ہے۔
جیسا کہ آپ سوچ سکتے ہیں۔ یہ تکنیک کسی بھی ماڈل کے بینچ مارک اسکور کو کافی بہتر کر دیتی ہے۔ اب اگر کوئی کمپنی گراف میں اس ڈیٹا کو شامل نہ کرے۔ تو ایسا لگ سکتا ہے جیسے ان کا ماڈل دوسرے سے بہتر ہے جبکہ حقیقت میں ایسا نہ ہو۔
گروک 3 واقعی جیتا؟ یا کچھ اور کہانی ہے؟
جب ہم گروک 3 کا اے آئی ایم ای 2025 پر ایٹ 1 اسکور دیکھیں (یعنی ماڈل نے پہلی ہی بار جو جواب دیا)۔ تو یہ اوپن اے آئی کے او 3-منی-ہائی سے کم آتا ہے۔
یہاں تک کہ گروک 3 ریزننگ بیٹا بھی اوپن اے آئی کے او 1 ماڈل (میڈیم کمپیوٹنگ سیٹنگ پر) سے تھوڑا پیچھے رہتا ہے۔ مگر پھر بھی، ایکس اے آئی کا کہنا ہے کہ “یہ دنیا کا سب سے ذہین مصنوعی ذہانت ماڈل ہے!
ایگور بابشکن کا جواب
ایگور بابشکن نے ایکس پر دلیل دی کہ “اوپن اے آئی نے خود بھی ماضی میں ایسے گمراہ کن گراف شائع کیے ہیں!
غیر جانبدار ماہرین کیا کہتے ہیں؟
ایک آزاد مصنوعی ذہانت محقق نے ایک “زیادہ درست” گراف بنایا، جس میں تمام ماڈلز کے کونس ایٹ 64 اسکور دکھائے گئے۔ اور اس پر بھی کافی بحث چھڑ گئی:
یہ مضحکہ خیز ہے کہ کچھ لوگ میرے گراف کو اوپن اے آئی پر حملہ سمجھ رہے ہیں اور کچھ ایکس اے آئی پر، جب کہ حقیقت میں یہ ڈیپ سیک کی تشہیر ہے۔ (مجھے لگتا ہے کہ گروک اچھا لگ رہا ہے، مگر اوپن اے آئی کی چالاکیاں بھی نظرانداز نہیں کی جا سکتیں!)
لیکن اصل سوال کیا ہے؟
مصنوعی ذہانت ماڈلز کی اصل طاقت اور کمزوریوں کو جانچنے کے لیے بینچ مارکس کافی نہیں ہوتے!
مصنوعی ذہانت کی دوڑ میں صرف بینچ مارک اسکورز اہم نہیں، بلکہ یہ بھی دیکھنا ضروری ہے کہ:
ہر ماڈل نے اپنی بہترین کارکردگی کے لیے کتنی کمپیوٹنگ طاقت خرچ کی؟
کتنا پیسہ لگا؟
یہ ایک دلچسپ بحث ہے، اور شاید ہمیں جلد ہی مزید حقائق دیکھنے کو ملیں! تب تک، آپ کا کیا خیال ہے؟ کیا ایکس اے آئی واقعی نتائج میں گڑبڑ کر رہا ہے، یا اوپن اے آئی بھی کچھ چھپا رہا ہے؟
کمنٹس میں اپنی رائے ضرور دیں!
No Comments