گوگل کے نئے دعوے نے دنیا کو حیران کر دیا۔ کیا مصنوعی ذہانت اب واقعی دیکھ اور سوچ سکتی ہیں؟
گوگل ڈیپ مائنڈ کی جانب سے حال ہی میں متعارف کرایا گیا ’جیمنائی 3 پرو‘ مصنوعی ذہانت کی دنیا میں ایک ایسے انقلاب کی نوید ہے جس نے مشینوں کے دیکھنے اور سمجھنے کے انداز کو مکمل طور پر تبدیل کر کے رکھ دیا ہے، اور یہ پیش رفت محض ایک نئی ٹیکنالوجی کی آمد نہیں ہے بلکہ یہ اس بات کا اشارہ ہے کہ ہم ایک ایسے دور میں داخل ہو رہے ہیں جہاں کمپیوٹرز کی بصری صلاحیتیں انسانی آنکھ اور دماغ کی طرح کام کرنے کے قریب تر پہنچ چکی ہیں۔ اگر ہم ماضی پر نظر دوڑائیں تو مصنوعی ذہانت کے ماڈلز زیادہ تر متن یا ٹیکسٹ کو سمجھنے تک محدود تھے یا پھر وہ تصاویر میں موجود چیزوں کی صرف بنیادی شناخت کر سکتے تھے، مگر جیمنائی 3 پرو نے اس روایت کو توڑتے ہوئے ’بصری اور مقامی استدلال‘ (Visual and Spatial Reasoning) کی ایک نئی دنیا آباد کی ہے جو اسے اب تک کا سب سے زیادہ قابل ’ملٹی موڈل‘ ماڈل بناتی ہے۔ اس کا سادہ الفاظ میں مطلب یہ ہے کہ یہ ماڈل دنیا کو ٹکڑوں میں نہیں دیکھتا بلکہ یہ دستاویزات، جگہوں، اسکرینز اور ویڈیوز کو ایک ہی وقت میں دیکھ کر ان کے درمیان گہرا تعلق سمجھنے کی صلاحیت رکھتا ہے، بالکل اسی طرح جیسے ایک انسان اپنے اردگرد کے ماحول کا جائزہ لیتا ہے۔
اس جدید ترین ٹیکنالوجی کی سب سے حیران کن صلاحیتوں میں سے ایک اس کی دستاویزات کو سمجھنے کی مہارت ہے کیونکہ ہم سب جانتے ہیں کہ حقیقی دنیا میں کاغذات اور دستاویزات کبھی بھی صاف ستھرے یا مکمل طور پر منظم نہیں ہوتے۔ دفاتر میں بکھری ہوئی فائلیں ہوں، صدیوں پرانے تاریخی نسخے ہوں یا ہاتھ سے لکھے ہوئے نوٹ، ان سب کو پڑھنا اور سمجھنا روایتی کمپیوٹرز کے لیے ہمیشہ سے ایک ناممکن سا عمل رہا ہے، لیکن جیمنائی 3 پرو نے اس میدان میں ایک بڑی چھلانگ لگائی ہے۔ یہ ماڈل ایک خاص تکنیک استعمال کرتا ہے جسے ’ڈی رینڈرنگ‘ (Derendering) کہا جاتا ہے، جس کا آسان مفہوم یہ ہے کہ یہ کسی بھی بصری دستاویز کو دیکھ کر اسے دوبارہ سے ایک منظم کوڈ (جیسے HTML یا LaTeX) میں تبدیل کر سکتا ہے، گویا یہ تصویر کو دیکھ کر اسے دوبارہ تخلیق کر رہا ہو۔ اس کی ایک بہت ہی دلچسپ مثال گوگل نے یہ دی ہے کہ یہ ماڈل اٹھارویں صدی کے ایک تاجر کی ہینڈ بک، جو کہ ہاتھ سے لکھی ہوئی تھی اور اس میں پیچیدہ حساب کتاب درج تھے، کو نہ صرف پڑھنے میں کامیاب رہا بلکہ اس نے اسے ایک جدید اور منظم ڈیجیٹل ٹیبل میں تبدیل کر دیا۔ یہ صلاحیت ان مورخین اور محققین کے لیے کسی نعمت سے کم نہیں جو پرانی دستاویزات کو ڈیجیٹل دنیا میں محفوظ کرنا چاہتے ہیں، اسی طرح یہ ماڈل ریاضی کی پیچیدہ مساوات کی تصویر دیکھ کر اسے درست فارمولوں میں بدلنے کی بھی بھرپور صلاحیت رکھتا ہے۔
بات صرف یہاں تک محدود نہیں رہتی کہ یہ ماڈل کیا ’دیکھ‘ سکتا ہے، بلکہ اصل کمال یہ ہے کہ یہ ماڈل جو دیکھتا ہے اس پر ’غور و فکر‘ بھی کر سکتا ہے جسے تکنیکی زبان میں ریزننگ (Reasoning) کہا جاتا ہے۔ اس کی وضاحت کے لیے ایک بہت ہی عملی مثال امریکی مردم شماری بیورو کی 2022 کی آمدنی رپورٹ ہے جو 62 صفحات پر مشتمل ایک طویل اور پیچیدہ دستاویز تھی۔ جب اس ماڈل سے یہ پوچھا گیا کہ 2021 اور 2022 کے درمیان ’منی انکم‘ اور ’پوسٹ ٹیکس انکم‘ میں کیا فرق آیا اور اس کی کیا وجہ تھی، تو اس ماڈل نے کسی انسان کی طرح رپورٹ کے مختلف حصوں کو کنگالا۔ اس نے پہلے ایک چارٹ سے یہ معلوم کیا کہ منی انکم میں 1.2 فیصد کمی آئی ہے، پھر ایک اور ٹیبل سے دیکھا کہ پوسٹ ٹیکس انکم میں 3.2 فیصد کمی ہوئی ہے۔ لیکن سب سے اہم بات یہ تھی کہ اس نے صرف نمبر نہیں بتائے بلکہ رپورٹ کے متن کو پڑھ کر یہ نتیجہ نکالا کہ اس فرق کی بنیادی وجہ حکومتی پالیسیز کا خاتمہ اور محرک ادائیگیاں (Stimulus Payments) کا بند ہونا تھا۔ یہ وہ سطح ہے جہاں مصنوعی ذہانت محض ایک کیلکولیٹر سے نکل کر ایک ذہین تجزیہ کار کا روپ دھار لیتی ہے جو معلومات کے بکھرے ہوئے ٹکڑوں کو جوڑ کر ایک بامعنی تصویر پیش کر سکتا ہے۔
دستاویزات کی ساکت دنیا سے نکل کر اگر ہم متحرک دنیا یعنی ویڈیوز کی بات کریں تو جیمنائی 3 پرو نے یہاں بھی اپنی دھاک بٹھا دی ہے کیونکہ ویڈیو ڈیٹا کو سمجھنا تصاویر کی نسبت کہیں زیادہ مشکل ہوتا ہے کیونکہ اس میں ہر سیکنڈ میں کئی بار مناظر تبدیل ہو رہے ہوتے ہیں۔ گوگل نے اس ماڈل کو اس طرح ڈیزائن کیا ہے کہ یہ ویڈیوز کو بہت زیادہ باریکی اور تیز رفتاری سے سمجھ سکتا ہے، خاص طور پر جب ایکشن بہت تیز ہو۔ اس کی ایک بہترین مثال گولف کے کھیل کی دی گئی ہے جہاں کھلاڑی کا شاٹ مارنا ایک سیکنڈ کے کچھ حصے میں مکمل ہو جاتا ہے۔ جیمنائی 3 پرو 10 فریم فی سیکنڈ کی رفتار سے ویڈیو کو پروسیس کرتے ہوئے کھلاڑی کے وزن کی منتقلی، اس کے جھکاؤ اور سوئنگ میکینکس جیسی باریک تفصیلات کو بھی پکڑ لیتا ہے جو شاید انسانی آنکھ بھی پہلی نظر میں نہ دیکھ سکے۔ اس صلاحیت کو مزید نکھارنے کے لیے اس میں ’تھنکنگ موڈ‘ شامل کیا گیا ہے جو ویڈیو میں ہونے والے واقعات کے پیچھے چھپی وجوہات کو تلاش کرتا ہے۔ یعنی یہ ماڈل اب صرف یہ نہیں بتائے گا کہ ویڈیو میں ایک شخص بھاگ رہا ہے، بلکہ یہ سیاق و سباق کو سمجھتے ہوئے یہ بھی بتا سکے گا کہ وہ شخص کیوں بھاگ رہا ہے، کیا وہ کسی چیز کا پیچھا کر رہا ہے یا کسی خطرے سے بچنے کی کوشش کر رہا ہے۔ یہ پیش رفت کھیلوں کے تجزیے، سیکیورٹی اور خودکار نگرانی کے نظام میں ایک نیا معیار قائم کر سکتی ہے جہاں صرف دیکھنا کافی نہیں ہوتا بلکہ سمجھنا بھی ضروری ہوتا ہے۔
مصنوعی ذہانت کی اس نئی لہر میں ’مقامی سمجھ بوجھ‘ یا اسپیشل انڈرسٹینڈنگ (Spatial Understanding) ایک ایسا پہلو ہے جو اسے ہماری طبعی دنیا (Physical World) کے قریب تر لے آتا ہے۔ جیمنائی 3 پرو میں یہ صلاحیت موجود ہے کہ یہ تصویر میں موجود چیزوں کی بالکل درست پوزیشن اور ان کے کوآرڈینیٹس (Coordinates) بتا سکتا ہے۔ اس کا سب سے بڑا فائدہ روبوٹکس کی دنیا کو ہونے والا ہے۔ تصور کریں کہ آپ کے گھر میں ایک روبوٹ ہے اور آپ اسے کہتے ہیں کہ ’اس بکھرے ہوئے میز کو صاف کرو‘۔ عام روبوٹ کے لیے یہ سمجھنا مشکل ہوگا کہ کون سی چیز کہاں پڑی ہے اور اسے کیسے اٹھانا ہے، لیکن جیمنائی 3 پرو اپنی مقامی سمجھ بوجھ کا استعمال کرتے ہوئے روبوٹ کو ایک مکمل منصوبہ بنا کر دے سکتا ہے کہ کس طرح کچرے کو الگ کرنا ہے اور چیزوں کو ترتیب دینا ہے۔ یہ ماڈل چیزوں کے نام اور ان کے مقصد کو سمجھنے کے لیے ایک ’اوپن ووکیبلری‘ کا استعمال کرتا ہے جس کا مطلب ہے کہ یہ صرف رٹی رٹائی چیزوں کو نہیں پہچانتا بلکہ نئی اشیاء کو بھی ان کے سیاق و سباق سے سمجھ لیتا ہے۔ اسی طرح اگر آپ اگمینٹڈ ریئلٹی (AR) یا ایکسٹینڈڈ ریئلٹی (XR) کا چشمہ پہنے ہوئے ہیں اور کسی مشین کی مرمت کر رہے ہیں، تو آپ صرف یہ پوچھ سکتے ہیں کہ ’اسکرو کہاں ہے؟‘ اور یہ اے آئی سسٹم آپ کو بالکل درست جگہ پر اشارہ کر کے بتا دے گا کہ اسکرو کہاں لگا ہوا ہے، جو کہ تکنیکی کاموں میں انسانی مددگاروں کی ضرورت کو کم کر سکتا ہے۔
ہماری زندگی کا ایک بڑا حصہ اب اسکرینز کے سامنے گزرتا ہے، چاہے وہ کمپیوٹر ہو یا موبائل فون، اور جیمنائی 3 پرو نے اس ڈیجیٹل دنیا کو سمجھنے میں بھی کمال مہارت حاصل کر لی ہے۔ یہ ماڈل اسکرین پر موجود مختلف بٹنوں، مینیوز اور یوزر انٹرفیس (UI) کو بالکل اسی طرح سمجھتا ہے جیسے ایک انسان سمجھتا ہے۔ یہ صلاحیت اسے اس قابل بناتی ہے کہ یہ کمپیوٹر پر بار بار دہرائے جانے والے کاموں کو خودکار طریقے سے انجام دے سکے۔ مثال کے طور پر، اگر آپ کو ایکسل شیٹ میں موجود ڈیٹا کا خلاصہ بنانا ہے اور اس کے لیے پیوٹ ٹیبل (Pivot Table) کا استعمال کرنا ہے، تو آپ کو خود یہ سب کرنے کی ضرورت نہیں ہوگی۔ جیمنائی 3 پرو خود بخود مینیوز کو کھول کر، درست آپشنز کا انتخاب کر کے اور ڈیٹا کو پروسیس کر کے یہ کام سیکنڈوں میں مکمل کر سکتا ہے۔ یہ خصوصیت خاص طور پر ان لوگوں کے لیے فائدہ مند ہے جو دفتری امور، سافٹ ویئر ٹیسٹنگ یا ڈیٹا انٹری جیسے کاموں سے وابستہ ہیں، کیونکہ یہ ان کے کام کے بوجھ کو نمایاں طور پر کم کر سکتا ہے۔
تعلیم کے شعبے میں بھی جیمنائی 3 پرو کے اثرات انتہائی دور رس ہو سکتے ہیں، خاص طور پر سائنس اور ریاضی جیسے مضامین میں جہاں خاکوں (Diagrams) اور بصری مواد کا استعمال بہت زیادہ ہوتا ہے۔ طلباء کو اکثر ایسے سوالات کا سامنا کرنا پڑتا ہے جن میں بصری منطق کی ضرورت ہوتی ہے، جیسے کہ فزکس کے ڈائیگرامز یا کیمسٹری کے مالیکیولر اسٹرکچرز۔ یہ ماڈل مڈل اسکول سے لے کر یونیورسٹی کی سطح تک کے نصاب میں موجود ملٹی موڈل مسائل کو حل کرنے کی صلاحیت رکھتا ہے۔ گوگل نے اس کی ایک بہت ہی زبردست مثال ’نینو بنانا پرو‘ (Nano Banana Pro) کے ذریعے دی ہے، جہاں اگر کوئی طالب علم اپنے ہوم ورک کی تصویر کھینچ کر اپ لوڈ کرتا ہے اور پوچھتا ہے کہ اس نے کہاں غلطی کی ہے، تو یہ ماڈل صرف زبانی جواب نہیں دیتا بلکہ تصویر کے اوپر سرخ رنگ سے نشان لگا کر بصری طور پر سمجھاتا ہے کہ غلطی کہاں ہوئی اور اسے کیسے درست کیا جا سکتا ہے۔ یہ طریقہ کار روایتی ٹیوشن یا آن لائن گائیڈز سے کہیں زیادہ مؤثر ہے کیونکہ یہ طالب علم کو اپنی غلطی خود دیکھنے اور سمجھنے کا موقع فراہم کرتا ہے، جو سیکھنے کے عمل کو تیز اور آسان بنا دیتا ہے۔
طب اور صحت عامہ کے شعبے میں بھی جیمنائی 3 پرو نے اپنی افادیت ثابت کر دی ہے، اور اسے میڈیکل اور بائیو میڈیکل امیجنگ کے لیے گوگل کا اب تک کا سب سے قابل ماڈل قرار دیا جا رہا ہے۔ یہ ماڈل مختلف طبی بینچ مارکس جیسے کہ MedXpertQA-MM اور VQA-RAD پر بہترین کارکردگی کا مظاہرہ کر چکا ہے، جن میں ریڈیولاجی (ایکس رے وغیرہ) اور ماہرانہ طبی استدلال کے امتحانات شامل ہیں۔ اس کے علاوہ یہ مائیکروسکوپک تصاویر، جو کہ حیاتیاتی تحقیق میں استعمال ہوتی ہیں، کا تجزیہ کرنے میں بھی ماہر ہے۔ اس کا مطلب یہ ہے کہ ڈاکٹر اور محققین اب بیماریوں کی تشخیص اور نئی ادویات کی تحقیق میں اس اے آئی ماڈل کی مدد لے سکتے ہیں، جو پیچیدہ طبی تصاویر میں چھپی ایسی معلومات کو بھی سامنے لا سکتا ہے جو شاید انسانی آنکھ سے اوجھل رہ جائیں۔ قانونی اور مالیاتی شعبوں میں بھی، جہاں دستاویزات کی بھرمار ہوتی ہے اور ایک ایک لفظ کی اہمیت ہوتی ہے، جیمنائی 3 پرو پیشہ ور افراد کا بوجھ ہلکا کر رہا ہے۔ یہ ماڈل سینکڑوں صفحات پر مشتمل گھنی رپورٹس، جن میں چارٹس اور ٹیبلز بھرے ہوتے ہیں، کا تجزیہ سیکنڈوں میں کر سکتا ہے۔ Harvey.ai جیسی قانونی فرمز نے بھی اس بات کی تصدیق کی ہے کہ یہ ماڈل قانونی معاہدوں کو سمجھنے اور ان میں ہونے والی تبدیلیوں (Redlines) کو ٹریک کرنے میں انتہائی مددگار ثابت ہو رہا ہے، جس سے وکلاء کو اپنے کلائنٹس کے لیے بہتر خدمات فراہم کرنے میں مدد مل رہی ہے۔
اس ماڈل کے ایک تکنیکی لیکن اہم پہلو کا ذکر کرنا ضروری ہے جسے ’میڈیا ریزولوشن کنٹرول‘ کہا جاتا ہے۔ جیمنائی 3 پرو تصاویر کے اصل سائز اور تناسب (Aspect Ratio) کو برقرار رکھتا ہے جس سے تصویر کا معیار خراب نہیں ہوتا اور تجزیہ زیادہ درست ہوتا ہے۔ گوگل نے ڈویلپرز کو یہ اختیار بھی دیا ہے کہ وہ اپنی ضرورت کے مطابق اس ماڈل کی کارکردگی کو کنٹرول کر سکتے ہیں۔ اگر کسی کام میں بہت زیادہ باریکی کی ضرورت ہے، جیسے کہ کسی دستاویز کو پڑھنا، تو وہ ’ہائی ریزولوشن‘ کا انتخاب کر سکتے ہیں، اور اگر کام سادہ ہے، جیسے کہ کسی منظر کو پہچاننا، تو وہ ’لو ریزولوشن‘ استعمال کر کے وقت اور قیمت دونوں بچا سکتے ہیں۔ یہ لچک اس بات کو یقینی بناتی ہے کہ یہ ٹیکنالوجی نہ صرف طاقتور ہو بلکہ ہر طرح کے صارفین اور اداروں کے لیے قابلِ رسائی اور کفایت شعار بھی ہو۔
مجموعی طور پر دیکھا جائے تو جیمنائی 3 پرو محض ایک سافٹ ویئر اپ ڈیٹ نہیں ہے بلکہ یہ اس بات کا اعلان ہے کہ مصنوعی ذہانت اب صرف ڈیٹا پروسیسنگ تک محدود نہیں رہی بلکہ یہ ہماری دنیا کو دیکھنے، سمجھنے اور اس کے ساتھ تعامل کرنے کے قابل ہو چکی ہے۔ چاہے وہ پرانی تاریخ کو محفوظ کرنا ہو، روبوٹس کو ہمارے گھروں میں کام کے قابل بنانا ہو، طلبا کی تعلیم میں مدد کرنا ہو یا ڈاکٹروں کو پیچیدہ بیماریوں کی تشخیص میں سہولت دینا ہو، جیمنائی 3 پرو کے اطلاقات ہماری زندگی کے ہر شعبے میں انقلاب برپا کرنے کی صلاحیت رکھتے ہیں۔ یہ ٹیکنالوجی ہمیں ایک ایسے مستقبل کی طرف لے جا رہی ہے جہاں مشینیں ہماری مددگار ساتھی کے طور پر کام کریں گی، اور وہ دنیا کو بالکل اسی نظر سے دیکھیں گی جس نظر سے ہم دیکھتے ہیں، بلکہ شاید اس سے بھی زیادہ گہرائی اور باریکی کے ساتھ۔ دیکھتا ہے۔


Muhammad Riaset khan
Good information 👍 shere you for our avarness