مصنوعی ذہانت کیسے وجود میں آئی؟ ایک تاریخی جائزہ
کیا مشینیں انسانوں کی طرح سوچ سکتی ہیں؟ یہ سوال آج ٹیکنالوجی کی دنیا کا سب سے بڑا موضوع لگتا ہے۔ لیکن اس کی جڑیں کئی دہائیاں پرانی ہیں۔ مصنوعی ذہانت کا یہ سفر ایک خواب سے شروع ہوا تھا اور آج ہماری زندگیوں کا ایک اہم حصہ بن چکا ہے۔ یہ کہانی ایلن ٹیورنگ جیسے ذہین سائنسدان سے شروع ہوتی ہے۔ جنہوں نے 1950 میں “امیٹیشن گیم” کا نظریہ پیش کیا، جسے آج ہم ٹیورنگ ٹیسٹ کے نام سے جانتے ہیں۔ ان کا مقصد یہ جانچنا تھا کہ کیا کوئی مشین انسانی سطح پر ذہانت کا مظاہرہ کر سکتی ہے؟۔ انہوں نے پیش گوئی کی تھی کہ صدی کے آخر تک مشینیں اس کھیل میں اتنی ماہر ہو جائیں گی کہ ان میں اور انسانوں میں فرق کرنا مشکل ہو جائے گا۔ اگرچہ ان کی پیش گوئی پوری نہیں ہوئی، لیکن اس سوال نے ایک ایسے تکنیکی انقلاب کی بنیاد رکھی جس کا اگلا ہدف اب آرٹیفیشل جنرل انٹیلیجنس (AGI) کا حصول ہے۔
کمپیوٹر کے لیے انسانی زبان کو سمجھنا ہمیشہ سے ایک بڑا چیلنج رہا ہے۔ اس کی ابتدائی کوششیں 1913 میں روسی ریاضی دان آندرے مارکوف کے کام سے شروع ہوئیں، جنہوں نے بتایا کہ زبان میں حروف اور الفاظ ایک خاص ترتیب اور امکان (probability) کی بنیاد پر آتے ہیں۔ اسی نظریے کو بنیاد بنا کر لینگویج ماڈلز تیار ہوئے۔ وقت کے ساتھ ساتھ، خاص طور پر 2000 میں یوشوا بینجیو اور ان کے ساتھیوں نے نیورل نیٹ ورکس (انسانی دماغ کی ساخت سے متاثر کمپیوٹر سسٹم) کا استعمال کیا۔ جس سے ان ماڈلز میں انقلاب آ گیا۔ آج ہم جنریٹیو اے آئی کے دور میں ہیں، جہاں بڑے لینگویج ماڈلز (LLMs) نہ صرف زبان کو سمجھتے ہیں بلکہ نیا مواد بھی تخلیق کرتے ہیں۔
جس طرح زبان کو سمجھنا ایک بہت بڑی رکاوٹ تھی۔ اسی طرح ایک مشین کو ‘دیکھنا’ اور بصری دنیا کی تشریح کرنا ایک اور بڑا چیلنج تھا۔ اس میدان میں اصل ترقی 1980 کی دہائی میں کنولوشنل نیورل نیٹ ورکس (CNNs) کی ایجاد سے ہوئی، جو بلی کے بصری کارٹیکس پر کی گئی تحقیق سے متاثر تھے۔ یہ وہ ٹیکنالوجی ہے جو کمپیوٹر کو تصویروں میں موجود چیزوں، چہروں اور نمونوں کو پہچاننے میں مدد دیتی ہے۔ اس کی ایک ابتدائی مثال LeNet-5 نامی سسٹم تھا۔ جسے 1998 میں بینک کے چیک پر لکھے ہندسوں کو پہچاننے کے لیے بنایا گیا تھا۔ آج یہی ٹیکنالوجی ہمارے فون میں چہرے سے لاک کھولنے، سیلف ڈرائیونگ کاروں کو راستہ دکھانے اور میڈیکل امیجنگ میں بیماریوں کی تشخیص کے لیے استعمال ہو رہی ہے۔
کیا آپ نے کبھی سوچا کہ گوگل اسسٹنٹ یا سری آپ کی بات کیسے سمجھتا ہے؟ یہ سب اسپیچ ٹو ٹیکسٹ (آواز کو تحریر میں بدلنا) اور ٹیکسٹ ٹو اسپیچ (تحریر کو آواز میں بدلنا) ٹیکنالوجی کی بدولت ممکن ہوا ہے۔ اس کا آغاز 1950 کی دہائی میں بیل لیبز کے “آڈری” سسٹم سے ہوا جو صرف ایک اسپیکر کے بولے گئے ہندسوں کو پہچان سکتا تھا۔ آج مشین لرننگ اور ڈیپ لرننگ کی مدد سے یہ سسٹم نہ صرف مختلف زبانیں اور لہجے سمجھتے ہیں بلکہ انسانی جذبات کا تاثر بھی اپنی آواز میں شامل کر سکتے ہیں۔
اسی طرح، زبان کے ترجمے کا کام بھی اب اے آئی کے سپرد ہے۔ اس کی جڑیں نویں صدی کے عربی اسکالر الکندی کے کام تک جاتی ہیں۔ 1954 میں جورج ٹاؤن-آئی بی ایم کے تجربے میں 60 روسی جملوں کا انگریزی میں ترجمہ کیا گیا۔ اگرچہ 1966 کی ایک امریکی رپورٹ نے مشین ٹرانسلیشن کو ناقابل عمل قرار دیا، لیکن کچھ محققین ڈٹے رہے، جس کے نتیجے میں SYSTRAN جیسا سسٹم وجود میں آیا، جو بعد میں گوگل ٹرانسلیٹ کی بنیاد بنا۔ 2016 میں، گوگل نے نیورل مشین ٹرانسلیشن کو اپنایا، جس سے ترجمے کے معیار میں 60 فیصد تک بہتری آئی۔
مصنوعی ذہانت کی تاریخ اتار چڑھاؤ سے بھری ہوئی ہے۔ ابتدائی کام شطرنج جیسے کھیلوں اور تھیورم ثابت کرنے پر مرکوز تھا۔ جس کے بعد 1970 کی دہائی میں “اے آئی ونٹر” کا دور آیا جب فنڈنگ اور دلچسپی کم ہو گئی۔ 1980 کی دہائی میں ایکسپرٹ سسٹمز نے تجارتی کامیابی حاصل کی۔ 1990 کی دہائی میں اہم سنگ میل عبور کیے گئے۔ جب ڈیپ بلیو کمپیوٹر نے شطرنج میں عالمی چیمپیئن گیری کاسپاروف کو شکست دی۔ 2010 کی دہائی میں آئی بی ایم واٹسن نے Jeopardy! شو جیتا اور گوگل ڈیپ مائنڈ کے الفا گو نے ‘گو’ جیسے پیچیدہ کھیل میں انسان کو ہرایا۔
یہ سب ترقی مشین لرننگ کے مختلف طریقوں سے ممکن ہوئی۔ اس کی تین بڑی اقسام ہیں:
- سپروائزڈ لرننگ (Supervised Learning): اس میں مشین کو پہلے سے لیبل شدہ ڈیٹا دیا جاتا ہے، جیسے ہزاروں بلیوں کی تصویریں دکھا کر سکھایا جاتا ہے کہ ‘یہ بلی ہے’۔
- اَن سپروائزڈ لرننگ (Unsupervised Learning): اس میں مشین کو بغیر لیبل والا ڈیٹا دیا جاتا ہے اور وہ خود اس میں پوشیدہ پیٹرن یا گروپس تلاش کرتی ہے۔
- ری انفورسمنٹ لرننگ (Reinforcement Learning): اس میں مشین کو ایک مقصد دیا جاتا ہے اور وہ بار بار کوشش کرکے اور اپنی غلطیوں سے سیکھ کر اسے حاصل کرنا سیکھتی ہے۔
ان طریقوں کو ڈیپ لرننگ کے ذریعے مزید طاقتور بنایا گیا۔ جس میں نیورل نیٹ ورکس کی کئی تہوں (layers) کا استعمال کیا جاتا ہے تاکہ وہ پیچیدہ سے پیچیدہ پیٹرن کی شناخت کر سکیں۔
2017 میں ٹرانسفارمر آرکیٹیکچر کی آمد نے بڑے لینگویج ماڈلز (LLMs) کے لیے راہ ہموار کی۔ GPT-1 کے 117 ملین پیرامیٹرز سے لے کر GPT-4 کے 1.76 ٹریلین پیرامیٹرز تک، ان ماڈلز کی صلاحیتوں میں بے پناہ اضافہ ہوا ہے۔ آج یہ ماڈل تحریر، کوڈ، تصاویر اور موسیقی بھی بنا سکتے ہیں۔ تاہم، ان کے ساتھ ‘ہیلیو سینیشن’ یعنی غلط معلومات کو اعتماد سے پیش کرنے کا مسئلہ بھی جڑا ہوا ہے۔ اسی دوران، چھوٹے اور زیادہ موثر ماڈلز جیسے Llama 2 اور Claude 2 بھی سامنے آئے ہیں، جنہیں مخصوص کاموں کے لیے تیار کرنا آسان اور سستا ہے۔
لیکن ٹیکنالوجی کی دنیا کا اگلا اور سب سے بڑا ہدف آرٹیفیشل جنرل انٹیلیجنس (AGI) ہے۔ یہ ایک ایسی ذہانت ہے جو کسی بھی ذہنی کام کو سمجھنے اور سیکھنے کی صلاحیت رکھتی ہے جو ایک انسان کر سکتا ہے۔ یہ نہ صرف مخصوص کام کرے گی بلکہ انسانوں کی طرح سوچے گی، سمجھے گی، اور نئے حالات کے مطابق خود کو ڈھال لے گی۔ اس کے مستقبل کے بارے میں ماہرین کی آراء منقسم ہیں۔ ایک طرف رے کرزویل جیسے مستقبل شناس ہیں جن کا خیال ہے کہ AGI انسانیت کو بیماریوں اور حیاتیاتی حدود پر قابو پانے میں مدد دے گی۔ دوسری طرف اسٹیفن ہاکنگ جیسے سائنسدان خبردار کر چکے ہیں کہ مکمل مصنوعی ذہانت انسانی نسل کے خاتمے کا سبب بن سکتی ہے۔
ستمبر 2025 کے مطابق اس وقت، جنریٹیو اے آئی زیادہ تر ایپلیکیشنز کے لیے پروڈکشن کوالٹی سے چند سال دور ہے۔ اے آئی سے تیار کردہ مواد، جسے “AI slop” کہا جاتا ہے، مستقبل کے ماڈلز کی تربیت کے لیے ایک خطرہ بن رہا ہے۔ سیلف ڈرائیونگ کاروں کے میدان میں Waymo جیسی کمپنیاں، جو ملٹی سینسر اپروچ استعمال کرتی ہیں، کیمرے پر انحصار کرنے والی ٹیکنالوجیز سے بہتر کارکردگی دکھا رہی ہیں۔ بڑی کمپنیوں کے سی ای اوز کے پرامید دعووں کے باوجود، حقیقی AGI اب بھی ایک دہائی یا اس سے زیادہ دور نظر آتی ہے۔ آخر میں، مصنوعی ذہانت کا سفر بہت دلچسپ رہا ہے۔ لیکن یہ ابھی ختم نہیں ہوا۔ یہ دیکھنا باقی ہے کہ انسان اور مشین کا یہ رشتہ مستقبل میں کیا شکل اختیار کرتا ہے۔