کیا اومنی لِنگوئل اے ایس آر آپ کی زبان بھی سمجھتا ہے؟ 1600 سے زائد زبانیں، اب ایک ہی سسٹم میں
اگر آپ کی زبان ایسی ہے جسے آج تک کوئی ٹیکنالوجی نہیں سمجھ پائی، یا جو کمپیوٹر یا موبائل کے لیے ناقابلِ فہم تھی، تو آپ کے لیے ایک بڑی خوش خبری ہے۔ میٹا، جو کہ فیس بک کی مالک کمپنی ہے، نے ایک نیا سسٹم متعارف کرایا ہے جس کا نام ہے اومنی لِنگوئل اے ایس آر۔ یہ سسٹم دنیا کی 1600 سے زائد زبانوں کو سن کر انہیں تحریری شکل میں تبدیل کرنے کی صلاحیت رکھتا ہے۔ یعنی اب اگر کوئی شخص صرف بولتا ہے، تو یہ نظام اس کی بات کو خودکار طور پر لکھ کر محفوظ کر لیتا ہے۔
یہ نظام خاص طور پر اُن زبانوں کے لیے فائدہ مند ہے جنہیں ماضی میں ڈیجیٹل دنیا نے نظر انداز کر رکھا تھا۔ ان میں سے 500 زبانیں تو ایسی ہیں جنہیں کسی بھی مصنوعی ذہانت پر مبنی سسٹم نے پہلے کبھی سمجھنے کی کوشش ہی نہیں کی تھی۔ اب اگر آپ ایک نایاب زبان کے بولنے والے ہیں تو بھی یہ ٹیکنالوجی آپ کی زبان کو سمجھنے اور محفوظ کرنے کے قابل ہے۔
اومنی لِنگوئل اے ایس آر کو ایسے بنایا گیا ہے کہ یہ صرف ماہرین یا تکنیکی افراد کے لیے نہ ہو بلکہ عام صارف بھی اسے استعمال کر سکے۔ اگر آپ کی زبان اس سسٹم میں شامل نہیں ہے تو پریشان نہ ہوں، آپ خود اسے شامل کر سکتے ہیں۔ آپ کو صرف اپنی زبان میں کچھ جملے بول کر ان کا لکھا ہوا ترجمہ سسٹم کو دینا ہوگا۔ یہ عمل جس پر یہ سسٹم سیکھتا ہے، اُسے “in-context learning” کہا جاتا ہے۔ سادہ الفاظ میں، اگر آپ ایک بچے کو چند جملے سنائیں، تو وہ اندازہ لگا لیتا ہے کہ باقی زبان کیسے کام کرتی ہے۔ بالکل ویسے ہی یہ نظام بھی سیکھتا ہے۔ آپ کو نہ کوئی خصوصی کمپیوٹر درکار ہے، نہ کوئی مہنگا سافٹ ویئر یا تربیت یافتہ ماہر۔
اس سسٹم کے پیچھے جو بنیادی ٹیکنالوجی کام کر رہی ہے، اس کا نام ہے wav2vec 2.0۔ یہ ایک ایسا کمپیوٹر ماڈل ہے جو انسانوں کی آواز کو سن کر خود ہی سیکھنے لگتا ہے کہ کون سا لفظ کیسا لگتا ہے، کہاں وقفہ آتا ہے، اور جملہ کیسے بنتا ہے۔ اسے 7 ارب parameters یعنی ایسے پوائنٹس پر تربیت دی گئی ہے جن کے ذریعے یہ ہر طرح کی آواز، تلفظ، لہجہ اور زبان کی باریکیوں کو سمجھنے کے قابل ہو جاتا ہے۔ یہاں “parameters” کا مطلب ہے وہ پوائنٹس یا اصول جن کے ذریعے کمپیوٹر کسی چیز کو سمجھنے اور پہچاننے کی صلاحیت حاصل کرتا ہے۔ جتنے زیادہ پیرامیٹرز، اتنا زیادہ سیکھنے اور سمجھنے کا دماغ۔
اس سسٹم کے دو مختلف طریقے ہیں جن سے یہ آواز کو تحریر میں تبدیل کرتا ہے۔ پہلا طریقہ ہے CTC، جسے “Connectionist Temporal Classification” کہا جاتا ہے۔ یہ ایک روایتی طریقہ ہے جس میں آواز کو ترتیب وار سن کر ہر حرف یا لفظ کو علیحدہ علیحدہ پہچانا جاتا ہے۔ دوسرا طریقہ ہے LLM پر مبنی، یعنی “Large Language Model”۔ یہ وہی ماڈل ہے جو جدید چیٹ بوٹس جیسے ChatGPT میں استعمال ہوتا ہے۔ LLM ایک ایسا سسٹم ہوتا ہے جو صرف الفاظ نہیں بلکہ پورے جملے، سیاق و سباق اور معنی کو بھی سمجھتا ہے۔ اس طریقے سے نایاب زبانوں میں بھی بہتر درستگی کے ساتھ آواز کو متن میں بدلا جا سکتا ہے۔
میٹا نے صرف سسٹم ہی جاری نہیں کیا بلکہ ایک بہت بڑا ذخیرہ بھی جاری کیا ہے جسے اومنی لِنگوئل اے ایس آر کارپس کہا جاتا ہے۔ “کارپس” ایک تکنیکی اصطلاح ہے جس کا مطلب ہوتا ہے: آوازوں اور ان کے ترجموں کا مجموعہ۔ اس ڈیٹا سیٹ میں 350 ایسی زبانیں شامل ہیں جن کی آڈیو فائلز اور ان کا درست تحریری ترجمہ موجود ہے۔ یہ ڈیٹا دنیا بھر کے مقامی افراد سے اکٹھا کیا گیا ہے، اور انہیں معاوضہ بھی دیا گیا تاکہ وہ اپنی زبان کے نمونے دے سکیں۔ یہ آوازیں صرف شہری علاقوں سے نہیں، بلکہ دیہاتی اور دور دراز علاقوں سے بھی لی گئی ہیں، تاکہ ہر زبان کو برابری کا موقع دیا جا سکے۔
یہ نظام مختلف سائز میں دستیاب ہے۔ اگر آپ کے پاس کم طاقت والا موبائل ہے، تو بھی ایک چھوٹا ورژن موجود ہے جو آپ کے لیے کام کرے گا۔ اور اگر آپ ریسرچر ہیں یا کوئی بڑا ایپ یا پراجیکٹ بنانا چاہتے ہیں، تو اس کے لیے ایک 7B ورژن بھی دستیاب ہے۔ یہاں “7B” کا مطلب ہے “سات ارب پیرامیٹرز والا ماڈل”، یعنی ایک انتہائی طاقتور ورژن جو بڑی مقدار میں زبان اور آواز سمجھنے کی صلاحیت رکھتا ہے۔ سب سے اہم بات یہ ہے کہ میٹا نے اس سسٹم کو اوپن سورس کیا ہے۔ “اوپن سورس” سے مراد ہے کہ یہ ماڈل سب کے لیے دستیاب ہے، کوئی بھی فرد یا ادارہ اسے مفت میں استعمال کر سکتا ہے، تبدیل کر سکتا ہے، یا اپنی زبانوں کے لیے ڈھال سکتا ہے۔
یہ تمام ماڈلز FAIR (Fundamental AI Research) کے بنائے گئے سسٹم fairseq2 پر مبنی ہیں، جو PyTorch جیسے معروف پلیٹ فارم کے ساتھ کام کرتا ہے۔ PyTorch ایک سافٹ ویئر لائبریری ہے جسے دنیا بھر میں مصنوعی ذہانت کے ماہرین استعمال کرتے ہیں۔ لیکن ان سب باتوں کا مطلب صرف ماہرین تک محدود نہیں اصل بات یہ ہے کہ اب عام لوگ بھی اس سے فائدہ اٹھا سکتے ہیں۔
اس پورے منصوبے میں میٹا نے دنیا بھر کے مختلف اداروں سے تعاون حاصل کیا، جن میں Mozilla Foundation کا Common Voice پروگرام، Lanfrica اور NaijaVoices شامل ہیں۔ ان اداروں نے مقامی کمیونٹیز سے جڑ کر ان کی زبانوں کی آوازیں، اندازِ بیان، تلفظ، اور ثقافتی پس منظر کو بہتر طور پر ریکارڈ کیا۔ اس طرح یہ سسٹم صرف زبان نہیں بلکہ اس کے ساتھ جڑی ہوئی ثقافت کو بھی سمجھنے کے قابل بن گیا ہے۔
یہ ٹیکنالوجی صرف ایک سافٹ ویئر یا نظام نہیں بلکہ ایک سوچ ہے ایک خواب کہ دنیا کی ہر زبان کو وہی عزت، پہچان اور ڈیجیٹل مقام ملے جو بڑی زبانوں کو حاصل ہے۔ یہ نظام اُن لوگوں کے لیے بھی کارآمد ہے جو پڑھنا یا لکھنا نہیں جانتے۔ وہ صرف بول کر اپنی بات محفوظ کر سکتے ہیں، طلبہ اپنی زبان میں پڑھائی کر سکتے ہیں، اساتذہ مقامی زبانوں میں لیکچر تیار کر سکتے ہیں، اور عام لوگ اپنی روزمرہ بات چیت کو محفوظ بنا سکتے ہیں۔
اگر آپ چاہتے ہیں کہ آپ کی زبان بھی اس نظام کا حصہ بنے، تو یہ مکمل طور پر ممکن ہے۔ آپ کو صرف چند آڈیو جملے اور ان کا ترجمہ فراہم کرنا ہے۔ باقی کام یہ سسٹم خود کرے گا، اور آپ کی زبان کو سیکھ لے گا۔ یہ وقت ہے کہ ہم اپنی زبانوں کو نہ صرف زندہ رکھیں، بلکہ انہیں ڈیجیٹل دنیا میں محفوظ، سمجھدار اور قابلِ فخر بنائیں۔ میٹا کا اومنی لِنگوئل اے ایس آر اسی وژن کو حقیقت بنانے کا نیا ذریعہ ہے۔
Mujahid Ali
بہت خوب انفارمیشن
Yasir Shahzad
اسلام و علیکم کیسے ہو قیصر بھائی