Token

ٹوکن کیا ہے؟

ٹوکن (Token) وہ چھوٹا حصہ ہے جس میں لارج لینگویج ماڈل اصل متن توڑ کر سمجھتا ہے۔ انگریزی میں اکثر ایک ٹوکن آدھا یا پورا لفظ ہوتا ہے؛ اردو میں ایک لفظ کئی ٹوکنز میں بٹ سکتا ہے، یا الٹا بھی ہو سکتا ہے — یہ ٹوکنائزر (tokenizer) کی ڈیزائن پر منحصر ہے۔ جب آپ چیٹ جی پی ٹی کو لمبا اردو پیغام بھیجتے ہیں، بلنگ اور “context limit” ٹوکنز کی گنتی سے جڑی ہوتی ہے۔

یہ کیوں اہم ہے؟

ماڈل اعداد نہیں، بلکہ ٹوکن آئی ڈی پر انفرنس کرتا ہے۔ ٹرانسفارمر ہر ٹوکن پر توجہ تقسیم کرتا ہے۔ زیادہ ٹوکنز کا مطلب زیادہ کمپیوٹ اور کبھی سست جواب۔

اردو صارفین کے لیے عملی نکتہ

اگر آپ کا متن رومن اردو میں ہے یا نستعلیق میں، دونوں میں ٹوکن بٹوارا الگ ہو سکتا ہے۔ کبھی مختصر رومن پیغام زیادہ ٹوکن بچاتا ہے، کبھی اردو رسم الخط واضحیت دیتا ہے — آزمائش سے پتہ چلتا ہے۔

ٹوکن اور امبیڈنگ

ہر ٹوکن کا ایک ویکٹر نمائندگی ہوتی ہے جو معنی کا رخ بتاتی ہے۔ قریب المعنی ٹوکنز نمبروں میں قریب آ جاتے ہیں۔

متعلقہ اصطلاحات

اکثر پوچھے گئے سوالات

کیا ایک ٹوکن ایک لفظ ہوتا ہے؟ اکثر نہیں؛ “don’t” جیسے الفاظ ٹوٹ سکتے ہیں۔ اردو مرکب الفاظ بھی بٹ سکتے ہیں۔

کیا ٹوکن دیکھ سکتا ہوں؟ بعض ٹولز آن لائن ٹوکنائزر دکھاتے ہیں؛ ڈویلپرز اے پی آئی سے بھی دیکھ سکتے ہیں۔

اگلا قدم: امبیڈنگ پڑھیں — ٹوکن سے معنی کے نمبروں تک کا سفر۔