প্রযুক্তি
নিজেকেই বাংলা শিখিয়েছে গুগল বার্ড?
সম্প্রতি গুগলের প্রধান নির্বাহী সুন্দর পিচাই এক সাক্ষাৎকারে বলেন, গুগলের কৃত্রিম বুদ্ধিমত্তা বার্ড নিজে নিজেই শিখে ফেলেছে বাংলা। এআই কি তাহলে নিজে শিখতে পারে? নিজেই যদি শিখতে পারে, তবে এর ভবিষ্যৎ কী?
দ্য টার্মিনেটর মুভিতে স্কাইনেটের কথা মনে আছে?
স্কাইনেট নামের এই কৃত্রিম নিউরাল নেটওয়ার্ক বুদ্ধিমত্তাটি ভবিষ্যতে সেন্টিয়েন্ট (Sentient) হয়ে মানবজাতিকে ধ্বংস করতে উঠেপড়ে লাগে। মানবসৃষ্ট সভ্যতা থেকে তাড়াতে থাকে মানুষকে।
জেমস ক্যামেরনের এই চলচ্চিত্র থেকে কৃত্রিম বুদ্ধিমত্তার সেন্টিয়েন্ট হয়ে ওঠার কল্পধারণার শুরু। এ ধারণা বাসা বাঁধে পপ কালচার ও কল্পবিজ্ঞান থেকে শুরু করে গতানুগতিক বিজ্ঞান-প্রযুক্তিতেও। কৃত্রিম বুদ্ধিমত্তার প্রসঙ্গ এলেই ভবিষ্যতে এআইয়ের ক্ষতিকর ব্যবহারের চিন্তা ভ্রু কুঁচকে দেয় বিশেষজ্ঞদের।
স্কাইনেটের মতোই একটা ভীতি ছড়িয়ে পড়েছিল কিছুদিন আগে। চারদিকে খবর ছড়িয়ে পড়ে, গুগলের এআই ‘বার্ড’ নিজে থেকেই বাংলা ভাষা শিখে ফেলেছে।
মার্কিন টিভি চ্যানেল সিবিএসের ‘সিক্সটি মিনিটস’ অনুষ্ঠানে আসেন গুগল ও এর প্যারেন্ট কোম্পানি অ্যালফাবেটের প্রধান নির্বাহী সুন্দর পিচাই। সাক্ষাৎকারের একপর্যায়ে কৃত্রিম বুদ্ধিমত্তা নিয়ে সতর্কবাণী দেন তিনি। এ সময় সুন্দর পিচাই নিজেদের এআইয়ের অভিযোজন (Adaptation) ক্ষমতার কথা উল্লেখ করেন।
উদাহরণ দিতে গিয়ে শোর উপস্থাপককে তিনি জানান, গুগলের এআই নিজে থেকেই বাংলা জানতে ও শিখতে শুরু করেছে। তবে বাংলা শেখা বা জানার বা বাংলায় উত্তর দেওয়ার জন্য যে গুগলের এ কৃত্রিম বুদ্ধিমত্তাকে প্রশিক্ষণ দেওয়া হয়নি, সেটিও স্পষ্ট করেন তিনি।
একই সাক্ষাৎকারে গুগলের সিনিয়র ভাইস প্রেসিডেন্ট জেমস ম্যানিকাকেও কিছু প্রশ্ন করা হয়। এআইয়ের ভবিষ্যৎ কেমন হওয়া উচিত, এ সম্পর্কে গুগলের অবস্থান পরিষ্কার করেন তিনি। পাশাপাশি পিচাইয়ের বক্তব্যের ধার ধরে জানান, গুগলের এআই এখন বাংলা অনুবাদেও পারদর্শী হতে শুরু করেছে।
এ সাক্ষাৎকার প্রচারিত হওয়ার সঙ্গে সঙ্গে সবাই ব্যস্ত হয়ে পড়ে স্কাইনেটের সঙ্গে গুগল বার্ডের সাদৃশ্য খুঁজতে। স্কাইনেট কৃত্রিম বুদ্ধিমত্তাটি যদি সেলফ অ্যাওয়ার বা সেন্টিয়েন্ট হয়ে যেতে পারে, তবে গুগল বার্ড বা এর মতো অন্যান্য এআই কেন হবে না? গুগল বার্ড তো ইতিমধ্যে নিজে থেকে শিখতে শুরু করেছে। বাংলা দিয়ে শুরু করলেও কত দিনই-বা লাগবে পৃথিবীর অন্যান্য সব ভাষা শিখতে?
ভাষাগুলো শেখা হয়ে গেলে আর কত দিন লাগবে বিজ্ঞানের সব কলাকৌশল রপ্ত করতে? কত দিনই-বা লাগবে ইন্টারনেট ও নেটওয়ার্ক বিষয়ে অভিজ্ঞ হতে? আর একবার এসব বিষয় জেনে গেলে তো পুরো বিশ্বই হাতের মুঠোয়, তাই না?
তার ওপর যদি এই কৃত্রিম বুদ্ধিমত্তা সেন্টিয়েন্ট হয়ে যায়, তবে পুরো বিশ্বের নিয়ন্ত্রণ চলে যাবে এই এআইয়ের হাতে। বাসাবাড়িতে বিদ্যুৎ-সংযোগ থেকে শুরু করে পারমাণবিক ও হাইড্রোজেন বোমার মতো বিধ্বংসী অস্ত্র চলে যাবে এর নিয়ন্ত্রণে। হঠাৎ একদিন ইচ্ছা হলে পুরো মানবসভ্যতাকেই ধ্বংস করে ফেলতে পারবে তখন এই কৃত্রিম বুদ্ধিমত্তা!
তবে কি তা-ই হতে চলেছে?
গুগলের কৃত্রিম বুদ্ধিমত্তা বার্ড কি আসলেই সেন্টিয়েন্ট হয়ে ইতিমধ্যে নিজেকে বিভিন্ন বিষয়ে শেখাতে শুরু করেছে?
উত্তর—না। এসবের কিছুই হচ্ছে না আপাতত।
বার্ড এখন পর্যন্ত শুধু যুক্তরাষ্ট্র থেকে ব্যবহার করা যাচ্ছে। আগে থেকেই বার্ডের ওয়েটলিস্টে নিবন্ধন করে রেখেছিলাম। তাই বাংলাদেশে বসেই বহুদিন ধরে ভিপিএনের মাধ্যমে গুগল বার্ড ব্যবহার করছিলাম। গুগল বার্ডের নিজ থেকে বাংলা শেখার কথা শুনে আমি বার্ডকে বাংলায় কিছু প্রশ্ন করি। তবে প্রত্যুত্তরে এটি সরাসরি স্বীকার করে নেয় নিজের অপারগতা।
তবে কি বার্ড বাংলা জানে না? সুন্দর পিচাই কি তবে মিথ্যা বলেছেন সাক্ষাৎকারে?
হয়তো ভাবছেন, বার্ডের এই চমকে দেওয়া বাংলা ভাষার ব্যবহার সবার জন্য উন্মুক্ত করা হয়নি। গুগল এআইয়ের ডেভেলপমেন্ট টিম হয়তো ব্যাকএন্ডে ট্রায়াল ও টেস্টিংয়ে বার্ডের এই ক্ষমতার কথা জেনেছে। আর সুন্দর পিচাই সে কথাই বলেছেন সাক্ষাৎকারে। আপনার মতো আমার মাথায়ও এ চিন্তা এসেছে। তাই নিজেই গুগল বার্ডের সেন্টিয়েন্ট হয়ে যাওয়ার রহস্য খুঁজতে শুরু করি।
আর সাসপেন্স না রেখে বলেই দিই। না, বার্ড নিজে নিজে বাংলা ভাষা শিখে ফেলেনি।
গুগল বার্ডের নিজে থেকে বাংলা শেখাটা এক রকম অতিরঞ্জিত কল্পকাহিনিই বলা চলে। কেন একে অতিরঞ্জিত বলছি, তা ব্যাখ্যা করার আগে একটু ছোট করে বার্ডের মতো ল্যাঙ্গুয়েজ মডেলনির্ভর কৃত্রিম বুদ্ধিমত্তাগুলোর ভাষা শেখার যাত্রাটা নিয়ে কথা বলা যাক।
কোনো কৃত্রিম বুদ্ধিমত্তাকে যখন কিছু শেখানোর চেষ্টা করা হয়, তখন একে বিশালাকার ডেটাসেট দিয়ে ট্রেইন করা হয়। মানে প্রশিক্ষণ দেওয়া হয়। এই ডেটাসেটে অনলাইন ব্লগ-আর্টিকেল থেকে শুরু করে বইপত্র বা জার্নালও থাকে। এসব ডেটা থেকে এআইকে প্রথমে শিখতে বলা হয়। প্রি-ট্রেনিং বা আনসুপারভাইজড লার্নিংয়ের এই ধাপে এআই মডেলটি এই ডেটাসেট ব্যবহার করে ভাষা কীভাবে কাজ করে, এর গঠনপ্রণালি, ব্যবহার ইত্যাদি শেখে। এর পরের ধাপ হলো ফাইন টিউনিং বা সুপারভাইজড লার্নিং। এই ধাপে মানব-সুপারভাইজারের অধীন এই এআই মডেলগুলোকে ভাষার আরও উচ্চতর প্রয়োগ শেখানো হয়। আর প্রি-ট্রেনিংয়ে শেখা জ্ঞানকে টিউনিং করে ব্যবহার উপযোগী করে তোলা হয়। ট্রেনিং থেকে শেখা এ রকম ল্যাঙ্গুয়েজ এআই মডেল ব্যবহার করেই তৈরি করা হয় চ্যাটজিপিটি বা গুগল বার্ডের মতো কনভারসেশনাল জেনারেটিভ এআই টুলস।
চ্যাটজিপিটি যেভাবে বর্তমানে জিপিটি-৪ ল্যাঙ্গুয়েজ মডেলের ওপর ভিত্তি করে কাজ করছে, গুগল বার্ডের ভিত্তি হিসেবেও সে রকম একটি ল্যাঙ্গুয়েজ মডেল রয়েছে। এর নাম ল্যামডা-ল্যাঙ্গুয়েজ মডেল ফর ডেভেলপড অ্যাপ্লিকেশনস (LaMDA-Language Model for Developed Applications)।
গুগল বার্ডকে যদি বাংলা শেখাতে হয়, তবে এভাবে প্রি-ট্রেনিং ও ফাইন টিউন করতে হবে। করে প্রথমে এই ল্যামডা মডেলকে বাংলা ভাষার ডেটাসেট দিয়ে বাংলার গঠনপ্রণালি ও ব্যবহার শেখাতে হবে। তবে ইতিমধ্যে গুগল তাদের বার্ডকে ল্যামডা থেকে সরিয়ে পাম বা প্যাথওয়েজ ল্যাঙ্গুয়েজ মডেলে (PaLM-Pathways Language Model) নিয়ে যেতে শুরু করেছে। বার্ডের বাংলা শেখার রহস্য এখানেই অন্তর্নিহিত।
সাক্ষাৎকারে সুন্দর পিচাইয়ের এমন মন্তব্যের পর গুগলের সাবেক গবেষক মার্গারেট মিচেল জানান, গুগলের এ দাবি সম্পূর্ণ মিথ্যা। তিনি প্রকাশ করেন, গুগলের এআই ডেভেলপমেন্ট টিম বর্তমানে বার্ডের ভিত্তি হিসেবে যে পাম মডেল ব্যবহার করছে, সেটি খোদ বাংলায় প্রশিক্ষণপ্রাপ্ত একটি এআই মডেল।
শুরুর দিকে এই লেখা গুগল বার্ড কীভাবে নিজে নিজে বাংলা ভাষা শিখছে, তা নিয়ে সাজাতে চাইছিলাম। তবে মার্গারেটের টুইটটি দেখে নিজেই পামের ট্রেনিং ডেটাসেট খুঁজতে লেগে পড়ি। পেয়েও যাই খুব সহজে।
২০২২ সালের শেষ দিকে গুগল ‘পাম: স্কেলিং ল্যাঙ্গুয়েজ মডেলিং উইথ পাথওয়েজ’ শিরোনামে গবেষণাপত্র প্রকাশ করে। এ রিসার্চ পেপারের ‘ডেটাশিট’ অংশে পেয়ে যাই সে তথ্য। সত্যিই পাম মডেলকে বাংলায় প্রশিক্ষণ দেওয়া হয়েছে। বাংলায় প্রায় ১৯৪ মিলিয়ন বা সাড়ে ১৯ কোটি টোকেন রয়েছে পামের ট্রেনিং ডেটাসেটে। এই ‘টোকেন’ কী? এক বা একাধিক অক্ষর মিলে তৈরি একটি তথ্য—ডেটাসেটের মৌলিক একধরনের একক। অতিসরলীকরণ করে ‘শব্দ’ও বলতে পারেন বোঝার সুবিধার্থে।
বার্ডকে যেহেতু ধীরে ধীরে ল্যামডা থেকে পাম মডেলে স্থানান্তরিত করা হচ্ছে, বার্ডও পামের সান্নিধ্যে ধীরে ধীরে বাংলা শিখছে। তবে এখন যদি কেউ বার্ডকে বাংলায় কিছু জিজ্ঞাসা করে, তবে বার্ড ঠিকঠাক এর উত্তর দিতে পারে না। কারণ, এ মুহূর্তে বার্ডের যে বেটা টেস্ট বা এক্সপেরিমেন্ট চলছে, তা এখনো অনেকাংশে ল্যামডার ওপর নির্ভরশীল।
তবে গুগল খুব দ্রুতই বার্ডকে ল্যামডা থেকে সম্পূর্ণরূপে পাম মডেলে নিয়ে আসবে। এ কারণেই গুগলের কৃত্রিম বুদ্ধিমত্তার টিম পাম মডেলনির্ভর বার্ড নিয়ে গবেষণার কাজ শুরু করেছে। এই পাম মডেলের বদৌলতে তাই বার্ডও বাংলা বুঝতে ও শিখতে শুরু করেছে। আর ব্যাকএন্ডে টেস্টিংয়ে পাওয়া এই তথ্যের কথাই হয়তো সুন্দর পিচাই ও তাঁর সহকর্মীরা জানিয়েছেন সাক্ষাৎকারে।
তবে যদি এটাই হয়ে থাকে, তবে নিঃসন্দেহে গুগল বার্ড নিজে থেকে বাংলা শেখেনি। এটি বাংলা বুঝতে শুরু করে পাম মডেলের জন্য। কারণ, পাম মডেলটিকে বহু আগেই বাংলা ভাষায় ট্রেইন করা হয়েছে। তাই গুগল এআইয়ের এ রকম সেন্টিয়েন্ট হয়ে যাওয়ার কথা শুনে ঘাবড়ে যাওয়ার কোনো কারণ নেই। এই রটানো ঘটনাটা স্রেফ একটি অতিরঞ্জিত মার্কেটিং স্ট্র্যাটেজি। আর কিছু নয়।
লেখক: ব্যবস্থাপক, ডেফ্টাইল্ড
সোর্স: অ্যানালাইটিকস ইন্ডিয়া, পাম (PaLM) গুগল রিসার্চ