প্রযুক্তি
কৃত্রিম বুদ্ধিমত্তার ভয়ংকর রূপ
কৃত্রিম বুদ্ধিমত্তা যদি কোনো অডিও রেকর্ডিং থেকে আপনার স্বর শুনে, সেই স্বরে যেকোনো কিছু বলতে পারে, তাহলে কী হবে? এ রকম একটি কৃত্রিম বুদ্ধিমত্তা তৈরি করেছে মেটা। এর নাম ভয়েসবক্স। কীভাবে কাজ করে এই এআই? এর ভবিষ্যৎ কী?
ধরুন, একদিন সকালে ঘুম থেকে উঠে জানতে পারলেন, আপনার একটা কল রেকর্ড সামাজিক যোগাযোগমাধ্যমে ছড়িয়ে পড়েছে। তাতে স্পষ্ট শোনা যাচ্ছে, আপনি কোনো দলের হয়ে সমাজে অস্থিতিশীল পরিবেশ সৃষ্টির পরিকল্পনা করছেন। অথবা ধরুন, ভাইরাল হয়ে যাওয়া সেই কল রেকর্ডে আপনি এক জনপ্রিয় শিল্পীকে খুব খারাপ ভাষায় গালমন্দ করছেন। কিংবা আরও ভয়ংকর বা বিব্রতকর কিছু। কতটা ভয় পাবেন যদি হুবহু আপনার কণ্ঠেই এ রকম একটা মিথ্যা কল রেকর্ড সামাজিক যোগাযোগমাধ্যমে ছড়িয়ে পড়ে?
আইনের ধকল না হয় বাদ দিলাম। পারিবারিক বা সামাজিক জীবনে এ রকম মিথ্যাচার কী প্রভাব ফেলবে, তা নিশ্চয়ই উপলব্ধি করতে পারছেন।
কৃত্রিম বুদ্ধিমত্তার যে ভয়ংকর রূপ এত দিন বড় পর্দায় দেখে এসেছেন বা কল্পকাহিনিতে পড়েছেন, হয়তো সেই রূপই বাস্তব হতে যাচ্ছে শিগগিরই। আর এর পেছনে রয়েছে বিখ্যাত (কিংবা কুখ্যাত) সামাজিক যোগাযোগমাধ্যম ফেসবুকের এআই দল।
মাইক্রোসফট ও গুগলের মতো টেক জায়ান্টদের পর এবার ফেসবুকখ্যাত মেটাও (Meta) কৃত্রিম বুদ্ধিমত্তার প্রতিযোগিতায় নেমেছে। তবে বাজারে প্রচলিত আর দশটা টেক্সট বা ইমেজ জেনারেটিভ এআই নিয়ে নয়। মেটার এআই মডেলটি সম্পূর্ণ ভিন্ন ধরনের।
ভয়েসবক্স (Voicebox) নামের এই এআই কাজ করে মানুষের বুলি নিয়ে। জেনারেটিভ এআই হিসেবে এটিই প্রথম মাল্টিলিঙ্গুয়াল সিনথেসিস (অর্থাৎ বিভিন্ন ভাষাভাষী) ক্ষমতাসম্পন্ন স্পিচ-বেজড (কথানির্ভর) কৃত্রিম বুদ্ধিমত্তা, যা যেকোনো টেক্সট থেকে নতুন অডিও তৈরি করতে পারে।
শুনে হয়তো ভয়েসবক্সকে ইন্টারনেটে বিনা মূল্যে পাওয়া যায়, এমন আর দশটা টেক্সট-টু-স্পিচ টুলের মতো মনে হতে পারে। টেক্সট-টু-স্পিচ টুলের কাজ হলো লেখা বা টেক্সটকে অডিওতে রূপান্তর করা। তবে ভয়েসবক্স কোনো সাধারণ টেক্সট-টু-স্পিচ জেনারেটর নয়। এটা অনেকটা মাইক্রোসফটের ভাল.ই (Vall.E) বা এনভিডিয়ার ইউটিটিএস (YouTTS) মডেলের মতো। মেটার ভাষ্যমতে, এটি অন্যান্য স্পিচ সিনথেসিস মডেলের চেয়ে ২০ গুণ বেশি কার্যকর।
হ্যাঁ, ভয়েসবক্স যেকোনো টেক্সট-টু-স্পিচ জেনারেটরের মতো টেক্সট বা লেখা থেকে হিউম্যান স্পিচ বা ভয়েস আউটপুট দিতে পারে। তবে এর আউটপুট অন্যান্য ভয়েস জেনারেটরের মতো রোবোটিক নয়। অনলাইনে ফ্রি টেক্সট-টু-স্পিচ জেনারেটরের আউটপুটগুলো শুনতে অনেকটা ওয়াল-ই বা সিথ্রিপিওর মতো। রোবোটিক। কিন্তু ভয়েসবক্সের ছয়টি ভয়েস বা স্বরের কথা অনেকটা প্রাকৃতিক। স্বাভাবিক। শুনলে মনে হবে, আসলেই কোনো মানুষের ভয়েস রেকর্ডিং শুনছেন। কৃত্রিম বা রোবোটিক বলে মনে হবে না।
ভয়েসবক্সের এই স্বাভাবিক স্বরগুলো কিন্তু এর অনন্য বৈশিষ্ট্য নয়। যে কারণে এই এআই মডেল পত্রিকায় শিরোনাম হয়েছে, তা হলো এর ‘স্টাইল ট্রান্সফার’ ক্ষমতা। লেখা বা টেক্সটের পাশাপাশি যে কারও স্বরের নমুনা ইনপুট হিসেবে দেওয়া যায় ভয়েসবক্সে। তারপর যে আউটপুট পাওয়া যাবে, তা শুনতে হুবহু সেই নমুনা স্বরের মতোই হবে। অর্থাৎ আমি যদি আপনার ফেসবুক বা ইনস্টাগ্রামের কোনো ভিডিও থেকে অথবা আপনার সঙ্গে আমার ফোনালাপের কিছু অংশ রেকর্ড করে ভয়েসবক্সকে দিই, আর পাশে একটা টেক্সট লিখে দিই, তাহলেই হয়েছে। এটি এমন একটি ভয়েস রেকর্ডিং তৈরি করে ফেলবে, যা শুনে মনে হবে, আপনি নিজেই সে কথাগুলো বলেছেন। সেটার রেকর্ড বাজছে।
তা ছাড়া স্টাইল ট্রান্সফার ব্যবহার করে এই কৃত্রিম বুদ্ধিমত্তা মডেল যেকোনো অডিও রেকর্ডিংয়ের সুনির্দিষ্ট একটি অংশ, এমনকি কথার মধ্যে একটি নির্দিষ্ট শব্দ পর্যন্ত পরিবর্তন করতে পারবে। আরও আশ্চর্যের বিষয় হলো, ভয়েসবক্সে অডিও নমুনা এক ভাষায় দিয়ে আপনার কথার রেকর্ডিং অন্য ভাষায় আউটপুট হিসেবে বের করা যাবে। অর্থাৎ আপনি হয়তো ইংরেজি ভাষায় একটি বাক্য সামাজিক যোগাযোগমাধ্যমের কোনো ভিডিওতে বলেছেন। এখন সেই লাইন ভয়েসবক্সে দিয়ে স্প্যানিশ ভাষায় কিছু একটা লিখে দিলে ভয়েসবক্স যে আউটপুট দেবে, সেটা শুনে মনে হবে, আপনি নিজেই ওই বিদেশি ভাষায় কথা বলেছেন। যদিও স্প্যানিশ ভাষায় আপনি কোনো দিন কোনো শব্দ উচ্চারণই করেননি। ভয়েসবক্স মডেলটি একটি অডিও নমুনা থেকে বুঝে ফেলে আপনার কথা বলার ধরন স্প্যানিশ ভাষায় কেমন হতে পারে। মেটা ভয়েসবক্সের এই বৈশিষ্ট্যের নাম দিয়েছে ক্রস ল্যাঙ্গুয়েজ স্টাইল ট্রান্সফার।
আপাতত ভয়েসবক্স ইংরেজি, স্প্যানিশ, ফ্রেঞ্চ, জার্মান, পর্তুগিজ ও পোলিশ ভাষায় স্টাইল ট্রান্সফার করতে পারে। তবে মডেলটিকে বাংলা বা অন্য যেকোনো ভাষায় ট্রেইন করা হলে, সেটা ওই ভাষাতেও পারদর্শী হয়ে উঠবে। অর্থাৎ চাইলে যেকোনো ভাষাভাষী যেকোনো মানুষকে যেকোনো ভাষায় যেকোনো কিছু বলিয়ে নেওয়া যাবে এই এইআই মডেল দিয়ে। তবে ভয়েসবক্সের মতো এআই মডেলের ভালো ব্যবহারের সুযোগ আছে অনেক।
পশ্চিমা বিশ্বের সাই-ফাই মুভিগুলোতে, কমিকসে কিংবা কল্পকাহিনিতে ইউনিভার্সাল ট্রান্সলেটরের কথা হয়তো শুনেছেন। এটি দিয়ে যেকোনো ভাষার মানুষ অন্য ভাষার কারোর সঙ্গে রিয়েল টাইমে, অর্থাৎ তাৎক্ষণিক কথা বলতে পারে। ইন-ইয়ার (in-ear) ডিভাইসে ভয়েসবক্স ব্যবহার করে যেকোনো ভাষার মানুষ অন্য ভাষার মানুষের সঙ্গে কথা বলতে পারবে।
কনটেন্ট ক্রিয়েটরদের জন্যও এটি আশীর্বাদস্বরূপ। ফিল্মমেকার, ইউটিউবার বা সোশ্যাল মিডিয়া ইনফ্লুয়েন্সাররা চাইলে তাঁদের ভিডিওতে একাধিক ভাষার অডিও ব্যবহার করতে পারবেন। এ জন্য ডাবিংয়ের খরচ বা ঝামেলা পোহাতে হবে না। তা ছাড়া অন্য ভাষাগুলোতেও ভয়েস-ওভার শুনতে মূল অভিনেতা বা উপস্থাপকের কণ্ঠের মতোই শোনাবে। অর্থাৎ মরগান ফ্রিম্যান বা শাহরুখ খানের কণ্ঠে বাংলা ভাষা অন্য কাউকে ডাবিং করতে হবে না। তাঁরা বাংলা বলতে জানলে যে রকম শোনাত, ঠিক তেমনই শোনাবে।
ভয়েসবক্সের মতো অসাধারণ এই এআই মডেল কতটুকু ভালোর জন্য ব্যবহার হবে আর কতটা ব্যক্তিগত অপব্যবহারে জড়িয়ে পড়বে, তা চিন্তার বিষয়।
আশ্চর্যের বিষয় হলো, মেটার কৃত্রিম বুদ্ধিমত্তা দলটি কিন্তু আদৌ এমন কোনো এআই মডেল তৈরি করতে কাজ করছিল না। তারা ফোন বা স্মার্ট হোম ডিভাইসে ভয়েস অ্যাসিস্ট্যান্ট এবং মেটাভার্সের নন-প্লেয়ার ক্যারেক্টারকে (Non-Player Character বা NPC) মানুষের মতো স্বর দেওয়ার চেষ্টা করছিল। ডেভেলপমেন্টের একপর্যায়ে তারা জানতে পারে, তাদের এ মডেল নমুনা হিসেবে দেওয়া অডিও থেকে শিখে নতুন অডিও তৈরি করার সময় হুবহু ওই নমুনার আওয়াজেই কথা বলতে পারে। কথার ধরন বা স্টাইল নকল করার এই অসাধারণ ক্ষমতা মেটার এআই টিমকেও চমকে দেয়।
আপনার–আমার মতোও মেটাও বুঝতে পারে, ভয়েসবক্সের এই আশ্চর্যজনক স্টাইল ট্রান্সফারের ক্ষমতা বাস্তব জীবনে কী পরিমাণ সমস্যা সৃষ্টি করতে পারে। ভয়েসবক্সের এই অপব্যবহারের কথা চিন্তা করে মেটা সিদ্ধান্ত নিয়েছে, আপাতত এটিকে বাজারে ছাড়বে না। এ মুহূর্তে ভয়েসবক্সকে ভয়েস অ্যাসিস্ট্যান্ট ও মেটাভার্সের এনপিসিদের স্বর দিতেই ব্যবহার করবে মেটা।
চিন্তার বিষয় হলো, এ রকম অসামান্য ক্ষমতার একটি টুল কত দিনই-বা কোম্পানির মধ্যে সীমাবদ্ধ থাকবে। অসংখ্যবার ডেটা ব্রিচের কবলে পড়া ফেসবুকের মতো একটি প্রতিষ্ঠানের সার্ভারে কত দিন সুরক্ষিত থাকবে এই সোর্স কোড? ফেসবুকের মতো প্রতিষ্ঠান যদি এমন একটি এআই মডেল তৈরি করতে পারে, তবে অন্য প্রতিষ্ঠান যে এ রকম কিছু তৈরি করে বাজারজাত করবে না, তার ভরসা কী?
এসব এখনো শুধুই প্রশ্ন। তবে এর উত্তরও আছে।
উত্তর হলো, এআই রেগুলেশন বা কৃত্রিম বুদ্ধিমত্তার বাজারজাতকরণ ও ব্যবহারের নীতিমালা। যুক্তরাষ্ট্র, ইউরোপীয় ইউনিয়নসহ বহু দেশ ও অঞ্চল এ নিয়ে ইতিমধ্যে সংলাপে বসেছে। তবে দেখার বিষয়, এই এআই নীতিমালা আগে প্রণীত হয়, নাকি এর অপব্যবহার।