একটি ছোট শহরের কথা কল্পনা করুন যেখানে দুইজন যন্ত্রাংশ বিক্রেতা বসবাস করে। এই শহরের গ্রাহকরা সবসময় কম দামের পণ্য কিনতে চায়। তাই বিক্রেতারা প্রতিযোগিতা করে সর্বনিম্ন দামে বিক্রি করার জন্য। দুই ব্যবসায়ী তাদের অল্প লাভ নিয়ে অসন্তুষ্ট। এক রাতে তারা একসাথে বসে গোপনে আলোচনা করল, যদি তারা একসাথে দাম বাড়ায়, তাহলে দুজনেই বেশি লাভ করতে পারবে। কিন্তু এই ধরনের সমঝোতা যাকে Collusion বলা হয় আর এটা বহু বছর ধরেই আইনত নিষিদ্ধ। তাই তারা এ ঝুঁকি নিতে চায় না ফলে গ্রাহকরাও সস্তা পণ্য পেতে থাকে।
শতাধিক বছর ধরে, যুক্তরাষ্ট্রে আইন এই একই মূলনীতি অনুসরণ করে এসেছে যে গোপন সমঝোতা বন্ধ করুন, এবং দাম স্বাভাবিকভাবে ঠিক থাকবে। কিন্তু আজকের দিনে বিষয়টি এত সহজ নয়। অর্থনীতির বড় বড় ক্ষেত্রেই বিক্রেতারা এখন কম্পিউটার প্রোগ্রাম ব্যবহার করে দাম নির্ধারণ করে। এই প্রোগ্রামগুলোকে বলা হয় লার্নিং অ্যালগরিদম। এগুলো বাজারের নতুন তথ্যের ভিত্তিতে নিয়মিতভাবে দাম পরিবর্তন করে। যদিও এগুলো আধুনিক কৃত্রিম বুদ্ধিমত্তার ডীপ লার্নিং এর মতো জটিল নয়, তবুও এগুলো অপ্রত্যাশিত আচরণ করতে পারে।
তাহলে নিয়ন্ত্রকরা কিভাবে নিশ্চিত করবেন যে অ্যালগরিদম সবসময় ন্যায্য দাম নির্ধারণ করছে? প্রচলিত পদ্ধতি কাজ করবে না, কারণ তা সরাসরি Collusion খুঁজে বের করার ওপর নির্ভর করে। পেনসিলভানিয়ার বিশ্ববিদ্যালয়ের কম্পিউটার বিজ্ঞানী অ্যারন রথ বলেন,
অ্যালগরিদমগুলো একে অপরের সঙ্গে কোনো গোপন সমঝোতা করে না।
২০১৯ সালে প্রকাশিত একটি গবেষণায় দেখা গেছে, অ্যালগরিদম নিজে থেকেই অস্পষ্টভাবে collude করতে শেখে, এমনকি যদি তা প্রোগ্রাম করা না থাকে। গবেষকরা দুইটি সহজ লার্নিং অ্যালগরিদমকে একটি সিমুলেটেড বাজারে প্রতিদ্বন্দ্বিতা করতে বসান। তারা বিভিন্ন কৌশল পরীক্ষা করতে দেয় যার মাধ্যমে অ্যালগরিদমের লাভ বাড়ানো যায়। সময়ের সঙ্গে সঙ্গে অ্যালগরিদমগুলো শিখতে থাকে যে, অন্যটি যদি দাম কমায়, তবে তাদেরকে বড় পরিমাণে প্রতিক্রিয়া জানাতে হবে। এর ফলে দাম বাড়ে এবং পারস্পরিক হুমকির মাধ্যমে এই দাম বজায় থাকে।
অ্যারন রথ মনে করেন, অ্যালগরিদমিক প্রাইসিং-এর সমস্যা সহজ সমাধানযোগ্য নয়। তিনি বলেন, “আমাদের গবেষণার মূল বার্তা হল, কোন নিয়ম বাতিল করা উচিত তা বোঝা কঠিন।”
মানুষের Collusion এর ক্ষেত্রেও এই ধরনের হুমকি দেখা যায়। তাই কেউ ভাবতে পারে, বিক্রেতাদের এমন অ্যালগরিদম ব্যবহার করতে বাধ্য করা যায়, যা কোনো হুমকি প্রদর্শন করতে পারে না। কিন্তু সাম্প্রতিক গবেষণায় দেখা গেছে, এমন অ্যালগরিদমও কখনো কখনো ক্রেতার জন্য খারাপ ফলাফল দিতে পারে। নেটালি কোলিনা, রথের সহযোগী গবেষক, বলেন, “আপনি বাইরে থেকে দেখলে সবকিছু ঠিক মনে হলেও দাম অনেক বেশি হতে পারে।”
গবেষকরা এই ফলাফলের প্রভাব নিয়ে একমত নয়। অনেক কিছুই নির্ভর করে ‘যুক্তিসঙ্গত’ কীভাবে সংজ্ঞায়িত করা হয়েছে তার ওপর। কিন্তু এ থেকে দেখা যায় যে, অ্যালগরিদমিক প্রাইসিং কতটা সূক্ষ্ম এবং নিয়ন্ত্রণ করা কতটা কঠিন হতে পারে। রাইস বিশ্ববিদ্যালয়ের অর্থনীতিবিদ ম্যালেশ পায় বলেন, “যদি হুমকি বা সমঝোতার কোনো ধারণা না থাকে, নিয়ন্ত্রক সহজে বলতে পারবে না ‘এই দাম ভুল মনে হচ্ছে’। এ কারণেই এই গবেষণাটি এত গুরুত্বপূর্ণ।”
গেম থিওরি হলো অর্থনীতি ও কম্পিউটার বিজ্ঞানের সংযোগস্থলে থাকা একটি বিষয় যা কৌশলগত প্রতিযোগিতার গণিত বিশ্লেষণ করে। এটি একটি নিয়ন্ত্রিত পরিবেশে প্রাইসিং অ্যালগরিদমের ব্যর্থতা বোঝার এক উপায়। জোসেফ হারিংটন, পেনসিলভানিয়ার বিশ্ববিদ্যালয়ের অর্থনীতিবিদ, বলেন, “আমরা ল্যাব-এ Collusion তৈরি করার চেষ্টা করি। একবার তা করলে, আমরা দেখার চেষ্টা করি কিভাবে Collusion ধ্বংস করা যায়।”
নেটালি কোলিনা ও তার সহকর্মীরা গবেষণায় দেখেছেন, কখনো কখনো দাম বাড়ার কারণ অপ্রত্যাশিতও হতে পারে। মূল ধারণাগুলো বোঝার জন্য রক-পেপার-সিজারস খেলার উদাহরণ কাজে লাগে। এখানে লার্নিং অ্যালগরিদম হলো কোনো কৌশল যা খেলোয়াড় পূর্ববর্তী রাউন্ডের তথ্য দেখে প্রতিটি রাউন্ডে সিদ্ধান্ত নিতে ব্যবহার করে। খেলোয়াড়রা বিভিন্ন কৌশল চেষ্টা করতে পারে। কিন্তু যদি তারা ভালো খেলতে শেখে, তারা এমন একটি অবস্থায় পৌঁছায়, যা গেম থিওরিস্টরা ‘ইকুইলিব্রিয়াম’ বলে ডাকে। ইকুইলিব্রিয়ামে প্রতিটি খেলোয়াড়ের কৌশল অন্য খেলোয়াড়ের কৌশলের সবচেয়ে ভালো প্রতিক্রিয়া, তাই কেউ পরিবর্তনের প্রয়োজন অনুভব করে না।
রক-পেপার-সিজারসে আদর্শ কৌশল হলো সহজ: প্রতিটি রাউন্ডে র্যান্ডমভাবে পছন্দ করা। যদি একজন খেলোয়াড় ভিন্ন কৌশল নেয়, তাহলে লার্নিং অ্যালগরিদম ব্যবহার করে অন্য খেলোয়াড় আগের রাউন্ডের তথ্য দেখে আরও বেশি জেতার সুযোগ পায়। উদাহরণস্বরূপ, যদি অনেক রাউন্ড পরে আপনি দেখেন যে প্রতিদ্বন্দ্বী বেশি সময় রক বেছে নিয়েছে, তবে পেপার ব্যবহার করলে বেশি জেতার সুযোগ ছিল। গেম থিওরিস্টরা এটিকে ‘regret’ বা অনুশোচনা বলে।
গবেষকরা এমন অ্যালগরিদম তৈরি করেছেন যা শূন্য অনুশোচনার নিশ্চয়তা দেয়। আরও উন্নত ‘no-swap-regret’ অ্যালগরিদম নিশ্চিত করে যে, প্রতিদ্বন্দ্বী যা করেছে, তাতে আপনি অন্য কোনো পদক্ষেপ নিয়ে আরও ভালো করতে পারতেন না। ২০০০ সালে প্রমাণিত হয়েছে, যদি দুটি no-swap-regret অ্যালগরিদমকে একত্রে খেলানো হয়, তারা এমন এক ধরনের ইকুইলিব্রিয়ামে পৌঁছায় যা এক রাউন্ডের জন্য আদর্শ। এই বৈশিষ্ট্যটি আকর্ষণীয় কারণ এক রাউন্ডের খেলা বহু রাউন্ডের চেয়ে সহজ। বিশেষত, হুমকির প্রভাব এখানে কাজ করে না।
২০২৪ সালের গবেষণা: নন-রেসপন্সিভ কৌশল
২০২৪ সালে, হার্টলাইন এবং তার সহকর্মীরা দেখান যে, প্রতিযোগিতামূলক বাজারে no-swap-regret অ্যালগরিদমের বিপরীতে খেললে কিছু অপ্রত্যাশিত ফলাফল আসে। কৌশল হলো প্রতিটি পদক্ষেপের জন্য একটি নির্দিষ্ট সম্ভাবনা বরাদ্দ করে এবং প্রতি রাউন্ডে একটিমাত্র পদক্ষেপ র্যান্ডমভাবে নেওয়া। কৌশলটি বাহ্যিকভাবে নির্দোষ মনে হয়, কিন্তু এটি শিখনকারী অ্যালগরিদমকে দাম বাড়াতে প্ররোচিত করতে পারে।
কোলিনা এবং এশ্বর অরুনাচলেশ্বরান গবেষণায় দেখেন, সর্বোত্তম কৌশলটি খুব উচ্চ দামের জন্য বেশি সম্ভাবনা তৈরি করে এবং নিম্ন দামের জন্য তুলনামূলকভাবে কম সম্ভাবনা রাখে। এমন কৌশল no-swap-regret অ্যালগরিদমের বিপরীতে সর্বাধিক লাভ এনে দেয়। প্রথমে তারা ভাবেন এটি বাস্তব জীবনের জন্য প্রাসঙ্গিক নয়। তবে পরে বুঝতে পারেন, যখন দুই খেলোয়াড়ই সমীকরণ অবস্থায় থাকে, তাদের লাভ সমান এবং সর্বাধিক, কেউ কৌশল পরিবর্তন করবে না। ফলে ক্রেতারা উচ্চ মূল্যে আটকে থাকে। এটি collusion-এর মতো ফলাফল কিন্তু কোনো গোপন ষড়যন্ত্রের ইঙ্গিত নেই।
বোকা হওয়াটাও লাভজনক হতে পারে।
রথ বলেন, অনুশোচনার একটি উপায় হলো কিছুটা বোকা হওয়া। ইতিহাসে এটা কখনো বেআইনি ছিল না। হার্টলাইন মনে করেন, সমাধান হলো শুধুমাত্র no-swap-regret অ্যালগরিদম অনুমোদন করা এবং অন্যান্য সব কৌশল নিষিদ্ধ করা। যদিও এটি সব খারাপ ফলাফল রোধ করতে পারবে না, তবে এটি Collusion প্রতিরোধে সহায়ক।
গেম থিওরি ও লার্নিং অ্যালগরিদমের মিলিত বিশ্লেষণে দেখা যায়, দাম নির্ধারণে প্রযুক্তি নতুন চ্যালেঞ্জ তৈরি করছে। সরাসরি collusion না করলেও, অ্যালগরিদম নিজেই হাই প্রাইস বা প্রতিযোগিতা ব্যর্থতার দিকে নিয়ে যেতে পারে। নিয়ন্ত্রকদের নতুন পদ্ধতি উদ্ভাবন করতে হবে, শুধুমাত্র প্রচলিত নিয়ম নয়। বাজারের ন্যায্যতা নিশ্চিত করতে প্রযুক্তি ও নীতিমালা একসঙ্গে কাজ করতে হবে। ভবিষ্যতে লক্ষ্য হওয়া উচিত এমন অ্যালগরিদম তৈরি করা যা স্বয়ংক্রিয়ভাবে ন্যায্য দাম নিশ্চিত করে এবং গ্রাহক ও বিক্রেতা উভয়ের জন্য সুষ্ঠু প্রতিযোগিতা বজায় রাখে।
লেখক : ইমাম হোসাইন আনজির
তথ্যসূত্র : Quanta Magazine
