কৃত্রিম বুদ্ধিমত্তা (Artificial intelligence বা AI) বহু বছর ধরে মূলত টেক্সটের মাধ্যমে যোগাযোগ এবং পরিচালনা করেছে। ভাষা মডেলগুলো মানুষের ভাষা প্রসেস, তৈরি এবং বোঝার ক্ষমতা দিয়ে চমকে দিয়েছে, যা তথ্য ও প্রযুক্তির সাথে আমাদের যোগাযোগের পদ্ধতিতে বিপ্লব এনেছে। তবুও, আমরা যে পৃথিবীতে বাস করি তা কেবল টেক্সচুয়াল নয়; এটি ভিজ্যুয়াল স্টিমুলির এক সমৃদ্ধ চিত্রপট। বাস্তবতার এই মৌলিক দিকটি স্বীকার করে, AI বিকাশের সীমান্ত দ্রুত এমন সিস্টেমের দিকে এগিয়ে যাচ্ছে যা কেবল পড়তে পারে না, বরং চারপাশের ভিজ্যুয়াল জগতকে দেখতে এবং ব্যাখ্যা করতে পারে। এই বিকশিত প্রেক্ষাপটে দৃঢ় পদক্ষেপে, চীনা প্রযুক্তি সংস্থা Alibaba একটি আকর্ষণীয় নতুন উদ্ভাবন উপস্থাপন করেছে: QVQ-Max, একটি AI সিস্টেম যা ভিজ্যুয়াল রিজনিংয়ের ক্ষমতা দিয়ে তৈরি করা হয়েছে। এটি এমন AI-এর দিকে একটি গুরুত্বপূর্ণ পদক্ষেপ যা মানুষের মতোই তথ্যের সাথে যোগাযোগ করে – দেখা, বোঝা এবং চিন্তাভাবনাকে একীভূত করে।
টেক্সটের বাইরে: ভিজ্যুয়াল রিজনিংয়ের মূল বিষয় বোঝা
কৃত্রিম বুদ্ধিমত্তায় ভিজ্যুয়াল রিজনিংয়ের ধারণাটি সম্পূর্ণরূপে টেক্সট-চালিত প্রসেসিং থেকে একটি ভিন্ন পথে যাত্রা নির্দেশ করে। প্রচলিত লার্জ ল্যাঙ্গুয়েজ মডেল (LLMs) লিখিত বা কথ্য ভাষা সম্পর্কিত কাজগুলিতে পারদর্শী – যেমন নিবন্ধ সংক্ষিপ্ত করা, ভাষা অনুবাদ করা, ইমেল রচনা করা, বা এমনকি কোড লেখা। যাইহোক, তাদের সামনে একটি ছবি, একটি ডায়াগ্রাম, বা একটি ভিডিও ক্লিপ উপস্থাপন করলে, তাদের বোঝাপড়া একটি দেয়ালে ধাক্কা খায়, যদি না মাল্টিমোডাল ইনপুটের জন্য বিশেষভাবে প্রশিক্ষিত হয়। বেসিক কম্পিউটার ভিশন দিয়ে সজ্জিত থাকলে তারা একটি ছবির মধ্যে বস্তু শনাক্ত করতে পারে, কিন্তু তারা প্রায়শই প্রেক্ষাপট, উপাদানগুলির মধ্যে সম্পর্ক, বা দৃশ্যমানভাবে বোঝানো অন্তর্নিহিত অর্থ উপলব্ধি করতে সংগ্রাম করে।
ভিজুয়াল রিজনিং এই গুরুত্বপূর্ণ ব্যবধান পূরণ করার লক্ষ্য রাখে। এর মধ্যে AI-কে কেবল ‘দেখার’ (ছবি শনাক্তকরণ) ক্ষমতা দিয়েই সজ্জিত করা নয়, বরং স্থানিক সম্পর্ক বোঝা, ক্রিয়া অনুমান করা, প্রেক্ষাপট নির্ণয় করা এবং ভিজ্যুয়াল ইনপুটের উপর ভিত্তি করে যৌক্তিক সিদ্ধান্ত গ্রহণ করার ক্ষমতাও অন্তর্ভুক্ত। এমন একটি AI কল্পনা করুন যা কেবল একটি ছবিতে ‘বিড়াল’ এবং ‘মাদুর’ শনাক্ত করে না, বরং ‘বিড়ালটি মাদুরের উপর আছে’ ধারণাটি বোঝে। এটিকে আরও প্রসারিত করুন: এমন একটি AI যা উপাদান এবং রান্নার ধাপগুলি চিত্রিত করা ছবির ক্রম দেখে সুসংগত নির্দেশাবলী তৈরি করতে পারে, অথবা সম্ভাব্য স্ট্রেস পয়েন্টগুলি চিহ্নিত করতে একটি জটিল ইঞ্জিনিয়ারিং ডায়াগ্রাম বিশ্লেষণ করতে পারে।
এই ক্ষমতা AI-কে আরও সামগ্রিক বুদ্ধিমত্তার কাছাকাছি নিয়ে যায়, যা মানুষের জ্ঞানকে আরও ঘনিষ্ঠভাবে প্রতিফলিত করে। আমরা ক্রমাগত ভিজ্যুয়াল তথ্য প্রসেস করি, এটিকে আমাদের জ্ঞান এবং যুক্তির ক্ষমতার সাথে নির্বিঘ্নে একীভূত করে বিশ্বকে নেভিগেট করি, সমস্যার সমাধান করি এবং কার্যকরভাবে যোগাযোগ করি। শক্তিশালী ভিজ্যুয়াল রিজনিং সম্পন্ন একটি AI তথ্যের অনেক বিস্তৃত বর্ণালীর সাথে যুক্ত হতে পারে, যা সহায়তা, বিশ্লেষণ এবং মিথস্ক্রিয়ার নতুন সম্ভাবনা উন্মুক্ত করে যা আগে কেবল সায়েন্স ফিকশনের মধ্যে সীমাবদ্ধ ছিল। এটি এমন একটি AI-এর মধ্যে পার্থক্য উপস্থাপন করে যা একটি মানচিত্রের লিজেন্ড পড়তে পারে এবং এমন একটি AI যা ভিজ্যুয়াল ল্যান্ডমার্কের উপর ভিত্তি করে দিকনির্দেশনা প্রদানের জন্য মানচিত্রটি নিজেই ব্যাখ্যা করতে পারে। Alibaba-র QVQ-Max এই অত্যাধুনিক ডোমেইনে নিজেকে একজন প্রতিযোগী হিসাবে অবস্থান করছে, ভিজ্যুয়াল ডেটা দ্বারা চালিত প্রকৃত উপলব্ধি এবং চিন্তার প্রক্রিয়াগুলিতে প্রসারিত ক্ষমতার দাবি করছে।
QVQ-Max পরিচিতি: AI দৃষ্টি এবং চিন্তায় Alibaba’র প্রবেশ
Alibaba QVQ-Max-কে কেবল একটি ইমেজ শনাক্তকারী হিসাবে নয়, বরং একটি অত্যাধুনিক ভিজুয়াল রিজনিং মডেল হিসাবে উপস্থাপন করেছে। মূল দাবি হল যে এই AI বট সাধারণ অবজেক্ট সনাক্তকরণকে অতিক্রম করে; এটি সক্রিয়ভাবে ফটোগ্রাফ এবং ভিডিও সামগ্রী থেকে সংগৃহীত তথ্য বিশ্লেষণ করে এবং যুক্তি প্রদান করে। Alibaba পরামর্শ দেয় যে QVQ-Max কার্যকরভাবে এর সামনে উপস্থাপিত ভিজ্যুয়াল উপাদানগুলি দেখতে, বুঝতে এবং চিন্তা করতে প্রকৌশলী করা হয়েছে, যার ফলে বিমূর্ত, টেক্সট-ভিত্তিক AI প্রসেসিং এবং বাস্তব জগতের ডেটার একটি বড় অংশ গঠনকারী বাস্তব, ভিজ্যুয়াল তথ্যের মধ্যে বিভাজন সংকুচিত হয়।
এর পেছনের মেকানিক্সের মধ্যে রয়েছে জটিল ভিজ্যুয়াল দৃশ্য পার্সিং এবং মূল উপাদান এবং তাদের আন্তঃসম্পর্ক সনাক্তকরণে উন্নত ক্ষমতা। এটি কেবল বস্তুগুলিকে লেবেল করা নয়, বরং ভিজ্যুয়াল ইনপুটের মধ্যেকার আখ্যান বা কাঠামো বোঝা। Alibaba মডেলের নমনীয়তার উপর জোর দেয়, এই মূল ভিজ্যুয়াল রিজনিং ফ্যাকাল্টি থেকে উদ্ভূত সম্ভাব্য অ্যাপ্লিকেশনগুলির একটি বিস্তৃত পরিসরের পরামর্শ দেয়। এই অ্যাপ্লিকেশনগুলি বিভিন্ন ক্ষেত্র জুড়ে বিস্তৃত, যা এই প্রযুক্তির ভিত্তিগত প্রকৃতি নির্দেশ করে। উল্লিখিত উদাহরণগুলির মধ্যে রয়েছে ইলাস্ট্রেশন ডিজাইনে সহায়তা করা, সম্ভবত ভিজ্যুয়াল শৈলী বোঝা বা ইমেজ প্রম্পটের উপর ভিত্তি করে ধারণা তৈরি করে; ভিডিও স্ক্রিপ্ট জেনারেশন সহজতর করা, সম্ভবত ভিজ্যুয়াল সিকোয়েন্স বা মুড ব্যাখ্যা করে; এবং অত্যাধুনিক রোল-প্লেয়িং পরিস্থিতিতে জড়িত হওয়া যেখানে ভিজ্যুয়াল প্রসঙ্গ অন্তর্ভুক্ত করা যেতে পারে।
QVQ-Max-এর প্রতিশ্রুতি সমস্যা-সমাধান এবং কার্য সম্পাদনে সরাসরি ভিজ্যুয়াল ডেটা একীভূত করার সম্ভাবনার মধ্যে নিহিত। কাজ, শিক্ষা এবং ব্যক্তিগত জীবনে টেক্সট এবং ডেটাতে নিহিত কাজগুলির জন্য ঐতিহ্যবাহী AI চ্যাটবটগুলির সহায়কতা বজায় রেখে, এর ভিজ্যুয়াল মাত্রা সক্ষমতার স্তর যুক্ত করে। এটি এমন সমস্যাগুলি মোকাবেলা করার লক্ষ্য রাখে যেখানে ভিজ্যুয়াল প্রসঙ্গ কেবল পরিপূরক নয়, অপরিহার্য।
ব্যবহারিক প্রয়োগ: যেখানে ভিজ্যুয়াল রিজনিং পার্থক্য তৈরি করে
যেকোনো প্রযুক্তিগত অগ্রগতির আসল পরিমাপ তার ব্যবহারিক উপযোগিতার মধ্যে নিহিত। একটি AI যা ‘দেখতে’ এবং ‘যুক্তি’ দিতে পারে তা কীভাবে বাস্তব সুবিধাগুলিতে রূপান্তরিত হয়? Alibaba বেশ কয়েকটি আকর্ষণীয় ক্ষেত্র প্রস্তাব করেছে যেখানে QVQ-Max-এর ভিজ্যুয়াল দক্ষতা রূপান্তরকারী হতে পারে।
পেশাদার কর্মপ্রবাহ উন্নত করা
কর্মক্ষেত্রে, ভিজ্যুয়াল তথ্য সর্বব্যাপী। সম্ভাব্য প্রভাব বিবেচনা করুন:
- ডেটা ভিজ্যুয়ালাইজেশন বিশ্লেষণ: কেবল কাঁচা ডেটা টেবিল প্রসেস করার পরিবর্তে, QVQ-Max সম্ভাব্যভাবে সরাসরি চার্ট এবং গ্রাফ বিশ্লেষণ করতে পারে, দৃশ্যমানভাবে উপস্থাপিত প্রবণতা, অসঙ্গতি বা মূল টেকঅ্যাওয়েগুলি সনাক্ত করতে পারে। এটি রিপোর্ট বিশ্লেষণ এবং ব্যবসায়িক বুদ্ধিমত্তার কাজগুলিকে নাটকীয়ভাবে দ্রুত করতে পারে।
- টেকনিক্যাল ডায়াগ্রাম ইন্টারপ্রিটেশন: প্রকৌশলী, স্থপতি এবং প্রযুক্তিবিদরা প্রায়শই জটিল ডায়াগ্রাম, ব্লুপ্রিন্ট বা স্কিম্যাটিক্সের উপর নির্ভর করেন। একটি ভিজ্যুয়াল রিজনিং AI এই নথিগুলি ব্যাখ্যা করতে সাহায্য করতে পারে, সম্ভবত উপাদানগুলি সনাক্ত করা, সংযোগগুলি ট্রেস করা, বা এমনকি ভিজ্যুয়াল প্যাটার্নের উপর ভিত্তি করে সম্ভাব্য ডিজাইনের ত্রুটিগুলি ফ্ল্যাগ করা।
- ডিজাইন এবং ক্রিয়েটিভ সহায়তা: গ্রাফিক ডিজাইনার বা ইলাস্ট্রেটরদের জন্য, মডেলটি মুড বোর্ড বা অনুপ্রেরণার ছবি বিশ্লেষণ করে রঙের প্যালেট, লেআউট কাঠামো বা শৈলীগত উপাদানগুলির পরামর্শ দিতে পারে। এটি সম্ভাব্যভাবে ভিজ্যুয়াল বিবরণ বা বিদ্যমান চিত্রের উপর ভিত্তি করে খসড়া ইলাস্ট্রেশন তৈরি করতে পারে, একটি অত্যাধুনিক সৃজনশীল অংশীদার হিসাবে কাজ করে।
- প্রেজেন্টেশন জেনারেশন: কল্পনা করুন একটি প্রকল্পের সাথে সম্পর্কিত ছবির একটি সেট AI-কে ফিড করা হচ্ছে; এটি সম্ভাব্যভাবে একটি উপস্থাপনা কাঠামোবদ্ধ করতে পারে, প্রাসঙ্গিক ক্যাপশন তৈরি করতে পারে এবং ভিজ্যুয়াল সামঞ্জস্য নিশ্চিত করতে পারে, তৈরির প্রক্রিয়াটিকে সহজতর করে।
শিক্ষা ও শেখার ক্ষেত্রে বিপ্লব
শিক্ষাক্ষেত্র ভিজ্যুয়াল তথ্য বুঝতে পারে এমন AI থেকে উল্লেখযোগ্যভাবে লাভবান হতে পারে:
- STEM সমস্যা সমাধান: গণিত এবং পদার্থবিজ্ঞানের সমস্যাগুলির সাথে থাকা ডায়াগ্রামগুলি বিশ্লেষণ করার ক্ষমতা একটি প্রধান উদাহরণ। QVQ-Max সম্ভাব্যভাবে জ্যামিতিক চিত্র, বল ডায়াগ্রাম, বা সার্কিট স্কিম্যাটিক্স ব্যাখ্যা করতে পারে, ভিজ্যুয়াল উপস্থাপনাটিকে পাঠ্য সমস্যা বিবরণের সাথে সম্পর্কযুক্ত করে ধাপে ধাপে নির্দেশিকা বা ব্যাখ্যা প্রদান করতে পারে। এটি সহজাতভাবে ভিজ্যুয়াল ধারণাগুলি বোঝার একটি পথ সরবরাহ করে।
- ভিজ্যুয়াল সাবজেক্ট টিউটরিং: জীববিজ্ঞান (কোষীয় কাঠামো, অ্যানাটমি), রসায়ন (আণবিক মডেল), ভূগোল (মানচিত্র, ভূতাত্ত্বিক গঠন), এবং শিল্প ইতিহাসের মতো বিষয়গুলি ভিজ্যুয়াল বোঝার উপর ব্যাপকভাবে নির্ভর করে। একটি ভিজ্যুয়াল রিজনিং AI একটি ইন্টারেক্টিভ টিউটর হিসাবে কাজ করতে পারে, ছবির উপর ভিত্তি করে ধারণা ব্যাখ্যা করতে পারে, ভিজ্যুয়াল শনাক্তকরণে শিক্ষার্থীদের কুইজ করতে পারে, বা ঐতিহাসিক শিল্পকর্মের জন্য প্রসঙ্গ সরবরাহ করতে পারে।
- ইন্টারেক্টিভ লার্নিং ম্যাটেরিয়াল: শিক্ষামূলক বিষয়বস্তু নির্মাতারা আরও গতিশীল এবং প্রতিক্রিয়াশীল লার্নিং মডিউল তৈরি করতে এই ধরনের প্রযুক্তি ব্যবহার করতে পারে যেখানে শিক্ষার্থীরা ভিজ্যুয়াল উপাদানগুলির সাথে ইন্টারঅ্যাক্ট করে এবং AI ভিজ্যুয়ালগুলির বোঝার উপর ভিত্তি করে প্রতিক্রিয়া প্রদান করে।
ব্যক্তিগত জীবন এবং শখ সহজ করা
কাজ এবং অধ্যয়নের বাইরে, ভিজ্যুয়াল রিজনিং AI দৈনন্দিন কাজ এবং অবসরের জন্য আকর্ষণীয় সম্ভাবনা সরবরাহ করে:
- রন্ধনসম্পর্কীয় নির্দেশিকা: রেসিপি ছবির উপর ভিত্তি করে ব্যবহারকারীকে রান্নার মাধ্যমে গাইড করার উদাহরণ এটি তুলে ধরে। AI কেবল ধাপগুলি পড়বে না; এটি সম্ভাব্যভাবে ব্যবহারকারীর অগ্রগতির ফটোগুলি বিশ্লেষণ করতে পারে, সেগুলিকে রেসিপি চিত্রগুলিতে প্রত্যাশিত ফলাফলের সাথে তুলনা করতে পারে এবং সংশোধনমূলক পরামর্শ দিতে পারে (‘এই ছবির তুলনায় আপনার সস আরও ঘন হওয়া দরকার বলে মনে হচ্ছে’)।
- DIY এবং মেরামত সহায়তা: আসবাবপত্র একত্রিত করতে বা কোনও অ্যাপ্লায়েন্স ঠিক করতে আটকে গেছেন? সমস্যাযুক্ত এলাকা বা নির্দেশিকা ম্যানুয়ালের ডায়াগ্রামে আপনার ক্যামেরা নির্দেশ করলে AI দৃশ্যত অংশগুলি সনাক্ত করতে, সমাবেশের ধাপ বুঝতে এবং লক্ষ্যযুক্ত নির্দেশিকা প্রদান করতে পারে।
- প্রকৃতি সনাক্তকরণ: ফটোগ্রাফ থেকে উদ্ভিদ, পোকামাকড় বা পাখি সনাক্তকরণ আরও পরিশীলিত হতে পারে, AI সম্ভাব্যভাবে কেবল সনাক্তকরণের উপর ভিত্তি করে নয়, ভিজ্যুয়াল প্রসঙ্গের উপর ভিত্তি করে বিস্তারিত তথ্য সরবরাহ করতে পারে (যেমন, একটি উদ্ভিদ সনাক্ত করা এবং ছবিতে দৃশ্যমান রোগের লক্ষণগুলি উল্লেখ করা)।
- উন্নত রোল-প্লেয়িং: রোল-প্লেয়িং গেমগুলিতে ভিজ্যুয়াল উপাদানগুলিকে একীভূত করা অনেক বেশি নিমগ্ন অভিজ্ঞতা তৈরি করতে পারে। AI দৃশ্য বা চরিত্রগুলিকে প্রতিনিধিত্বকারী চিত্রগুলিতে প্রতিক্রিয়া জানাতে পারে, সেগুলিকে গতিশীলভাবে আখ্যানে বুনে দিতে পারে।
সামনের পথ: QVQ-Max-এর সক্ষমতা পরিমার্জন এবং সম্প্রসারণ
Alibaba সহজেই স্বীকার করে যে QVQ-Max, তার বর্তমান রূপে, ভিজ্যুয়াল রিজনিং AI-এর জন্য তাদের দৃষ্টিভঙ্গির কেবল প্রাথমিক পুনরাবৃত্তি উপস্থাপন করে। তারা ভবিষ্যতের উন্নতির জন্য একটি স্পষ্ট রোডম্যাপ তৈরি করেছে, মডেলের পরিশীলিততা এবং উপযোগিতা বাড়াতে তিনটি মূল ক্ষেত্রে মনোযোগ কেন্দ্রীভূত করেছে।
১. ইমেজ রিকগনিশন নির্ভুলতা বৃদ্ধি: ভিজ্যুয়াল রিজনিংয়ের ভিত্তি হল নির্ভুল উপলব্ধি। Alibaba QVQ-Max-এর যা ‘দেখে’ তা সঠিকভাবে ব্যাখ্যা করার ক্ষমতা উন্নত করার পরিকল্পনা করেছে। এর মধ্যে গ্রাউন্ডিং কৌশল (grounding techniques) ব্যবহার করা জড়িত। AI-তে, গ্রাউন্ডিং সাধারণত বিমূর্ত প্রতীক বা ভাষা উপস্থাপনা (যেমন মডেল দ্বারা উত্পন্ন টেক্সট) কে বাস্তব, বাস্তব-বিশ্বের রেফারেন্টগুলির সাথে সংযুক্ত করা বোঝায় – এক্ষেত্রে, একটি ছবির মধ্যে নির্দিষ্ট বিবরণ। প্রকৃত ইমেজ ডেটার বিরুদ্ধে এর ভিজ্যুয়াল পর্যবেক্ষণগুলিকে আরও কঠোরভাবে যাচাই করে, লক্ষ্য হল ত্রুটি, ভুল ব্যাখ্যা এবং AI ‘হ্যালুসিনেশন’ হ্রাস করা যা জেনারেটিভ মডেলগুলিকে জর্জরিত করতে পারে। উচ্চতর বিশ্বস্ততার ভিজ্যুয়াল বোঝার এই সাধনা নির্ভরযোগ্য যুক্তির জন্য অত্যন্ত গুরুত্বপূর্ণ।
২. জটিলতা এবং মিথস্ক্রিয়া মোকাবেলা: দ্বিতীয় প্রধান লক্ষ্য হল মডেলটিকে আরও জটিল কাজগুলি পরিচালনা করতে সক্ষম করা যা একাধিক ধাপে উন্মোচিত হয় বা জটিল সমস্যা-সমাধান পরিস্থিতি জড়িত। এই উচ্চাকাঙ্ক্ষা নিষ্ক্রিয় বিশ্লেষণের বাইরে সক্রিয় মিথস্ক্রিয়া পর্যন্ত প্রসারিত। উল্লিখিত লক্ষ্য – AI-কে ফোন এবং কম্পিউটার পরিচালনা করতে এবং এমনকি গেম খেলতে সক্ষম করা – বিশেষভাবে উল্লেখযোগ্য। এটি গ্রাফিক্যাল ইউজার ইন্টারফেস (GUIs) বুঝতে, গতিশীল ভিজ্যুয়াল প্রতিক্রিয়া ব্যাখ্যা করতে (যেমন একটি গেম পরিবেশে), এবং ভিজ্যুয়াল ইনপুটের উপর ভিত্তি করে কর্মের ক্রম সম্পাদন করতে সক্ষম AI এজেন্টগুলির দিকে একটি বিবর্তন বোঝায়। এখানে সাফল্য আরও স্বায়ত্তশাসিত এবং সক্ষম AI সহকারীদের দিকে একটি উল্লেখযোগ্য উল্লম্ফন উপস্থাপন করবে যা মানুষের মতোই দৃশ্যমানভাবে ডিজিটাল বিশ্বের সাথে ইন্টারঅ্যাক্ট করতে পারে।
৩. টেক্সটের বাইরে মোডালিটি সম্প্রসারণ: অবশেষে, Alibaba QVQ-Max-কে তার আউটপুট এবং সম্ভাব্য ইনপুট পরিমার্জনের জন্য প্রাথমিকভাবে টেক্সট-ভিত্তিক মিথস্ক্রিয়ার উপর বর্তমান নির্ভরতা থেকে এগিয়ে নিয়ে যাওয়ার পরিকল্পনা করেছে। রোডম্যাপে টুল ভেরিফিকেশন (tool verification) এবং ভিজ্যুয়াল জেনারেশন (visual generation) অন্তর্ভুক্ত রয়েছে। টুল ভেরিফিকেশন মানে হতে পারে AI দৃশ্যত নিশ্চিত করছে যে একটি বাহ্যিক সফ্টওয়্যার টুল বা API থেকে অনুরোধ করা একটি ক্রিয়া স্ক্রীন পরিবর্তন বা আউটপুট চিত্র বিশ্লেষণ করে সফলভাবে সম্পন্ন হয়েছে। ভিজ্যুয়াল জেনারেশন একটি সত্যিকারের মাল্টিমোডাল ইনপুট/আউটপুট সিস্টেমের দিকে অগ্রসর হওয়ার পরামর্শ দেয় যেখানে AI কেবল ছবি বুঝতে পারে না, বরং তার যুক্তি এবং চলমান মিথস্ক্রিয়ার উপর ভিত্তি করে নতুন ভিজ্যুয়াল সামগ্রী তৈরি করতে পারে। এর মধ্যে ডায়াগ্রাম তৈরি করা, নির্দেশের উপর ভিত্তি করে ছবি পরিবর্তন করা, বা এর যুক্তির প্রক্রিয়ার ভিজ্যুয়াল উপস্থাপনা তৈরি করা অন্তর্ভুক্ত থাকতে পারে।
এই দূরদর্শী এজেন্ডা ভিজ্যুয়াল রিজনিং AI-এর জন্য পরিকল্পিত দীর্ঘমেয়াদী সম্ভাবনার উপর জোর দেয় – এমন সিস্টেম যা কেবল উপলব্ধিপ্রবণ এবং চিন্তাশীলই নয়, দৃশ্যমানভাবে সমৃদ্ধ পরিবেশের মধ্যে ক্রমবর্ধমান ইন্টারেক্টিভ এবং জটিল, বহু-পদক্ষেপ অপারেশনে সক্ষম।
ভিজ্যুয়াল মাইন্ড অ্যাক্সেস করা: QVQ-Max-এর সাথে যুক্ত হওয়া
যারা এই নতুন ভিজ্যুয়াল রিজনিং মডেলের ক্ষমতাগুলি সরাসরি অন্বেষণ করতে আগ্রহী, তাদের জন্য Alibaba তার বিদ্যমান AI চ্যাট ইন্টারফেসের মাধ্যমে QVQ-Max অ্যাক্সেসযোগ্য করেছে। ব্যবহারকারীরা chat.qwen.ai প্ল্যাটফর্মে নেভিগেট করতে পারেন। ইন্টারফেসের মধ্যে, সাধারণত উপরের-বাম কোণে অবস্থিত, বিভিন্ন AI মডেল নির্বাচন করার জন্য একটি ড্রপডাউন মেনু রয়েছে। ‘Expand more models’ বিকল্পটি বেছে নেওয়ার মাধ্যমে, ব্যবহারকারীরা QVQ-Max খুঁজে পেতে এবং নির্বাচন করতে পারেন। একবার মডেলটি সক্রিয় হয়ে গেলে, মিথস্ক্রিয়া স্ট্যান্ডার্ড চ্যাট বক্সের মাধ্যমে এগিয়ে যায়, এর অনন্য যুক্তির ক্ষমতা আনলক করতে ভিজ্যুয়াল সামগ্রী – ছবি বা সম্ভাব্য ভিডিও ক্লিপ – সংযুক্ত করার গুরুত্বপূর্ণ সংযোজন সহ। বিভিন্ন ভিজ্যুয়াল ইনপুট নিয়ে পরীক্ষা করা এই প্রথম প্রজন্মের ভিজ্যুয়াল রিজনিং টুলের ব্যবহারিক পরিধি এবং সীমাবদ্ধতা বোঝার জন্য চাবিকাঠি।