AI: গুগল, xAI এবং মিস্ট্রালের উদ্ভাবন

Google’s Strides in Healthcare AI

Google সম্প্রতি তার বার্ষিক ‘The Check Up’ ইভেন্টে Health AI আপডেটের একটি স্যুট উন্মোচন করেছে, যা বিভিন্ন স্বাস্থ্যসেবা অ্যাপ্লিকেশনের জন্য AI-কে কাজে লাগানোর ক্ষেত্রে কোম্পানির প্রতিশ্রুতি প্রদর্শন করে। এই আপডেটগুলি Google Search-এ স্বাস্থ্য-সম্পর্কিত প্রশ্নের উন্নতি থেকে শুরু করে AI-চালিত ওষুধ আবিষ্কারের দক্ষতা বাড়ানোর জন্য ডিজাইন করা নতুন ‘ওপেন’ AI মডেলগুলি চালু করা পর্যন্ত বিস্তৃত।

Google, AI এবং অত্যাধুনিক গুণমান এবং র‍্যাঙ্কিং সিস্টেম স্থাপন করছে যাতে বিভিন্ন স্বাস্থ্য-সম্পর্কিত বিষয়গুলির জন্য ‘knowledge panel’-এর উত্তরগুলির সুযোগ প্রসারিত করা যায়। এই সম্প্রসারণের মধ্যে রয়েছে একাধিক ভাষায়, যেমন স্প্যানিশ, পর্তুগিজ এবং জাপানি ভাষায়, প্রাথমিকভাবে মোবাইল প্ল্যাটফর্মে স্বাস্থ্যসেবা সংক্রান্ত প্রশ্নের জন্য সমর্থন যোগ করা। যদিও Search ইতিমধ্যেই ইনফ্লুয়েঞ্জা বা সাধারণ ঠান্ডার মতো প্রচলিত স্বাস্থ্য উদ্বেগগুলির জন্য knowledge panel-এর উত্তর সরবরাহ করত, এই আপডেটটি উল্লেখযোগ্যভাবে সেইসব বিষয়গুলির বিন্যাসকে প্রসারিত করে যেগুলি এই প্যানেলগুলি অন্তর্ভুক্ত করে।

এছাড়াও, Google, Search-এ ‘What People Suggest’ নামে একটি নতুন বৈশিষ্ট্য চালু করেছে। এই বৈশিষ্ট্যটি এমন ব্যক্তিদের কাছ থেকে প্রাপ্ত তথ্য ব্যবহারকারীদের কাছে উপস্থাপন করার জন্য ডিজাইন করা হয়েছে যারা একই ধরনের চিকিৎসা অভিজ্ঞতার সম্মুখীন হয়েছেন। এই সংযোজন ব্যবহারকারীদের অন্তর্দৃষ্টি অর্জনের জন্য একটি অনন্য উপায় সরবরাহ করে। এটি ব্যবহারকারীদের একই অবস্থার সম্মুখীন হওয়া অন্যান্য ব্যক্তিদের কাছ থেকে দ্রুত খাঁটি দৃষ্টিকোণ আবিষ্কার করতে দেয়, আরও অনুসন্ধানের জন্য লিঙ্ক সহ। ‘What People Suggest’ বর্তমানে মার্কিন যুক্তরাষ্ট্রের মধ্যে মোবাইল ডিভাইসে অ্যাক্সেসযোগ্য।

Streamlining Medical Records with New APIs

Google বিশ্বব্যাপী তার Health Connect প্ল্যাটফর্মের জন্য নতুন মেডিকেল রেকর্ড অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস (API) চালু করেছে, যা Android ডিভাইসগুলির সাথে সঙ্গতিপূর্ণ। এই API গুলি অ্যাপ্লিকেশনগুলিকে মেডিকেল রেকর্ডের ডেটা পড়তে এবং লিখতে উভয়কেই ক্ষমতা দেয়, যার মধ্যে অ্যালার্জি, ওষুধ, টিকাদান এবং ল্যাব ফলাফল রয়েছে, সবই স্ট্যান্ডার্ডাইজড FHIR ফর্ম্যাটে। এই উন্নতিগুলি Health Connect-এর সমর্থনকে 50 টিরও বেশি ডেটা টাইপের মধ্যে নিয়ে আসে, যার মধ্যে কার্যকলাপ, ঘুম, পুষ্টি, অত্যাবশ্যক লক্ষণ এবং এখন মেডিকেল রেকর্ড রয়েছে৷ এই ইন্টিগ্রেশন ব্যবহারকারীদের দৈনন্দিন স্বাস্থ্যের ডেটা এবং তাদের স্বাস্থ্যসেবা প্রদানকারীদের তথ্যের মধ্যে একটি বিরামহীন সংযোগ স্থাপন করে।

The AI Co-Scientist: A Virtual Research Partner

Google-এর একটি যুগান্তকারী উদ্ভাবন হল ‘AI co-scientist’, Gemini 2.0 দ্বারা চালিত একটি অভিনব সিস্টেম। এই সিস্টেমটি গবেষক এবং বিজ্ঞানীদের জন্য একটি ‘ভার্চুয়াল বৈজ্ঞানিক সহযোগী’ হিসাবে কল্পনা করা হয়েছে। AI co-scientist গবেষকদের ব্যাপক বৈজ্ঞানিক সাহিত্য নেভিগেট করতে সহায়তা করার জন্য ডিজাইন করা হয়েছে, এইভাবে নতুন হাইপোথিসিস তৈরিতে সহায়তা করে। বিশাল ডেটাসেট এবং জটিল গবেষণা পত্র বিশ্লেষণে সহায়তা করার মাধ্যমে, AI co-scientist বিশেষজ্ঞদের নতুন ধারণা উন্মোচন করতে এবং তাদের গবেষণার প্রচেষ্টাকে ত্বরান্বিত করতে সহায়তা করে। Google সক্রিয়ভাবে Imperial College London, Houston Methodist, এবং Stanford University-এর মতো প্রতিষ্ঠানগুলির সাথে সহযোগিতা করছে এই টুলটির ব্যবহারিক প্রয়োগগুলি অন্বেষণ করতে এবং একটি বিশ্বস্ত পরীক্ষক প্রোগ্রাম শুরু করার পরিকল্পনা করছে।

TxGemma: Accelerating Drug Discovery

Google, TxGemma-ও চালু করেছে, যা Gemma-ভিত্তিক ওপেন মডেলগুলির একটি সংকলন, যা AI-চালিত ওষুধ আবিষ্কারের দক্ষতা বাড়ানোর উদ্দেশ্যে তৈরি। TxGemma-এর স্ট্যান্ডার্ড টেক্সট এবং বিভিন্ন থেরাপিউটিক সত্তার গঠন, যেমন ছোট অণু, রাসায়নিক এবং প্রোটিন বোঝার ক্ষমতা রয়েছে। TxGemma-এর প্রকাশ নিকট ভবিষ্যতে নির্ধারিত হয়েছে।

Capricorn AI Tool: Advancing Pediatric Oncology

নেদারল্যান্ডসের Princess Maxima Center for Pediatric Oncology-এর সহযোগিতায়, Google Capricorn নামে একটি AI টুল তৈরি করছে। এই টুলটি বিশেষায়িত চিকিৎসা ক্ষেত্র, বিশেষ করে পেডিয়াট্রিক অনকোলজিতে AI প্রয়োগ করার জন্য Google-এর উৎসর্গকে তুলে ধরে।

AI’s Broader Impact on Healthcare

Google পূর্বে বিশ্বব্যাপী স্বাস্থ্যের ফলাফলের উপর AI-এর ইতিবাচক প্রভাব তুলে ধরেছে। কোম্পানিটি স্তন ক্যান্সার, ফুসফুসের ক্যান্সার এবং ডায়াবেটিক রেটিনোপ্যাথির মতো রোগ সনাক্তকরণে সহায়তা করার জন্য AI মডেল তৈরি করেছে। মে 2024-এ, Google, Med-Gemini ঘোষণা করেছে, মাল্টিমোডাল মেডিকেল অ্যাপ্লিকেশনের জন্য ফাইন-টিউন করা Gemini মডেলগুলির একটি পরিবার। এছাড়াও, জুন 2024-এ, Google মোবাইল এবং পরিধানযোগ্য ডিভাইসগুলির জন্য Personal Health Large Language Model চালু করেছে। Gemini-এর এই ফাইন-টিউনড সংস্করণটি সেন্সর ডেটা ব্যাখ্যা করতে এবং একজন ব্যক্তির ঘুম এবং ফিটনেস প্যাটার্ন সম্পর্কিত ব্যক্তিগতকৃত অন্তর্দৃষ্টি এবং সুপারিশ সরবরাহ করার জন্য ডিজাইন করা হয়েছে।

xAI’s Acquisition of Hotshot: A Move into Generative AI Video

Elon Musk-এর AI উদ্যোগ, xAI, Hotshot অধিগ্রহণ করেছে, একটি স্টার্টআপ যা AI-চালিত ভিডিও জেনারেশন টুলে বিশেষজ্ঞ। এই অধিগ্রহণ xAI-কে OpenAI-এর Sora-এর সাথে প্রতিদ্বন্দ্বিতা করার জন্য স্থান দিয়েছে, যা জেনারেটিভ AI ভিডিও স্পেসে একটি শীর্ষস্থানীয় প্ল্যাটফর্ম। Hotshot তার ওয়েবসাইটে ঘোষণা করেছে যে এটি 14 মার্চ থেকে নতুন ভিডিও তৈরি করা বন্ধ করে দিয়েছে, বিদ্যমান গ্রাহকদের 30 মার্চ পর্যন্ত তাদের তৈরি করা ভিডিও ডাউনলোড করার সময় দেওয়া হয়েছিল।

Grok 3: xAI’s Ambitious AI Chatbot

19 ফেব্রুয়ারি, xAI তার চ্যাটবটের সর্বশেষ সংস্করণ Grok 3 উন্মোচন করেছে, যাকে Elon Musk “পৃথিবীর সবচেয়ে বুদ্ধিমান AI” বলে ঘোষণা করেছেন। পরবর্তীকালে, কোম্পানি দুটি রিজনিং মডেল, Grok 3 (Think) এবং Grok 3 Mini (Think)-এর বিটা রিলিজ ঘোষণা করেছে। xAI জানিয়েছে যে Grok 3, তাদের Colossus সুপারক্লাস্টারে প্রশিক্ষিত, যা পূর্ববর্তী অত্যাধুনিক মডেলগুলির তুলনায় দশগুণ বেশি কম্পিউটেশনাল ক্ষমতা সম্পন্ন, যুক্তি, গণিত, কোডিং, বিশ্ব জ্ঞান এবং নির্দেশ-অনুসরণ কার্যাবলীতে যথেষ্ট উন্নতি প্রদর্শন করে।

Mistral AI’s Mistral Small 3.1: Compact and Powerful

ফরাসি AI স্টার্টআপ Mistral AI, 17 মার্চ Mistral Small 3.1 নামে একটি নতুন ওপেন-সোর্স মডেল চালু করেছে। কোম্পানি দাবি করেছে যে এই মডেলটি Google-এর Gemma 3 এবং OpenAI-এর GPT-4o Mini-এর মতো তুলনামূলক মডেলগুলিকে ছাড়িয়ে গেছে, এইভাবে একটি বাজারে প্রতিযোগিতা বাড়িয়েছে যা মূলত মার্কিন প্রযুক্তি জায়ান্টদের দ্বারা প্রভাবিত।

Mistral Small 3.1, 24 বিলিয়ন প্যারামিটার সহ টেক্সট এবং ইমেজ উভয়ই প্রক্রিয়া করে – শীর্ষস্থানীয় মালিকানাধীন মডেলগুলির তুলনায় উল্লেখযোগ্যভাবে ছোট আকার – তবুও তাদের কর্মক্ষমতা সমান বা অতিক্রম করে। Mistral AI জোর দিয়ে বলেছে যে Mistral Small 3.1 হল প্রথম ওপেন-সোর্স মডেল যা শুধুমাত্র বিভিন্ন মাত্রায় শীর্ষস্থানীয় ছোট মালিকানাধীন মডেলগুলির কর্মক্ষমতা পূরণ করে না, অতিক্রমও করে।

Mistral Small 3-এর উপর ভিত্তি করে, এই নতুন মডেলটি উন্নত টেক্সট কর্মক্ষমতা, মাল্টিমোডাল বোধগম্যতা এবং 128,000 টোকেন পর্যন্ত প্রসারিত একটি কনটেক্সট উইন্ডো নিয়ে গর্ব করে। Mistral AI দাবি করেছে যে মডেলটি প্রতি সেকেন্ডে 150 টোকেন গতিতে তথ্য প্রক্রিয়া করে, এটি এমন অ্যাপ্লিকেশনগুলির জন্য উপযুক্ত করে তোলে যার জন্য দ্রুত প্রতিক্রিয়ার সময় প্রয়োজন।

Versatility and Accessibility of Mistral Small 3.1

Mistral Small 3.1 একটি একক RTX 4090 বা 32GB RAM সহ একটি Mac-এর মতো অ্যাক্সেসযোগ্য হার্ডওয়্যারে চালানোর জন্য ডিজাইন করা হয়েছে, এটি অন-ডিভাইস অ্যাপ্লিকেশনগুলির জন্য অত্যন্ত উপযুক্ত করে তোলে। মডেলটিকে বিশেষায়িত ডোমেনগুলির জন্য ফাইন-টিউন করা যেতে পারে, অত্যন্ত নির্ভুল বিষয় বিশেষজ্ঞ তৈরি করতে সক্ষম করে, বিশেষ করে আইনি পরামর্শ, মেডিকেল ডায়াগনস্টিকস এবং প্রযুক্তিগত সহায়তার মতো ক্ষেত্রগুলিতে দরকারী।

নতুন মডেলটি মাল্টিমোডাল বোধগম্যতার প্রয়োজন এমন বিস্তৃত এন্টারপ্রাইজ এবং ভোক্তা অ্যাপ্লিকেশনগুলির জন্য তৈরি করা হয়েছে। সম্ভাব্য ব্যবহারের ক্ষেত্রগুলির মধ্যে রয়েছে ডকুমেন্ট ভেরিফিকেশন, ডায়াগনস্টিকস, অন-ডিভাইস ইমেজ প্রসেসিং, কোয়ালিটি কন্ট্রোলের জন্য ভিজ্যুয়াল ইন্সপেকশন, সিকিউরিটি সিস্টেমে অবজেক্ট ডিটেকশন, ইমেজ-ভিত্তিক কাস্টমার সাপোর্ট এবং সাধারণ-উদ্দেশ্যের সহায়তা।

Mistral OCR: Advanced Document Understanding

মার্চের শুরুতে, Mistral AI, Mistral OCR ঘোষণা করেছে, যাকে কোম্পানি ‘বিশ্বের সেরা ডকুমেন্ট বোঝার API’ হিসেবে তুলে ধরেছে। Mistral OCR হল একটি Optical Character Recognition (OCR) API যা জটিল নথি থেকে টেক্সট, টেবিল, সমীকরণ এবং ছবি বের করতে সক্ষম। Mistral AI বিশ্বাস করে যে এই প্রযুক্তিটি সংস্থাগুলি কীভাবে বিশাল তথ্য ভান্ডার প্রক্রিয়া করে এবং ব্যবহার করে তাতে বিপ্লব ঘটাবে।

কোম্পানির মতে, Mistral OCR প্রতি মিনিটে 2000 পৃষ্ঠা পর্যন্ত প্রক্রিয়া করে, বহুভাষিক এবং মাল্টিমোডাল ক্ষমতা সমর্থন করে এবং AI ওয়ার্কফ্লোতে নির্বিঘ্ন ইন্টিগ্রেশনের জন্য JSON-এর মতো স্ট্রাকচার্ড আউটপুট সরবরাহ করে। অভ্যন্তরীণ পরীক্ষাগুলি নির্দেশ করে যে Mistral OCR টেক্সট নিষ্কাশন নির্ভুলতার ক্ষেত্রে বাজারে নেতৃত্ব দেয়, বিশেষ করে স্ক্যান করা নথি, গাণিতিক বিষয়বস্তু এবং বহুভাষিক টেক্সটের জন্য। ঐতিহ্যগত OCR সমাধানের বিপরীতে, এটি এমবেডেড ছবিগুলিও বের করে, এটি বৈজ্ঞানিক গবেষণা, নিয়ন্ত্রক ফাইলিং এবং ঐতিহাসিক নথি ডিজিটাইজেশনের জন্য আদর্শ করে তোলে।

Mistral AI রিপোর্ট করেছে যে OCR ইতিমধ্যেই এন্টারপ্রাইজ এবং গবেষণা প্রতিষ্ঠানগুলিকে সাহিত্য ডিজিটাইজ করতে, গ্রাহক পরিষেবা স্ট্রীমলাইন করতে এবং ঐতিহাসিক আর্কাইভ সংরক্ষণে সহায়তা করছে। উপরন্তু, OCR কোম্পানিগুলিকে প্রযুক্তিগত সাহিত্য, ইঞ্জিনিয়ারিং অঙ্কন, লেকচার নোট, উপস্থাপনা, নিয়ন্ত্রক ফাইলিং এবং আরও অনেক কিছুকে সূচিবদ্ধ, উত্তর-প্রস্তুত ফর্ম্যাটে রূপান্তর করতে সহায়তা করছে। Mistral OCR ক্ষমতাগুলি le Chat-এ বিনামূল্যে ট্রায়ালের জন্য উপলব্ধ, এবং কোম্পানি আগামী সপ্তাহগুলিতে মডেলটিতে আরও উন্নতির প্রত্যাশা করছে। এই চলমান উন্নয়নগুলি AI-এর গতিশীল প্রকৃতি এবং বিভিন্ন শিল্পকে পুনর্গঠন করার সম্ভাবনাকে প্রতিফলিত করে।