সীমা পরীক্ষা: AI বেঞ্চমার্কের তিনটি বিবর্তন
বৃহৎ ভাষা মডেল (LLMs) যেমন OpenAI-এর GPT-4 এবং Meta-র Llama-3, এবং সেইসাথে o1 এবং DeepSeek-R1-এর মতো সাম্প্রতিক রিজনিং মডেলগুলি কৃত্রিম বুদ্ধিমত্তার ক্ষমতাকে নতুন উচ্চতায় নিয়ে গেছে। তবে, বিশেষ জ্ঞানের ক্ষেত্রে এই মডেলগুলি প্রায়শই সমস্যার সম্মুখীন হয়। তাই, AI সিস্টেমগুলির মূল্যায়নের জন্য নির্দিষ্ট বেঞ্চমার্ক প্রয়োজন।