Mistral AI: OCR جدید مبتنی بر LLM برای اسناد

جهان مملو از اسناد است – سیلی بی‌امان از کاغذ و پیکسل که اطلاعات حیاتی را حمل می‌کنند. با این حال، استخراج دانش از فرمت‌های پیچیده، آن ملیله‌های غنی که متن را با تصاویر، جداول را با معادلات، و طرح‌بندی‌های پیچیده در هم می‌آمیزند، مدت‌هاست که یک مانع بوده است. ابزارهای سنتی تشخیص نوری کاراکتر (OCR) اغلب هنگام مواجهه با هر چیزی فراتر از بلوک‌های متنی ساده، دچار مشکل می‌شوند و در درک زمینه یا حفظ تعامل حیاتی بین انواع مختلف محتوا ناتوان هستند. Mistral AI با ورود به این چالش، Mistral OCR را معرفی کرده است، سرویسی که نه تنها برای خواندن کاراکترها، بلکه برای درک اسناد در پیچیدگی چندوجهی آن‌ها مهندسی شده است و از قابلیت‌های پیشرفته مدل‌های زبان بزرگ (LLMs) خود بهره می‌برد. این ابتکار، جهش قابل توجهی را در تبدیل اسناد ایستا به جریان‌های داده پویا و قابل استفاده نوید می‌دهد.

فراتر از تشخیص: تزریق هوش به OCR

نوآوری اصلی پشت Mistral OCR در ادغام آن با LLMهای خود Mistral نهفته است. این فقط افزودن یک لایه پردازش دیگر نیست؛ بلکه تغییر بنیادین نحوه عملکرد دیجیتالی‌سازی اسناد است. در حالی که OCR مرسوم عمدتاً بر شناسایی کاراکترها و کلمات، اغلب به صورت مجزا، تمرکز دارد، Mistral OCR از مدل‌های زبان زیربنایی خود برای تفسیر معنا و ساختار ذاتی سند استفاده می‌کند.

چالش‌های معمول را در نظر بگیرید:

  • درک متنی: یک توضیح زیر یک تصویر فقط متن نیست؛ بلکه متنی است که تصویر را توضیح می‌دهد. یک پاورقی به نکته خاصی در متن اصلی مربوط می‌شود. OCR سنتی ممکن است این عناصر متنی را به طور جداگانه استخراج کند و پیوند حیاتی را از دست بدهد. Mistral OCR، که توسط LLMهای آموزش‌دیده بر روی مجموعه داده‌های عظیم قدرت گرفته است، برای تشخیص این روابط طراحی شده است و درک می‌کند که عناصر متنی خاص عملکردهای خاصی نسبت به دیگران دارند.
  • درک طرح‌بندی: طرح‌بندی‌های پیچیده، مانند مقالات چند ستونی، ستون‌های کناری، یا فرم‌ها، اغلب سیستم‌های OCR پایه را گیج می‌کنند و منجر به خروجی درهم‌ریخته یا با ترتیب نادرست می‌شوند. رویکرد Mistral با تجزیه و تحلیل ساختار بصری و معنایی، با هدف تجزیه منطقی این طرح‌بندی‌ها، حفظ ترتیب خواندن مورد نظر و سلسله مراتب اطلاعات است.
  • مدیریت عناصر متنوع: مقالات علمی با معادلات ریاضی جاسازی شده، نسخه‌های خطی تاریخی با خطوط منحصر به فرد، یا کتابچه‌های راهنمای فنی با نمودارها و جداول – این‌ها موانع قابل توجهی برای OCR استاندارد هستند. Mistral OCR به طور خاص برای شناسایی و تفسیر صحیح این عناصر متنوع طراحی شده است و آن‌ها را نه به عنوان مانع، بلکه به عنوان بخش‌های جدایی‌ناپذیر از بار اطلاعاتی سند در نظر می‌گیرد.

این رویکرد مبتنی بر LLM فراتر از استخراج متن ساده به سمت درک واقعی سند حرکت می‌کند. هدف تولید یک نمایش دیجیتالی است که غنا و پیوستگی سند اصلی را منعکس کند و اطلاعات استخراج شده را برای کاربردهای پایین‌دستی بسیار ارزشمندتر سازد.

رام کردن پیچیدگی: تسلط بر اسناد چندوجهی

آزمون واقعی هر سیستم OCR پیشرفته در توانایی آن برای مدیریت اسنادی است که انواع مختلف محتوا را به طور یکپارچه ترکیب می‌کنند. Mistral OCR به صراحت برای برتری در این عرصه موقعیت‌یابی شده است و فرمت‌هایی را هدف قرار می‌دهد که از نظر تاریخی دیجیتالی‌سازی دقیق آن‌ها دشوار بوده است.

انواع اسناد هدف:

  • تحقیقات علمی و دانشگاهی: مقالات اغلب حاوی ترکیبی متراکم از متن، نمادهای ریاضی پیچیده (انتگرال‌ها، ماتریس‌ها، نمادهای تخصصی)، جداول ارائه دهنده داده‌های تجربی، و شکل‌ها یا نمودارهایی هستند که نتایج را نشان می‌دهند. ثبت دقیق همه این عناصر و روابط آن‌ها برای محققان، دانشجویان و سیستم‌های بازیابی اطلاعات بسیار مهم است. Mistral OCR قصد دارد این‌ها را صادقانه ارائه دهد.
  • اسناد تاریخی و آرشیوها: دیجیتالی‌سازی آرشیوها اغلب شامل سروکار داشتن با کاغذ قدیمی، کیفیت چاپ متغیر، فونت‌های منحصر به فرد یا قدیمی، حاشیه‌نویسی‌های دست‌نویس، و طرح‌بندی‌های غیر استاندارد است. توانایی تفسیر این تغییرات و حفظ یکپارچگی سند برای مورخان، کتابداران و مؤسسات میراث فرهنگی حیاتی است. ادعای درک هزاران خط و فونت مستقیماً به این نیاز پاسخ می‌دهد.
  • کتابچه‌های راهنمای فنی و راهنمای کاربر: این اسناد به شدت به نمودارها، شماتیک‌ها، جداول مشخصات، و دستورالعمل‌های گام به گام که اغلب متن و تصاویر را ادغام می‌کنند، متکی هستند. دیجیتالی‌سازی دقیق برای ایجاد پایگاه‌های دانش قابل جستجو، ارائه پشتیبانی فنی، و تسهیل درک محصول ضروری است.
  • گزارش‌های مالی و اسناد تجاری: در حالی که اغلب ساختاریافته‌تر هستند، این‌ها می‌توانند شامل جداول پیچیده، نمودارهای جاسازی شده، پاورقی‌ها، و طرح‌بندی‌های خاصی باشند که باید برای تجزیه و تحلیل و انطباق حفظ شوند.
  • فرم‌ها و اسناد ساختاریافته: استخراج دقیق داده‌ها از فیلدها در فرم‌ها، حتی زمانی که آن فرم‌ها دارای طرح‌بندی‌های پیچیده هستند یا حاوی ورودی‌های دست‌نویس در کنار متن چاپی هستند، یک نیاز تجاری رایج است که OCR پیشرفته می‌تواند به آن رسیدگی کند.

Mistral OCR با پرداختن به این فرمت‌های چالش‌برانگیز، قصد دارد مخازن عظیمی از اطلاعات را که در حال حاضر در اسناد ایستا و دشوار برای پردازش محبوس شده‌اند، باز کند. تأکید بر ارائه خروجی‌ای است که به ساختار اصلی و تعامل بین اجزای متنوع آن احترام می‌گذارد.

یک پیشنهاد منحصر به فرد: استخراج تصاویر جاسازی شده در متن

یکی از متمایزترین ویژگی‌هایی که توسط Mistral AI برجسته شده است، توانایی سرویس OCR نه تنها در تشخیص حضور تصاویر، بلکه در استخراج خود تصاویر جاسازی شده در کنار متن اطراف است. این قابلیت آن را از بسیاری از راه‌حل‌های OCR مرسوم که ممکن است ناحیه تصویر را شناسایی کنند اما محتوای بصری را دور بریزند، یا در بهترین حالت، مختصات را ارائه دهند، متمایز می‌کند.

اهمیت این ویژگی قابل توجه است:

  • حفظ اطلاعات بصری: در بسیاری از اسناد، تصاویر صرفاً تزئینی نیستند؛ آن‌ها اطلاعات ضروری را منتقل می‌کنند (نمودارها، چارت‌ها، عکس‌ها، تصاویر). استخراج تصویر تضمین می‌کند که این داده‌های بصری در طول دیجیتالی‌سازی از بین نمی‌روند.
  • حفظ زمینه: فرمت خروجی، به ویژه گزینه اصلی Markdown، متن و تصاویر استخراج شده را به ترتیب اصلی خود در هم می‌آمیزد. این بدان معناست که کاربر یا یک سیستم هوش مصنوعی بعدی، نمایشی را دریافت می‌کند که جریان سند منبع را منعکس می‌کند – متن و به دنبال آن تصویری که به آن اشاره دارد، و سپس متن بیشتر، و غیره.
  • فعال کردن برنامه‌های کاربردی هوش مصنوعی چندوجهی: برای سیستم‌هایی مانند Retrieval-Augmented Generation (RAG) که به طور فزاینده‌ای برای مدیریت ورودی‌های چندوجهی طراحی می‌شوند، این امر حیاتی است. به جای اینکه فقط متن درباره یک تصویر به سیستم RAG داده شود، می‌توان به طور بالقوه هم متن توصیفی و هم خود تصویر را ارائه داد، که منجر به زمینه غنی‌تر و پاسخ‌های تولید شده توسط هوش مصنوعی بالقوه دقیق‌تر می‌شود.

تصور کنید یک دفترچه راهنمای محصول را دیجیتالی می‌کنید. با استخراج تصویر، نسخه دیجیتال حاصل نه تنها حاوی متن ‘برای دستورالعمل‌های سیم‌کشی به شکل 3 مراجعه کنید’ خواهد بود؛ بلکه حاوی آن متن و به دنبال آن تصویر واقعی شکل 3 خواهد بود. این امر نسخه دیجیتال را به طور قابل توجهی کامل‌تر و مستقیماً قابل استفاده‌تر می‌کند.

خروجی‌های انعطاف‌پذیر برای گردش‌کارهای متنوع

با تشخیص اینکه داده‌های دیجیتالی شده اهداف بسیاری را دنبال می‌کنند، Mistral OCR انعطاف‌پذیری را در فرمت‌های خروجی خود ارائه می‌دهد.

  • Markdown: خروجی پیش‌فرض یک فایل Markdown است. این فرمت برای انسان قابل خواندن است و به طور مؤثری ساختار درهم‌آمیخته متن و تصاویر استخراج شده را نشان می‌دهد، و آن را برای مصرف مستقیم یا رندر ساده در نمایشگرهای مختلف مناسب می‌سازد. این فرمت جریان متوالی سند اصلی را به طور طبیعی ثبت می‌کند.
  • JSON (خروجی ساختاریافته): برای توسعه‌دهندگان و سیستم‌های خودکار، یک خروجی JSON ساختاریافته در دسترس است. این فرمت برای پردازش برنامه‌نویسی ایده‌آل است. این امکان را می‌دهد که نتایج OCR به راحتی تجزیه شده و در گردش‌کارهای پیچیده‌تر ادغام شوند، مانند:
    • پر کردن پایگاه‌های داده با اطلاعات استخراج شده.
    • تغذیه داده‌ها به فیلدهای خاص در برنامه‌های کاربردی سازمانی.
    • خدمت به عنوان ورودی ساختاریافته برای عوامل هوش مصنوعی طراحی شده برای انجام وظایف بر اساس محتوای سند.
    • امکان تجزیه و تحلیل دقیق ساختار و عناصر سند.

این رویکرد دو فرمتی هم به بررسی فوری و هم به ادغام عمیق‌تر سیستم پاسخ می‌دهد، با اذعان به اینکه سفر از کاغذ به داده‌های قابل اقدام اغلب شامل مراحل متعدد و نیازمندی‌های سیستمی متفاوت است.

دسترسی جهانی: پشتیبانی گسترده از زبان و خط

اطلاعات مرز نمی‌شناسد و اسناد در تعداد زیادی زبان، خط و فونت وجود دارند. Mistral AI بر قابلیت‌های زبانی گسترده راه‌حل OCR خود تأکید می‌کند و بیان می‌دارد که می‌تواند هزاران خط، فونت و زبان را تجزیه، درک و رونویسی کند.

این ادعای بلندپروازانه، اگر به طور کامل محقق شود، پیامدهای قابل توجهی دارد:

  • عملیات تجاری جهانی: شرکت‌هایی که در سطح بین‌المللی فعالیت می‌کنند با اسنادی به زبان‌های مختلف سروکار دارند. یک راه‌حل OCR واحد که قادر به مدیریت این تنوع باشد، گردش‌کارها را ساده کرده و نیاز به ابزارهای متعدد مختص منطقه را کاهش می‌دهد.
  • تحقیقات دانشگاهی و تاریخی: محققان اغلب با آرشیوهای چند زبانه یا متونی کار می‌کنند که از خطوط تخصصی یا باستانی استفاده می‌کنند. یک ابزار OCR ماهر در این طیف، دامنه مواد قابل دسترس دیجیتالی را به طور چشمگیری گسترش می‌دهد.
  • دسترسی‌پذیری: این می‌تواند با دیجیتالی کردن محتوا از زبان‌ها یا خطوط کمتر پشتیبانی شده، به در دسترس قرار دادن اطلاعات برای مخاطبان گسترده‌تر کمک کند.

در حالی که لیست‌های دقیق زبان‌های پشتیبانی شده یا قابلیت‌های خط خاص معمولاً در مستندات فنی ارائه می‌شوند، هدف اعلام شده از صلاحیت گسترده چند زبانه، Mistral OCR را به عنوان یک ابزار بالقوه قدرتمند برای سازمان‌ها و افرادی که با محتوای متنوع جهانی کار می‌کنند، قرار می‌دهد.

چشم‌انداز عملکرد و یکپارچه‌سازی

در یک زمینه رقابتی، عملکرد و سهولت ادغام، تمایزدهنده‌های کلیدی هستند. Mistral AI ادعاهای خاصی در مورد قابلیت‌های OCR خود در این زمینه‌ها مطرح کرده است.

ادعاهای بنچمارکینگ: طبق ارزیابی‌های مقایسه‌ای منتشر شده توسط شرکت، Mistral OCR گزارش شده است که از عملکرد چندین بازیگر معتبر در فضای پردازش اسناد پیشی گرفته است. این‌ها شامل Google Document AI، Microsoft Azure OCR، و همچنین قابلیت‌های چندوجهی مدل‌های بزرگی مانند Gemini 1.5 و 2.0 گوگل، و GPT-4o OpenAI می‌شود. در حالی که نتایج بنچمارک ارائه شده توسط فروشندگان همیشه باید در متن در نظر گرفته شوند، این ادعاها نشان‌دهنده اعتماد Mistral AI به دقت و قابلیت‌های شناختی OCR مبتنی بر LLM خود، به ویژه در درک روابط بین عناصر سند مانند رسانه، متن، جداول و معادلات است.

سرعت پردازش: برای پروژه‌های دیجیتالی‌سازی در مقیاس بزرگ، توان عملیاتی حیاتی است. Mistral AI پیشنهاد می‌کند که راه‌حل آن قادر به پردازش تا 2000 صفحه در دقیقه در یک استقرار تک گره‌ای است. این سرعت بالا، اگر در سناریوهای دنیای واقعی قابل دستیابی باشد، آن را برای کارهای طاقت‌فرسا شامل دیجیتالی‌سازی آرشیوهای گسترده یا گردش‌کارهای اسناد با حجم بالا مناسب می‌سازد.

گزینه‌های استقرار:

  • پلتفرم SaaS (la Plateforme): Mistral OCR در حال حاضر از طریق پلتفرم مبتنی بر ابر Mistral AI قابل دسترسی است. این مدل نرم‌افزار به عنوان سرویس (SaaS) سهولت دسترسی و مقیاس‌پذیری را ارائه می‌دهد و برای بسیاری از کاربرانی که زیرساخت مدیریت شده را ترجیح می‌دهند مناسب است.
  • استقرار در محل (On-Premises): با تشخیص الزامات حریم خصوصی و امنیت داده‌ها، به ویژه برای اسناد حساس، Mistral AI اعلام کرده است که نسخه قابل نصب در محل به زودی در دسترس خواهد بود. این گزینه به سازمان‌ها اجازه می‌دهد تا سرویس OCR را در زیرساخت خود اجرا کنند و کنترل کامل بر داده‌های خود را حفظ کنند.
  • ادغام با le Chat: این فناوری فقط نظری نیست؛ بلکه در حال حاضر به صورت داخلی برای تأمین قدرت دستیار هوش مصنوعی مکالمه‌ای خود Mistral، le Chat، استفاده می‌شود و احتمالاً توانایی آن را در درک و پردازش اطلاعات از اسناد بارگذاری شده افزایش می‌دهد.

تجربه توسعه‌دهنده و ملاحظات عملی

دسترسی برای توسعه‌دهندگان از طریق یک بسته Python (mistralai) تسهیل شده است. این بسته احراز هویت را مدیریت می‌کند و متدهایی را برای تعامل با Mistral API، از جمله نقاط پایانی جدید OCR، فراهم می‌کند.

گردش‌کار پایه: فرآیند معمول شامل موارد زیر است:

  1. نصب بسته mistralai.
  2. احراز هویت با API (با استفاده از اعتبارنامه‌های مناسب).
  3. بارگذاری سند (فایل تصویر یا PDF) در سرویس.
  4. فراخوانی نقطه پایانی OCR با ارجاع به فایل بارگذاری شده.
  5. دریافت خروجی پردازش شده در فرمت مورد نظر (Markdown یا JSON).

محدودیت‌ها و قیمت‌گذاری فعلی: مانند هر سرویس جدیدی، پارامترهای عملیاتی اولیه‌ای وجود دارد:

  • محدودیت حجم فایل: فایل‌های ورودی در حال حاضر به حداکثر 50MB محدود شده‌اند.
  • محدودیت صفحه: اسناد نمی‌توانند بیش از 1000 صفحه طول داشته باشند.
  • مدل قیمت‌گذاری: هزینه بر اساس هر صفحه ساختار یافته است. نرخ استاندارد 1 دلار آمریکا به ازای هر 1000 صفحه ذکر شده است. یک گزینه پردازش دسته‌ای نرخ بالقوه مقرون به صرفه‌تری معادل 1 دلار آمریکا به ازای هر 2000 صفحه ارائه می‌دهد که احتمالاً برای کارهای با حجم بالاتر در نظر گرفته شده است.

این محدودیت‌ها و جزئیات قیمت‌گذاری مرزهای عملی را برای کاربرانی که سرویس را برای نیازهای خاص خود ارزیابی می‌کنند، فراهم می‌کند. معمولاً چنین پارامترهایی با بلوغ سرویس و مقیاس‌بندی زیرساخت تکامل می‌یابند.

معرفی Mistral OCR نشان‌دهنده تلاشی هماهنگ برای پیش بردن مرزهای دیجیتالی‌سازی اسناد با ادغام عمیق قابلیت‌های درک متنی LLMها است. تمرکز آن بر پیچیدگی چندوجهی، ویژگی منحصر به فرد استخراج تصویر، و گزینه‌های استقرار انعطاف‌پذیر، آن را به عنوان یک رقیب قابل توجه در چشم‌انداز در حال تحول پردازش هوشمند اسناد قرار می‌دهد.