Microsoft Phi 4: गुंतागुंतीच्या गणितीय तर्कासाठी लहान भाषा मॉडेल

मायक्रोसॉफ्ट रिसर्चने Phi-4 सादर केले आहे, जे 14 अब्ज पॅरामीटर्स असलेले एक लहान भाषेचे मॉडेल आहे आणि ते गणितीय तर्काच्या क्षेत्रात सुधारणा करण्यासाठी बनवलेले आहे. हे मॉडेल सुरुवातीला Azure AI Foundry वर उपलब्ध होते आणि आता Hugging Face वर MIT परवान्यासह खुले करण्यात आले आहे.

Phi-4 ची नवीनता:

मायक्रोसॉफ्टनुसार, Phi-4 गणितीय तर्कात त्याच्या समकक्षांपेक्षा आणि मोठ्या मॉडेल्सपेक्षाही उत्तम आहे. याचे कारण म्हणजे प्रशिक्षणात वापरलेली अनेक नवीन तंत्रज्ञान. यात खालील गोष्टींचा समावेश आहे:

  • सिंथेटिक डेटा प्री-ट्रेनिंग आणि मिड-ट्रेनिंग: मॉडेलला अधिक संरचित शिक्षण देण्यासाठी सिंथेटिक डेटा वापरणे.
  • ऑरगॅनिक डेटा व्यवस्थापन: प्रशिक्षण डेटाची गुणवत्ता सुनिश्चित करण्यासाठी ऑरगॅनिक डेटाची काळजीपूर्वक निवड आणि व्यवस्थापन.
  • नवीन पोस्ट-ट्रेनिंग योजना: मॉडेलची कार्यक्षमता आणखी सुधारण्यासाठी नवीन पोस्ट-ट्रेनिंग पद्धती.

या नवकल्पनांमुळे, Phi-4 ने STEM-आधारित प्रश्नांची उत्तरे देण्याच्या क्षमतेत त्याच्या शिक्षक मॉडेल GPT-4o ला मागे टाकले आहे. हे दाखवते की मायक्रोसॉफ्टची डेटा निर्मिती आणि पोस्ट-ट्रेनिंग तंत्रज्ञान केवळ माहितीचे रूपांतरण नाही.

सिंथेटिक डेटाचे फायदे:

मोठ्या भाषेच्या मॉडेलच्या प्रशिक्षणात सिंथेटिक डेटाचा वापर नवीन नाही. Phi मॉडेलमध्येही याचा वापर केला गेला आहे. मायक्रोसॉफ्टने सांगितले की, सिंथेटिक डेटा हा स्वस्त पर्याय नाही, तर तो ऑरगॅनिक डेटापेक्षा चांगला आहे, कारण:

  • अधिक प्रगतीशील शिक्षण मार्ग: सिंथेटिक डेटा LLM ला हळूहळू शिकण्यास मदत करतो, ज्यामुळे सुरुवातीच्या प्रश्नांपासून अंतिम उत्तरांपर्यंतची प्रक्रिया समजणे सोपे होते.
  • तर्क वातावरणाशी जुळणारे: ऑरगॅनिक डेटामध्ये फक्त प्रश्न आणि अंतिम उत्तर असते, तर सिंथेटिक डेटा अधिक तपशीलवार तर्क प्रक्रिया देतो, जे वास्तविक तर्क परिस्थितीशी अधिक जुळते.

काळजीपूर्वक निवडलेला ऑरगॅनिक डेटा:

सिंथेटिक डेटा व्यतिरिक्त, मायक्रोसॉफ्टने सार्वजनिक वेबसाइट्स आणि बाह्य डेटासेटमधून घेतलेल्या कोट्यवधी उच्च-गुणवत्तेच्या गणितीय समस्या आणि उपायांचा वापर केला आहे. अचूक उत्तरे नसलेल्या समस्यांसाठी, त्यांनी बहुसंख्य मतांच्या आधारे उत्तरे तयार केली, ज्यामुळे अचूकता वाढली. यासोबतच, त्यांनी शैक्षणिक लेख, शिक्षण मंच आणि प्रोग्रामिंग ट्यूटोरियल देखील वापरले आहेत.

मायक्रोसॉफ्टने सिंथेटिक डेटा निर्मितीमध्ये उच्च-गुणवत्तेच्या नैसर्गिक डेटाच्या महत्त्वावर जोर दिला आहे. त्यांनी सांगितले की, लहान त्रुटींमुळेही तयार केलेल्या सिंथेटिक कागदपत्रांची गुणवत्ता घटू शकते. त्यामुळे, त्यांनी वेब डेटा व्यवस्थापनावर खूप लक्ष केंद्रित केले.

Phi-4 चे पोस्ट-ट्रेनिंग:

Phi-4 च्या पोस्ट-ट्रेनिंगचा उद्देश त्याला एक विश्वासार्ह AI सहाय्यक बनवणे आहे. यात खालील टप्पे आहेत:

  1. फाइन-ट्यूनिंग: गणित, कोडिंग, तर्क, संवाद, मॉडेल ओळख आणि सुरक्षा यांसारख्या विविध क्षेत्रांतील उच्च-गुणवत्तेच्या डेटाचा वापर करून मॉडेलला फाइन-ट्यून करणे.
  2. डायरेक्ट प्रेफरन्स ऑप्टिमायझेशन (DPO): मॉडेलला मानवी प्राधान्यांशी जुळवून घेण्यासाठी आणि अयोग्य वर्तन टाळण्यासाठी दोन DPO टप्पे वापरणे.
    • पिव्होटल टोकन सर्च: पहिल्या टप्प्यात, मायक्रोसॉफ्टने पिव्होटल टोकन सर्च नावाचे एक नवीन तंत्रज्ञान वापरून आवश्यक/अनावश्यक निकालांची जोडी तयार केली.
    • GPT-4o चा समीक्षक म्हणून वापर: दुसऱ्या टप्प्यात, त्यांनी GPT-4o चा समीक्षक म्हणून वापर करून प्रत्येक निकालाच्या जोडीला सकारात्मक किंवा नकारात्मक लेबल दिले.

Phi-4 चे मूल्यांकन:

Phi-4 चे मूल्यांकन OpenAI च्या SIMPLE-EVALS फ्रेमवर्कचा वापर करून करण्यात आले. अनेक बेंचमार्क चाचण्यांमध्ये, Phi-4 ने Llama-3.1-405B ला मागे टाकले. यासोबतच, GPQA (पदव्युत्तर स्तरावरील STEM प्रश्नोत्तरे) आणि MATH (गणित स्पर्धा) बेंचमार्क चाचण्यांमध्येही त्याने आपल्या शिक्षक मॉडेल GPT-4o ला मागे टाकले.

Phi-4 मॉडेलच्या प्रशिक्षण डेटाचे विश्लेषण:

मायक्रोसॉफ्टने Phi-4 मॉडेलला प्रशिक्षण देण्यासाठी सिंथेटिक डेटा आणि निवडक वास्तविक डेटा वापरला आहे. या मिश्र पद्धतीने मॉडेलची शिकण्याची प्रक्रिया सुधारली आहे आणि ते गणितीय तर्कात उत्कृष्ट बनले आहे.

सिंथेटिक डेटा निर्मिती:

सिंथेटिक डेटा Phi-4 च्या प्रशिक्षणात खूप महत्त्वाचा आहे. मायक्रोसॉफ्ट टीमने सिंथेटिक डेटाला वास्तविक डेटाचा पर्याय म्हणून न पाहता, मॉडेलला हळूहळू शिकण्यास मदत करणारे साधन म्हणून वापरले. सिंथेटिक डेटा निर्मितीची प्रक्रिया खालीलप्रमाणे आहे:

  1. समस्या तयार करणे: पूर्वनिर्धारित नियम आणि टेम्पलेट्स वापरून विविध गणितीय समस्या तयार करणे. या समस्यांमध्ये गणिताची विविध क्षेत्रे आणि कठिण्य पातळी समाविष्ट आहेत, ज्यामुळे मॉडेल सर्वसमावेशकपणे शिकेल.
  2. उकल: प्रत्येक समस्येसाठी, प्रश्नापासून अंतिम उत्तरापर्यंतच्या तर्काची तपशीलवार माहिती देणारी एक स्टेप-बाय-स्टेप उकल तयार करणे. यात केवळ अंतिम उत्तरच नाही, तर मधले टप्पे आणि तर्क प्रक्रिया देखील समाविष्ट आहे.
  3. डेटा वाढवणे: डेटाची विविधता वाढवण्यासाठी, सिंथेटिक डेटामध्ये बदल करणे, जसे की प्रश्नाची भाषा बदलणे, आकडे बदलणे किंवा वेगळ्या पद्धती वापरणे.

निवडक वास्तविक डेटा:

सिंथेटिक डेटा व्यतिरिक्त, Phi-4 च्या प्रशिक्षणात मोठ्या प्रमाणात निवडक वास्तविक डेटा वापरला गेला आहे. हा डेटा सार्वजनिक वेबसाइट्स, शैक्षणिक लेख, शिक्षण मंच आणि प्रोग्रामिंग ट्यूटोरियलमधून घेण्यात आला आहे, ज्यात खालील गोष्टींचा समावेश आहे:

  • गणितीय समस्या आणि उत्तरे: सार्वजनिक वेबसाइट्स आणि बाह्य डेटासेटमधून कोट्यवधी उच्च-गुणवत्तेच्या गणितीय समस्या आणि त्यांची उत्तरे गोळा करणे.
  • शैक्षणिक लेख: मॉडेलची आकलन क्षमता आणि तर्क क्षमता सुधारण्यासाठी, शैक्षणिक लेखांचा वापर करणे, जे गणिताच्या संकल्पना आणि सिद्धांत देतात.
  • शिक्षण मंच: शिक्षण मंचांमधून विद्यार्थ्यांनी विचारलेले प्रश्न आणि तज्ञांनी दिलेली उत्तरे गोळा करणे, ज्यामुळे मॉडेलला गणिताच्या समस्या वेगवेगळ्या दृष्टिकोनातून समजण्यास मदत होते.
  • प्रोग्रामिंग ट्यूटोरियल: मॉडेलची प्रोग्रामिंग क्षमता सुधारण्यासाठी, विविध प्रोग्रामिंग भाषा आणि अल्गोरिदम असलेले प्रोग्रामिंग ट्यूटोरियल वापरणे.

डेटा गुणवत्ता नियंत्रण:

मायक्रोसॉफ्टने डेटाच्या अचूकतेसाठी आणि सातत्य राखण्यासाठी खूप प्रयत्न केले आहेत. त्यांनी खालील उपाययोजना केल्या आहेत:

  • मानवी पडताळणी: काही महत्त्वाच्या डेटासेटसाठी, मानवी पडताळणी केली जाते, ज्यामुळे डेटाची अचूकता आणि गुणवत्ता सुनिश्चित होते.
  • बहुमत मतदान: ज्या प्रश्नांची अचूक उत्तरे नाहीत, त्यांच्यासाठी बहुमत मतदानाचा वापर करून उत्तरे तयार करणे, ज्यामुळे अचूकता वाढते.
  • डेटा स्वच्छता: सर्व डेटा साफ करणे, ज्यामुळे डुप्लिकेट डेटा, चुकीचा डेटा आणि अनावश्यक डेटा काढला जातो.

पोस्ट-ट्रेनिंग रणनीती:

Phi-4 च्या पोस्ट-ट्रेनिंगचा उद्देश त्याला एक विश्वासार्ह AI सहाय्यक बनवणे आहे. या टप्प्यात, मायक्रोसॉफ्टने फाइन-ट्यूनिंग आणि डायरेक्ट प्रेफरन्स ऑप्टिमायझेशन (DPO) चा वापर केला आहे.

फाइन-ट्यूनिंग टप्पा:

फाइन-ट्यूनिंग टप्प्यात, मॉडेलला विविध कार्ये आणि क्षेत्रांसाठी तयार केले जाते. या टप्प्यात, मायक्रोसॉफ्टने खालील क्षेत्रांतील उच्च-गुणवत्तेचा डेटा वापरला:

  • गणित: विविध गणितीय समस्या आणि उत्तरे, ज्यामुळे मॉडेलची गणितीय तर्क क्षमता सुधारते.
  • कोडिंग: विविध प्रोग्रामिंग समस्या आणि उत्तरे, ज्यामुळे मॉडेलची कोड निर्मिती आणि आकलन क्षमता सुधारते.
  • तर्क: विविध तार्किक समस्या, ज्यामुळे मॉडेलची तार्किक विचार क्षमता सुधारते.
  • संवाद: विविध संवाद डेटा, ज्यामुळे मॉडेलची नैसर्गिक भाषा समजून घेण्याची आणि तयार करण्याची क्षमता सुधारते.
  • मॉडेल ओळख: विविध मॉडेल ओळख वर्णन, ज्यामुळे मॉडेलला स्वतःच्या क्षमतेची जाणीव होते.
  • सुरक्षा: विविध सुरक्षा प्रश्न आणि उत्तरे, ज्यामुळे मॉडेलची सुरक्षा सुधारते.

डायरेक्ट प्रेफरन्स ऑप्टिमायझेशन (DPO) टप्पा:

डायरेक्ट प्रेफरन्स ऑप्टिमायझेशन (DPO) टप्प्याचा उद्देश मॉडेलचे वर्तन मानवी प्राधान्यांशी जुळवणे आणि अयोग्य वर्तन टाळणे आहे. या टप्प्यात दोन पायऱ्या आहेत:

  1. पिव्होटल टोकन सर्च: पहिल्या टप्प्यात, मायक्रोसॉफ्टने पिव्होटल टोकन सर्च नावाचे एक नवीन तंत्रज्ञान वापरून आवश्यक/अनावश्यक निकालांची जोडी तयार केली. हे तंत्रज्ञान मॉडेलच्या आउटपुट स्पेसमध्ये शोध घेऊन आवश्यक आणि अनावश्यक वर्तनामध्ये फरक करणारे महत्त्वाचे टोकन शोधते.
  2. GPT-4o चा समीक्षक म्हणून वापर: दुसऱ्या टप्प्यात, त्यांनी GPT-4o चा समीक्षक म्हणून वापर करून प्रत्येक निकालाच्या जोडीला सकारात्मक किंवा नकारात्मक लेबल दिले. GPT-4o मानवी प्राधान्यांनुसार मॉडेलच्या आउटपुटचे मूल्यांकन करू शकते, ज्यामुळे मॉडेलला मानवी प्राधान्ये अधिक चांगल्या प्रकारे शिकण्यास मदत होते.

Phi-4 चे कार्यप्रदर्शन मूल्यांकन:

Phi-4 च्या कार्यक्षमतेचे मूल्यांकन करण्यासाठी, मायक्रोसॉफ्टने OpenAI च्या SIMPLE-EVALS फ्रेमवर्कचा वापर केला, ज्यात विविध बेंचमार्क चाचण्या आहेत.

बेंचमार्क चाचण्या:

Phi-4 ने खालील बेंचमार्क चाचण्यांमध्ये उत्कृष्ट कामगिरी केली:

  • GPQA (पदव्युत्तर स्तरावरील STEM प्रश्नोत्तरे): या चाचणीमध्ये, Phi-4 ने आपल्या शिक्षक मॉडेल GPT-4o ला मागे टाकले, ज्यामुळे STEM क्षेत्रातील त्याची प्रश्न विचारण्याची क्षमता दिसून येते.
  • MATH (गणित स्पर्धा): या चाचणीमध्येही, Phi-4 ने आपल्या शिक्षक मॉडेल GPT-4o ला मागे टाकले, ज्यामुळे जटिल गणितीय समस्या सोडवण्याची त्याची क्षमता दिसून येते.
  • इतर मॉडेल्सशी तुलना: अनेक बेंचमार्क चाचण्यांमध्ये, Phi-4 ने Llama-3.1-405B ला मागे टाकले, ज्यामुळे त्याची एकूण कार्यक्षमता दिसून येते.

कार्यप्रदर्शन विश्लेषण:

Phi-4 च्या कार्यप्रदर्शन मूल्यांकनावरून खालील निष्कर्ष काढता येतात:

  • गणितीय तर्कात मजबूत: Phi-4 ची गणितीय तर्काची क्षमता खूप चांगली आहे. याचे कारण म्हणजे प्रशिक्षणात वापरलेली नवीन पद्धती, जसे की सिंथेटिक डेटा, निवडक वास्तविक डेटा आणि पोस्ट-ट्रेनिंग रणनीती.
  • शिक्षक मॉडेलपेक्षा सरस: अनेक बेंचमार्क चाचण्यांमध्ये, Phi-4 ने आपल्या शिक्षक मॉडेल GPT-4o ला मागे टाकले, ज्यामुळे त्याची कार्यक्षमता केवळ माहितीवर आधारित नाही, हे सिद्ध होते.
  • इतर मॉडेल्सशी तुलना: Phi-4 ने अनेक बेंचमार्क चाचण्यांमध्ये Llama-3.1-405B ला मागे टाकले, ज्यामुळे त्याची एकूण कार्यक्षमता खूप चांगली आहे.

Phi-4 ची अनुप्रयोग क्षमता:

Phi-4 हे एक लहान भाषेचे मॉडेल आहे, जे जटिल गणितीय तर्कासाठी तयार केले आहे. त्यामुळे, याची अनेक ठिकाणी उपयोजकता आहे:

  • शिक्षण: हे मॉडेल गणित शिकणाऱ्या विद्यार्थ्यांना मदत करू शकते, त्यांना गणितीय समस्या सोडवण्यासाठी मार्गदर्शन करू शकते आणि वैयक्तिक शिक्षण अनुभव देऊ शकते.
  • संशोधन: संशोधकांना गणितीय मॉडेलिंग आणि डेटा विश्लेषणामध्ये मदत करू शकते.
  • अभियांत्रिकी: अभियंत्यांना डिझाइन आणि विश्लेषणामध्ये मदत करू शकते.
  • अर्थशास्त्र: आर्थिक विश्लेषकांना जोखीम मूल्यांकन आणि गुंतवणुकीचे निर्णय घेण्यासाठी मदत करू शकते.
  • इतर क्षेत्र: आरोग्यसेवा, लॉजिस्टिक आणि उत्पादन यांसारख्या इतर क्षेत्रांमध्येही याचा वापर केला जाऊ शकतो, जिथे जटिल गणितीय तर्काची गरज असते.

निष्कर्ष:

मायक्रोसॉफ्ट Phi-4 चा उदय लहान भाषेच्या मॉडेलने गणितीय तर्कात मोठी प्रगती केल्याचे दर्शवतो. याची खास डेटा प्रशिक्षण रणनीती आणि पोस्ट-ट्रेनिंग पद्धतीमुळे ते इतर मॉडेल्सपेक्षा सरस ठरले आहे. Phi-4 Hugging Face वर ओपन सोर्स झाल्यामुळे, अनेक संशोधक आणि विकासकांना याचा फायदा होईल आणि AI तंत्रज्ञानाचा विकास होईल.