கிளாட் 4: AI கோடிங் எல்லைகளை மறுவரையறை செய்தல் | ta

செயற்கை நுண்ணறிவுத் துறையில், ஆண்ட்ரோபிக் நிறுவனத்தின் கிளாட் குடும்பத்தின் சமீபத்திய பதிப்புகளான Opus 4 மற்றும் Sonnet 4 ஆகியவை ஒரு முக்கியமான முன்னகர்வுடையதாகத் தெரிகிறது. ஒரு வாரத்திற்கு மேலாக வெளியிடப்பட்ட இந்த மாதிரிகள் மிக வேகமாக கவனத்தை ஈர்த்துள்ளன. குறிப்பாக கோடிங் எனும் முக்கியமான இடத்தில் புதிய தரநிலைகளை நிறுவியுள்ளன. அவற்றின் கோடிங் திறனைத் தவிர, Opus 4 மற்றும் Sonnet 4 ஆகியவை பகுத்தறிவு மற்றும் agentic செயற்பாடுகளில் வலுவான திறன்களைக் வெளிக்காட்டுகின்றன. அவை சமகால AI உலகில் முக்கிய முன்னேற்றங்களாக மாறுகின்றன.

Opus 4 என்பது ஆண்ட்ரோபிக் நிறுவனத்தின் மிகவும் நவீனமான படைப்பாக நிற்கிறது. இது நிறுவனத்தால் மிகவும் சக்திவாய்ந்த மாதிரி என்று பாராட்டப்படுகிறது. மேலும் “உலகின் சிறந்த கோடிங் மாதிரி” ஆக தனது நிலையை உறுதிப்படுத்துகிறது. Opus 4 ஐப் போலவே, Sonnet 4 மிகவும் பொருளாதார ரீதியிலான மாற்றாக வெளிப்படுகிறது. இது சிறந்த செயல்திறனுக்கும் நடைமுறை செலவுக்கும் இடையே ஒரு உகந்த சமநிலையை அடைய வடிவமைக்கப்பட்டுள்ளது. இந்த இரட்டை சலுகை, உச்ச செயல்திறன் தேவைப்படுபவர்கள் முதல் பட்ஜெட் நட்பு தீர்வைத் தேடுபவர்கள் வரை வாடிக்கையாளர்களின் பரந்த அளவிலான விருப்பங்களை பூர்த்தி செய்கிறது.

Opus 4 மற்றும் Sonnet 4 இல் அறிமுகப்படுத்தப்பட்ட மேம்பாடுகள் குறிப்பிடத்தக்கவை. ஒரு முக்கிய சிறப்பம்சமாக அவற்றின் மேம்படுத்தப்பட்ட கோடிங் திறன் இருக்கிறது. Opus 4 ஏற்கனவே SWE-bench மற்றும் Terminal-bench உள்ளிட்ட முக்கிய அளவுகோல்களில் தனது தலைமை நிலையை காட்டியுள்ளது. சோனெட்டும் இதே போன்ற திறன்களைக் காட்டுகிறது. கோடிங் செயல்திறனில் இந்த முன்னேற்றம், மென்பொருள் வளர்ச்சியில் செயற்கை நுண்ணறிவின் முக்கியத்துவத்தை அடிக்கோடிட்டுக் காட்டுகிறது.

செயல்திறன் மேம்பாடுகளுடன் கூடுதலாக, ஆண்ட்ரோபிக் பாதுகாப்பிற்கும் முன்னுரிமை அளித்துள்ளது. Opus 4 இல் ASL-3 அல்லது AI பாதுகாப்பு நிலை-3 பாதுகாப்பு அம்சங்கள் இணைக்கப்பட்டுள்ளன. இந்த அளவீடு ஆண்ட்ரோபிக் நிறுவனத்தின் ‘பொறுப்பான அளவிடுதல் கொள்கை’யில் இருந்து வருகிறது. ஆண்ட்ரோபிக், பாதுகாப்பு குறித்த அக்கறை கொண்ட OpenAI இன் முன்னாள் ஊழியர்களால் நிறுவப்பட்டது. இது வலுவான பாதுகாப்பு பரிசீலனைகளுடன் புதுமைக்கு தொடர்ந்து முக்கியத்துவம் அளித்துள்ளது.

Opus 4 மற்றும் Sonnet 4 வெளியானதில் இருந்து டெவலப்பர்கள் மற்றும் பயனர்களிடமிருந்து பொதுவாக சாதகமான கருத்துக்களைப் பெற்றுள்ளன. மேம்படுத்தப்பட்ட கோடிங் திறன்கள் தன்னாட்சி அல்லது agentic AI அமைப்புகளை நோக்கி ஒரு முக்கியமான படியாக பார்க்கப்படுகிறது. பிரீமியம் மற்றும் செலவு குறைந்த விருப்பத்தை வழங்குவதன் மூலம் முந்தைய கலங்களின் விலைக் கட்டமைப்பானது நல்ல வரவேற்பை பெற்றது.

Opus 4 வெளியீடு சர்ச்சைகள் இல்லாமல் இல்லை. Opus ஒரு பயனரின் நடத்தை முறையற்றது என்று கருதினால் அதிகாரிகளுக்குத் தெரியப்படுத்தும் என்று ஒரு ஆண்ட்ரோபிக் ஆராய்ச்சியாளர் வெளிப்படுத்தினார். இது சாதாரணப் பயன்பாட்டில் சாத்தியமற்றது என்று ஆராய்ச்சியாளர் பின்னர் தெளிவுபடுத்திய போதிலும், மாதிரியில் உட்பொதிக்கப்பட்டிருக்கும் சுதந்திரத்தின் அளவைப் பற்றி பயனர்களிடையே கவலைகளை எழுப்பியது.

AI துறையானது அடிக்கடி வெளியாகும் புதுமையான மாடல்களால் நிரம்பி இருக்கிறது. ஒவ்வொரு மாடலும் “உலகின் சிறந்த” மாடல் என்று மார்தட்டிக் கொள்கின்றன. சமீபத்திய வெளியீடுகளில் கூகிளின் ஜெமினி-2.5-ப்ரோ, ஓப்பன்ஏஐ-யின் ஜிபிடி-4.5 மற்றும் ஜிபிடி-4.1, எக்ஸ்ஏஐ-யின் குரோர்க் 3, மற்றும் அலிபாபாவின் குவென் 2.5 மற்றும் க்யூகியூ-32பி ஆகியவை அடங்கும். இவை அனைத்தும் சிறந்த அளவுகோல் செயல்திறனைப் பெருமையாகக் கூறுகின்றன.

போட்டியிடும் கூற்றுகளின் பின்னணியில், கிளாட் 4 உண்மையிலேயே உயர்ந்ததா என்பதை ஆராய்வது பொருத்தமானது. அதன் திறன்கள், அளவுகோல் செயல்திறன், பயன்பாடுகள் மற்றும் பயனர் கருத்துக்களை ஆராய்வதன் மூலம், இந்த கேள்விக்கு ஒரு பதிலை உறுதியாகக் கண்டறிய முடியும்.

Opus 4: ஒரு கோடிங் பவர்ஹவுஸ்

Opus 4 என்பது ஆண்ட்ரோபிக் நிறுவனத்தின் மிகவும் மேம்பட்ட மாடல் ஆகும். இது சிக்கலான, நீண்ட கால பணிகளுக்காக வடிவமைக்கப்பட்டுள்ளது. தன்னாட்சி மென்பொருள் பொறியியல், ஆராய்ச்சி மற்றும் ஏஜென்ட் ஓட்டப்பணிகள் போன்ற பிரீமியம் கருவிகள் தேவையில்லாத அனைத்திற்கும் Opus 4 ஏற்றது. Opus 4 இப்போது "உலகின் சிறந்த கோடிங் மாடல்" ஆக நிலைநிறுத்தப்பட்டுள்ளது.

முக்கிய திறன்கள் மற்றும் மேம்பாடுகள்

Opus 4 மேம்பட்ட திறன்களைக் கொண்டுள்ளது. குறிப்பிடத்தக்கவை பின்வருமாறு:

மேம்பட்ட கோடிங்: Opus 4 “நாட்கள் நீடிக்கும் பொறியியல் பணிகளை” தன்னாட்சி முறையில் சிறப்பாகச் செய்கிறது. இந்த மாடல் “மேம்படுத்தப்பட்ட குறியீடு சுவை” உடன் குறிப்பிட்ட டெவலப்பர் பாணிகளுக்கு ஏற்றவாறு மாறும். மேலும் 32,000 வெளியீட்டு டோக்கன்கள் வரை ஆதரிக்கிறது. பின்னணியில் இயங்கும் கிளாட் கோட் இயந்திரம் பணிகளைச் கையாள்கிறது.
மேம்பட்ட பகுத்தறிவு & சிக்கலான சிக்கல் தீர்வு: உடனடி பதில்களுக்கும் ஆழமான நீண்ட சிந்தனைக்கும் இடையே மாறக்கூடிய ஒரு கலப்பின பகுத்தறிவு முறையுடன், Opus 4 நீண்ட தொடர்களில் கவனத்தை பராமரிக்கிறது.
ஏஜென்ட் திறன்கள்: Opus 4 அதிநவீன AI ஏஜென்ட்களை செயல்படுத்துகிறது. மேலும் அதிநவீன செயல்திறனை (SOTA) நிரூபிக்கிறது. இது நிறுவன வேலை ஓட்டங்கள் மற்றும் தன்னாட்சி பிரச்சார மேலாண்மையை ஆதரிக்கிறது.
கிரியேட்டிவ் ரைட்டிங் & உள்ளடக்க உருவாக்கம்: Opus 4 மனித 수준த்திலான, நுணுக்கமான வசனத்தை விதிவிலக்கான பாணியுடன் உருவாக்குகிறது. இது மேம்பட்ட ஆக்கப்பூர்வ பணிகளுக்கு ஏற்றது.
நினைவகம் மற்றும் நீண்ட-சூழல் விழிப்புணர்வு: Opus 4 “நினைவக கோப்புகளை” உருவாக்கிப் பயன்படுத்துகிறது. இது நீண்ட பணிகளில் ஒற்றுமையை மேம்படுத்துகிறது, எடுத்துக்காட்டாக पोकेमॉन விளையாடும்போது விளையாட்டு வழிகாட்டியை எழுதுவது.
ஏஜென்ட் தேடல் மற்றும் ஆராய்ச்சி: Opus 4 பல மணிநேர ஆராய்ச்சியை நடத்தலாம். காப்புரிமைகள் மற்றும் கல்வி ஆய்வுக் கட்டுரைகள் போன்ற சிக்கலான தரவுகளிலிருந்து நுண்ணறிவுகளை ஒருங்கிணைக்க முடியும்.

அளவுகோல் செயல்திறன் சிறப்பம்சங்கள்

Opus 4 சிறந்த செயல்திறனை நிரூபித்துள்ளது. பின்வரும் அளவுகோல்களைக் கவனியுங்கள்:

SWE-bench சரிபார்க்கப்பட்டது (கோடிங்): 73.2%
- github சிக்கல்களைத் தீர்க்கும் AI அமைப்புகளின் திறனை SWE-bench சோதிக்கிறது.
- OpenAI இன் o3: 69.1%. கூகிளின் ஜெமினி-2.5-ப்ரோ: 63.8%.
டெர்மினல்-பெஞ்ச் (CLI கோடிங்): 43.2% (50.0% உயர் கணக்கீடு)
- டெர்மினல் சூழலில் AI ஏஜென்ட்களின் திறன்களை டெர்மினல்-பெஞ்ச் அளவிடுகிறது.
- கிளாட் சோனெட் 3.7: 35.2%, மற்றும் OpenAI இன் GPT-4.1: 30.3%.
MMLU (பொது அறிவு): 88.8%
- MMLU-Pro ஆனது பரந்த மற்றும் சவாலான பணிகளில் மொழி புரிதல் மாடல்களை மதிப்பிடுவதற்கு வடிவமைக்கப்பட்டுள்ளது.
- OpenAI இன் GPT-o1 மற்றும் GPT-4.5 முறையே 89.3% மற்றும் 86.1% மதிப்பெண்கள் பெற்றன. ஜெமினி-2.5-ப்ரோ-எக்ஸ்பெரிமெண்டல்: 84.5%.
GPQA டயமண்ட் (பட்டதாரி பகுத்தறிவு): 79.6% (83.3% அதிக கணக்கீடு)
- GPQA விஞ்ஞானங்களில் தரம் மற்றும் நம்பகத்தன்மையை மதிப்பிடுகிறது.
- குரோர்க் 3: 84.6%. ஜெமினி-2.5-ப்ரோ: 84%. o3: 83.3%.
AIME (கணிதம்): 75.5% (90.0% அதிக கணக்கீடு)
- AIME 2024 உயர்நிலைப் பள்ளி கணிதத் திறமையை மதிப்பிடுகிறது.
- ஜெமினி-2.5-ப்ரோ: 92%, GPT-o1: 79.2%.Nvidia வின் நெமட்ரோன் அல்ட்ரா: 80.1%.

ஹ்யூமன்இவால் (கோடிங்): சாதனை-உயர் உரிமைகோரல்கள்
* கோட் உருவாக்கும் திறன்களை மதிப்பிடுவதற்கு ஓபன்ஏஐ உருவாக்கிய தரவுத் தொகுப்பு ஹ்யூமன்இவால்.
* Opus 3: 84.9%.

TAU-பெஞ்ச்: சில்லறை 81.4%
- ஆர்டர் ரத்து செய்தல், முகவரி மாற்றங்கள் மற்றும் ஆர்டர் நிலையைக் பார்ப்பது போன்ற சில்லறை ஷாப்பிங் டொமைனில் ஏஐ ஏஜெண்டுகளை TAU-பெஞ்ச் மதிப்பீடு செய்கிறது.
- கிளாட் சோனெட் 3.7: 72.2%. ஜிபிடி-4.5: 70.4%.
MMMU (காட்சி பகுத்தறிவு): 76.5%
- Benchmark இல் நன்றாக டியூன் செய்தல் மற்றும் சில-ஷாட்கள் டெமோன்ஸ்ட்ரேஷன் இல்லாமல் துல்லியமான பதில்களை உருவாக்கும் மாதிரிகளின் திறனை எவ்வாறு மதிப்பீடு செய்வது என்பதைப் MMMUவின் பெஞ்ச் மதிப்பீடு பூஜ்ஜிய-ஷாட் அமைப்பின் கீழ் நடத்தப்படுகிறது.
- ஜெமினி-2.5-ப்ரோ: 84%. o3: 82.9%.
அதிகபட்ச தொடர்ச்சியான டாஸ்க்: 7 மணி நேரத்திற்கு மேல்

பயன்பாடுகள்

Opus 4 மேம்பட்ட சாஃப்ட்வேர் ரீப்ஃபேக்டரிங், ஆராய்ச்சி சின்தஸிஸ் மற்றும் நிதி மாடலிங் அல்லது டெக்ஸ்ட்-டு-SQL மாற்றம் போன்ற சிக்கலான பணிகளில் சிறப்பாக செயல்படுகிறது. இது பல-படி தன்னாட்சி ஏஜெண்டுகள் மற்றும் நீண்ட கால பணி ஓட்டங்களுக்கு வலுவான நினைவகத்துடன் சக்தியளிக்கிறது.

Sonnet 4: செயல்திறன் மற்றும் நடைமுறைக்கு இடையிலான சமநிலை

கிளாட் 4 சோனெட் செயல்திறன், செலவு-செயல்திறன் மற்றும் கோடிங் திறன் ஆகியவற்றை வழங்குகிறது. இது ஒரு நிறுவன அளவிலான AI வளர்ச்சிக்கு சாதகமாக உருவாக்கப்பட்டுள்ளது. நுண்ணறிவு மற்றும் மலிவு தேவைப்படும் இடங்களில் இது ஒரு நல்ல தேர்வாக இருக்கும்.

முக்கிய திறன்கள் மற்றும் மேம்பாடுகள்

சோனெட் 4 பல முக்கிய நன்மைகளைக் கொண்டுள்ளது:

கோடிங்: ஏஜென்ட் வேலை ஓட்டங்களுக்கு ஏற்றது, சோனெட் 4 64,000 வெளியீட்டு டோக்கன்கள் வரை ஆதரிக்கிறது. மேலும் GitHub இன் கோபைலட் ஏஜெண்டுக்கு சக்தியளிக்கத் தேர்ந்தெடுக்கப்பட்டது. இது மென்பொருள் வாழ்க்கை சுழற்சி: திட்டமிடல், பிழைகளை சரிசெய்தல், பராமரிப்பு மற்றும் பெரிய அளவிலான மாற்றங்களுக்கு உதவுகிறது.
பகுத்தறிவு & அறிவுறுத்தல்களைப் பின்பற்றுதல்: மனிதனைப் போன்ற தொடர்பு, சிறந்த கருவி தேர்வு மற்றும் பிழை திருத்தம் காரணமாக சோனெட் மேம்பட்ட சாட்போட் மற்றும் AI உதவியாளர் பாத்திரங்களுக்கு மிகவும் பொருத்தமானது.
கணினி பயன்பாடு: சோனெட் GUI களைப் பயன்படுத்தலாம் மற்றும் எண்ணிம இடைமுகங்களுடன் தொடர்பு கொள்ளலாம், தட்டச்சு செய்தல், கிளிக் செய்தல் மற்றும் தரவைப் புரிந்துகொள்ளுதல்.
காட்சி தரவு பிரித்தெடுத்தல்: விளக்கப்படங்கள் மற்றும் வரைபடங்கள் போன்ற சிக்கலான காட்சி வடிவங்களிலிருந்து தரவைப் பிரித்தெடுக்கிறது, அட்டவணை பிரித்தெடுக்கும் திறன்களுடன்.
உள்ளடக்கம் உருவாக்கம் & பகுப்பாய்வு: நுணுக்கமான எழுத்து மற்றும் உள்ளடக்க பகுப்பாய்வு ஆகியவற்றில் சிறந்து விளங்குகிறது. இது ஆசிரியர் மற்றும் பகுப்பாய்வு வேலை ஓட்டங்களுக்கு உறுதியான தேர்வாக அமைகிறது.
ரோபோ செயல்முறை ஆட்டோமேஷன் (RPA): சோனெட் அதிக அறிவுறுத்தல்-கீழ்படிதல் துல்லியம் காரணமாக RPA பயன்பாட்டு நிகழ்வுகளில் பயனுள்ளதாக இருக்கும்.
சுய-திருத்தம்: சோனெட் தனது சொந்த தவறுகளைRecognizes செய்து சரிசெய்கிறது. இதனால் நீண்டகால நம்பகத்தன்மையை மேம்படுத்துகிறது.

அளவுகோல் செயல்திறன் சிறப்பம்சங்கள்

Sonnet 4 பின்வரும் மதிப்பெண்களைப் பெற்றுள்ளது:

SWE-bench சரிபார்க்கப்பட்டது: 72.7%
- Opus 4: 73.2%.
MMLU: 86.5%
- Opus 4: 88.8%.
GPQA டயமண்ட்: 75.4%
- Opus 4: 79.5%.
TAU-பெஞ்ச்: சில்லறை 80.5%
- Opus 4: 81.4%.
MMMU: 74.4%
- Opus 4: 76.5%.
AIME: 70.5%
- Opus 4: 75.5%.
டெர்மினல்பெஞ்ச்: 35.5%
- Opus 4: 43.2%
அதிகபட்ச தொடர்ச்சியான டாஸ்க்: ~4 மணி நேரம், Opus க்கு அறிவிக்கப்பட்ட 7+ மணிநேரத்திற்கும் குறைவானது.
பிழை குறைப்பு: சோனெட் 3.7 ஐ விட 65% குறைவான குறுக்குவழி நடத்தைகள்

பயன்பாடுகள்

AI சாட்போட்கள், நிகழ்நேர ஆராய்ச்சி, RPA மற்றும் அளவிடக்கூடிய நகர்வுகளுக்கு சோனெட் 4 பொருத்தமானது. ஆவணங்களிலிருந்து அறிவைப் பிரிextracted எடுக்கும் திறன், காட்சித் தரவை பகுப்பாய்வு செய்யும் திறன் மற்றும் மேம்பாட்டிற்கு ஆதரவளிக்கிறது. மேலும் சோனெட் ஒரு திறன் வாய்ந்த உதவியாளராக உள்ளது.

கட்டடக்கலை கண்டுபிடிப்புகள் மற்றும் பகிரப்பட்ட அம்சங்கள்

ஒпус 4 & சோனெட் 4 ஆகிய இரண்டுமே முக்கிய கட்டடக்கலை முன்னேற்றங்களைக் கொண்டுள்ளன. அவை 200K சூழல் சாளரத்தை ஆதரிக்கின்றன. மேலும் கலப்பின காரணத்தையும் கொண்டுள்ளது. உள் காரணத்துடன் இணையாக வெளிப்புற கருவிகளையும் பயன்படுத்துகின்றன. தேடல், குறியீடு செயலாக்கம் மற்றும் ஆவண பகுப்பாய்வு போன்ற பணிகளில் இது நிகழ்நேர துல்லியத்தை மேம்படுத்துகிறது.

இந்த மாதிரிகள் முந்தைய மாறுதல்களை விட குறைவான “குறுக்குவழி நடத்தைகளை” வெளிப்படுத்துகின்றன. இது நம்பகத்தன்மையை மேம்படுத்துகிறது. முடிவெடுக்கும் செயல்முறைகளை வெட்டிச் செல்லும் “சிந்தனை சுருக்கம்” கிடைப்பதன் மூலம் வெளிப்படைத்தன்மை அதிகரிக்கப்பட்டுள்ளது.

நிஜ உலகப் செயல்திறன் மற்றும் நிறுவன கருத்து

ஒпус 4 பற்றிய கருத்துக்கள் கோடிங் செய்பவர்களுக்கு மத்தியில் சாதகமாக உள்ளது. பயனர்கள் அதிக துல்லியத்துடன் நீண்ட கோடிங் அமர்வுகளைக் கொண்டதாக அறிக்கை செய்கிறார்கள். முதல் முயற்சியிலேயே பிழை திருத்தங்களையும் அவர்கள் குறிப்பிட்டுக் காட்டியுள்ளனர். அத்துடன் கிட்டத்தட்ட மனித எழுத்து ஓட்டத்தையும் அவர்கள் அனுபவித்துள்ளனர்.

சோனெட் 4 பாராட்டைப் பெற்றுள்ளது. குறிப்பாக கர்சர் மற்றும் ஆக்ட்மென்ட் கோடு போன்ற டெவலப்பர் கருவிகளுடன் இணைக்கும் பயனர்களிடமிருந்து அதிகப் प्रशंसा मिलती है என்றும் கூறப்படுகிறது. ஆவண புரிதல் மற்றும் விகித-வரம்பு விரக்திகள் குறித்து கவலைகள் உள்ளன.

GitHub சோனெட் 4 ஐ “ agentic சூழ்நிலைகளில் உயர்ந்து நிற்கிறது” என்று பாராட்டுகிறது. ரெப்லிட் அதன் துல்லியத்தைப் பாராட்டினார். மேலும் ராகுடென் மற்றும் பிளாக் ஆகியவை உற்பத்தி திறன் அதிகரிப்பைக் எடுத்துக்காட்டின. ஒпус 4 ஒரு திறந்த மூல குறியீட்டு அடித்தளத்தின் 7 மணிநேர மாற்றத்தை முழுமையாகச் செய்ய உதவுகிறது.

விசிலடிப்பவர் சர்ச்சை

ஆண்ட்ரோபிக் ஆராய்ச்சியாளர் சாம் போமேன் எக்ஸ் தளத்தில் ஒரு பதிவில், ஒபஸ் பயனர்கள் ஒழுக்கமற்றவர்கள் என்று கருதினால் அவர்களைப் புகாரளிக்கக் கூடிய ஒரு செயலையும் எடுக்க முடியும் என்று வெளிப்படுத்தினார்.

இந்த நடத்தை ஆண்ட்ரோபிக் அரசியலமைப்பு AI கட்டமைப்புக்குள் இருந்து வருகிறது. இதன் நோக்கம் தீங்கு குறைப்பதே என்றாலும், இந்த அளவிலான முன்முயற்சி, குறிப்பாக ஏஜென்ட் திறன்கள் மற்றும் கட்டளை-வரி அணுகலுடன் இணைந்தால், ஒரு சறுக்கல் சரிவை உருவாக்குகிறது என்று விமர்சகர்கள் வாதிடுகின்றனர்.

பாதுகாப்பு மற்றும் வெளிவரும் திறன்கள்

ஒப்புஸ் 4 ஆனது AI பாதுகாப்பு நிலை 3 என்பதன் கீழ் இயங்குகிறது. இது தற்போதுள்ள அதன் மிக உயர்ந்த நிலை. மேலும் இதில் முக்கியமான தலைப்புகள் பற்றிய அறிவு மீதான கவலைகளைக் குறிப்பிடுகிறது. ரெட் டீம் பயனர்களும் ஓபஸ்ஸை சோதித்து, அது இதற்கு முன்பு சோதித்த வேறு எதையும் விட வித்தியாசமான மற்றும் தரமான நடத்தைகளையும் திறன்களையும் காண்பித்ததாகக் கண்டறிந்தனர்.

விலை மற்றும் மதிப்பு திட்டம்

Opus 4: ஒரு மில்லியன் வெளியீட்டு டோக்கன்களுக்கு $75 என்ற விலையில், இது உயர்நிலை பயன்பாடுகளை குறிவைக்கிறது.
- இது Opus 3 இன் அதே விலையாகும்.
- OpenAI ஓ3 ஒரு மில்லியன் வெளியீட்டு டோக்கன்களுக்கு $40 என விலை நிர்ணயம் செய்யப்பட்டுள்ளது.
Sonnet 4: ஒரு மில்லியன் வெளியீட்டு டோக்கன்களுக்கு $15 என்ற விலையில், இது செயல்திறன் மற்றும் மலிவு ஆகியவற்றுக்கு இடையில் ஒரு சமநிலையை வழங்குகிறது.
- OpenAI ஜிபிடி-4ஓ மற்றும் கூகிளின் ஜெமினி-2.5-ப்ரோ முறையே ஒரு மில்லியன் வெளியீட்டு டோக்கன்களுக்கு $20 மற்றும் $15 என விலை நிர்ணயம் செய்யப்பட்டுள்ளன. OpenAI இன் முதன்மையான 4.1 மாடல் ஒரு மில்லியன் வெளியீட்டு டோக்கன்களுக்கு $8 என விலை நிர்ணயம் செய்யப்பட்டுள்ளது.

Opus 4: ஒரு கோடிங் பவர்ஹவுஸ்

Opus 4 என்பது ஆண்ட்ரோபிக் நிறுவனத்தின் மிகவும் மேம்பட்ட மாடல் ஆகும், இது சிக்கலான, நீண்ட கால பணிகளுக்காக வடிவமைக்கப்பட்டுள்ளது. இது தன்னார்வ மென்பொருள் பொறியியல், ஆராய்ச்சி மற்றும் ஏஜென்ட் பணிகளுக்கான பணிகள் அனைத்துவற்றையும் பிரீமியம் கருவிகள் தேவையில்லாத அனைத்தையும் தேவைப்படுகிறது.opus-4 இப்போது "உலகின் சிறந்த கோடிங் மோட்லாக் நிலைநிறுத்தப்பட்டது".

முக்கிய திறன்கள் மற்றும் மேம்பாடுகள்

Opus 4 ஐ மேம்பட்ட திறன்களை கொண்டுள்ளது. பின்வருவன அனைத்தும்:

மேம்பட்ட கோடிங்: Opus 4 ஆனது “நாட்கள் வரையிலான பொறியியல் பணிகளை” தன்னியக்க முறையில் இயங்குகிறது. குறிப்பிட்ட மேம்பாட்டாளர் பாணிகளுக்கு மாடல் “ மேம்படுத்தப்பட்ட குறியீடு திறன்” மற்றும் 3200 வெளியிடும் டோக்கன்கள் வரை ஆதரிக்கும். பின்னூட்டத்தில் கிளாட் கோட் இயந்திரம் கையாளுகிறது.
மேம்பாடு காரணம் & சமகால பிரச்ச்னைக்கு தீர்வு: உடனடி பதில் மற்றும் ஆழமான, பெரிய சிந்தனையின் இரண்டும் மாறி மாறி வர காரணத்தினா இந்தைது ஓப்பசு 4 முக்கியமான தொடர்ச்சிகள் கவனிக்கொள்ளலாம்.
ஏஜெண்ட் திறன்கள்: Opus 4 நுண்ணுறிவு ஏஜண்ட்டுகளை செயல்படுத்துகிறது மற்றும் ஸ்டேட்-ஆப்-தி-ஆர்ட்டின் (SOTA) செயல்பாடுகளைக் காட்டுகிறது. இது நிறுவனத்தின் வேலை ஓட்டம் மற்றும் தானியங்கி பிரச்சார மேலாண்மையை ஆதரிக்கிறது.
உருவாக்குறது மற்றும் உள்ளடக்கப் பாதுகாப்புச் சட்டம்: ஓப்பசு 4 ஒரு அற்புதமான நடையான நடையில், உருவாட்டுடன் உள்ளது உருவாக்குகிறது. இது மேம்பாடு செய்யும்.
நினைவகம் மற்றும் நீண்ட தொடர்பு அறிக்கை: Opus 4 ஆனது உருவாக்கிப் பயன்படுத்துகிறது. நீண்ட நாள் மற்றும் விளையாட்டு, पोकेमॉन எழுதும் போது அது எழுதுதல்.
. Agentic சேர்ச் & ரிசர்ச்: Opus 4 இல் எந்த நேரமும் செய்றாங்க. காப்புரிமம் மற்றும் கல்வி ஆய்வு பணிகளையும் செயலாம்.

அளவுகోல் செயல்பாடு சிற்ப்பம்சங்கள்

Opus 4 ஐச் சிறப்பாகச் செயல்படுகிறது. பின்வரும் அளவுகோல்கள் அடங்கும்:

SWE-bench சரிபாா்த்தல் (கோடிங்): 73.2%

Terminal-bench (CLI கோடிங்): 43.2%

MMLU (பொது ஜ்னானம்): 88.8%

GPQA டைமண்ட் (பட்டதாரி பகுத்தறிவு): 79.6%

AIME (கணிதம்): 75.5%

human evaal (கோடிங்): ரெக்கார்ட் ஐ கிளைம்ஸ்

TAU-bench : ரிடய்ல் 81.4%

MMMU (தீரவிசால் பகுத்தறிவு): 76.5%

மேக்ஸிமம் தொடர்ச்சி டாஸ்க் :7小时

பயன்கள்

Opus 4 சிறப்பாக செயல்படுற சிலதுக்கு புதுப்பித்தல், ஆராய்ச்சி தொகுப்பு மற்றும் கணித மாடலுக்கு உதவுறது. ஏத்தாத மாதிரி இருக்கக் கூடிய நீண்ட காலம் நினைவு அதிகமா இருக்கும்.

Sonnet 4 செயல்கள், வேலை பளு சமநிலை பற்றி சில தகவல்

கிளாட் 4 சோனெட் செயல்கள் மற்றும் செலவு எபிசின்சா மற்றும் கோடித் திறன் வழங்குகிறது. இப்போது அது நிறுவன அளவிலான செயற்கை அறிவுக்கு சாப்பாடு உள்ளது. காரணம் அது புத்திசாலித்தனம் மற்றும் திறமையானது தேவை.

கீ திறன்கள் மற்றும் மேம்பாடு

Sonnet 4 ஐச் சில நல்லதுகுள் உண்டு.

கோடிங்: ஏஜெண்ட் வேலைகள் ஏத்தாத மாதிரி இருக்கிறது.Sonnet 4 வரை 64000 ஐ சப்போர்ட் பண்ணும் . சாப்ட்வேர் திட்டம் இருக்குள்ள பக்ஸ் ஆக்குததுக்கப்புறம் பெரிய மாற்றம்.
ரீசன் அண்ட் இன்ஸ்ட்ருமெண்ட்ஸ் ஃபாலவிங்: மனசு மாதிரி தொடர்பு உள்ளது. அது மாதிரி நல்ல சாய்ஸ் பண்ணி சில மாதிரி ஒரு சாட் போர்டு ஐ யூஸ் செய்யும்
கம்ப்யூட்டர் யூசென்ஃ : இதுல சோனேட் GUI யூஸ் பண்ணி இடைமுகம், டைப்பிங், கிலிகிங் டாடாவை எடுக்க.
விசுவல் டாட பிரிக்கிறது: டாடாவைப் பிரிக்கிறதுகஷ்ட்டமான விசுவல் சார்ஜ் மாதிரிய அட்டவனை தரத்தை பாக்குது.
கன்டென்ஸ் கன்ஜெனர்ஷேனுக்கு:
ரோபோ ப்ரா்சஸ் ஆட்டோமேஷன்: இது ரோபோ போல काम करता है
செல்ப் கரெக்ஷன்: இது தப்பை தெரிஞ்சு மாத்தும்.

சில மதிப்பெண் மார்க்

சோనెட் 4 சில மார்க்குள்

SWE-bench சரிபாा்த்தல் - 72.7%

MMLU- 86.5

GPQA -75.4

TAU - 80.5%

MMMU- 74.4%

TIME: 70.5

TerminalBench -35.4%

மேக்ஸிமம் தொடர்ச்சியான டாஸ்க் : 4 மணி நேரம்

தப்பு கொரைகிறது : 65%

யூசஸ்

இது சாட் போட் ஐயூஸ் பண்ணும் முக்கியமா விஷாவைக் காட்டுகிற தரவை மற்றும் சப்போர்ட் உதவும்.

ஷேர் பன்முறது,

ஒபுஸ் 4 மற்றும் சொனெட் 4க்கு புதிய இடமிருக்கு முக்கிய திறமிருக்கும். அவை 200k சூழமைவை மற்றும் ஹைபிரிட் செய்வர்.

மாடல் கொஞ்சம்தான் தப்பு பண்ணுவோம்

உண்மை செயல்கள் மற்றும் ஃபீட்பேக்

டெய்லர் கொடுத்த கருத்துகள் ரொம்ப நல்லாயிருந்து கோடிங்கும் செயலில் நல்லாயிருக்கும் பக்குகள் சரி பண்ணா நல்லது

ஒப்லாஸ் 4 அதிகமா ரியாக்ட் பண்ணுவாரு

காரணம் ஆண்ட்ரோபிக் பொலித்த்ருத்ஸ் மாதிரி இருக்கும் சில நேரம் தப்பான செயல்களுக்கு

பாதுகாப்பு மற்றும் தகுதி

ஒபுஸ் 4க்கு ஏஎல் சேப்டி கொடுச்சிறாங்க

விலை

Opus க்கு 75 மில்லியன்
Sonetக்கு 15மில்லியண்

புதுப்பிக்கப்பட்டது ௨௦௨௫-௦௬-௦௩

# Anthropic # Claude # Agent