Step1X-Edit, StepFun உருவாக்கிய ஒரு திறந்த மூல படத் திருத்தி மாதிரி வெளியிடப்பட்டுள்ளது, இது அதிநவீன (SOTA) செயல்திறனை அடைகிறது. இந்த மாதிரி, 19 பில்லியன் அளவுருக்களைக் (7B MLLM + 12B DiT) கொண்டுள்ளது, மூன்று முக்கிய பகுதிகளில் சிறந்து விளங்குகிறது: துல்லியமான சொற்பொருள் பகுப்பாய்வு, நிலையான அடையாளப் பாதுகாப்பு, மற்றும் உயர் துல்லியப் பிராந்திய அளவிலான கட்டுப்பாடு. இது உரை மாற்றுதல், பாணி பரிமாற்றம், பொருள் மாற்றம் மற்றும் உருவப்படம் திருத்துதல் உள்ளிட்ட 11 வகையான அடிக்கடி பயன்படுத்தப்படும் படத் திருத்தல் பணிகளை ஆதரிக்கிறது. Step1X-Edit துல்லியமாகப் புரிந்துகொண்டு, மாற்றியமைத்து, விவரங்களைச் சிறப்பாகப் பாதுகாக்கும் வகையில் வடிவமைக்கப்பட்டுள்ளது.
Step1X-Edit-இன் முக்கிய திறன்கள்
Step1X-Edit திறந்த மூல கட்டமைப்பிற்குள் எடிட்டிங் துல்லியம் மற்றும் பட உண்மைத்தன்மையில் குறிப்பிடத்தக்க முன்னேற்றங்களுக்கு வழிவகுக்கும் வகையில், மல்டிமாடல் பெரிய மொழி மாதிரிகள் (MLLM) மற்றும் டிஃப்யூஷன் மாதிரிகளை ஒருங்கிணைக்கிறது. புதிதாக வெளியிடப்பட்ட GEdit-Bench படத் திருத்தல் மதிப்பீட்டில், Step1X-Edit சொற்பொருள் நிலைத்தன்மை, படத் தரம் மற்றும் ஒட்டுமொத்த மதிப்பெண் ஆகியவற்றில் இருக்கும் திறந்த மூல மாதிரிகளை விட சிறந்து விளங்குகிறது, GPT-4o மற்றும் Gemini 2.0 Flash இன் செயல்திறனை இது நெருங்குகிறது.
சொற்பொருள் துல்லிய பகுப்பாய்வு
இயற்கை மொழியில் விவரிக்கப்பட்டுள்ள சிக்கலான அறிவுறுத்தல்களின் கலவைகளை இந்த மாதிரி ஆதரிக்கிறது. இந்த அறிவுறுத்தல்களுக்கு ஒரு டெம்ப்ளேட் தேவையில்லை, இது மாதிரியை நெகிழ்வானதாக ஆக்குகிறது மற்றும் பல திருப்பங்கள் மற்றும் பல பணி எடிட்டிங் தேவைகளை கையாளக்கூடியதாக உள்ளது. படங்களில் உள்ள உரையை அடையாளம் காணவும், மாற்றவும், மறுகட்டமைக்கவும் இது ஆதரிக்கிறது.
- சிக்கலான இயற்கை மொழி விளக்கங்களை ஆதரிக்கிறது
- நிலையான டெம்ப்ளேட்கள் தேவையில்லை
- பல திருப்பங்கள், பல பணி எடிட்டிங் செய்ய முடியும்
- படங்களில் உள்ள உரையை அடையாளம் கண்டு, மாற்றி, மறுகட்டமைக்கிறது
அடையாள நிலைத்தன்மை பராமரிப்பு
திருத்திய பின்னும் இந்த மாதிரி முக அம்சங்கள், போஸ்கள் மற்றும் அடையாள பண்புகளை நிலையாகப் பாதுகாக்கிறது. மெய்நிகர் மனிதர்கள், இ-காமர்ஸ் மாதிரிகள் மற்றும் சமூக ஊடக படங்கள் போன்ற உயர் நிலைத்தன்மை தேவைகள் உள்ள காட்சிகளுக்கு இது பொருத்தமானது.
- முக அம்சங்களைப் பராமரிக்கிறது
- போஸ்களைப் பாதுகாக்கிறது
- அடையாள பண்புகளைத் தக்கவைக்கிறது
- மெய்நிகர் மனிதர்கள், இ-காமர்ஸ் மாதிரிகள் மற்றும் சமூக ஊடகங்களுக்கு ஏற்றது
உயர் துல்லிய பிராந்திய கட்டுப்பாடு
குறிப்பிட்ட பகுதிகளில் உள்ள உரை, பொருட்கள், வண்ணங்கள் மற்றும் பிற கூறுகளை குறிவைக்கப்பட்ட எடிட்டிங்கை இந்த மாதிரி ஆதரிக்கிறது. இது ஒரு ஒருங்கிணைந்த பட பாணியைப் பராமரிக்கிறது மற்றும் மிகவும் துல்லியமான கட்டுப்பாட்டை வழங்குகிறது.
- குறிப்பிட்ட பகுதிகளில் இலக்கு எடிட்டிங்
- உரை, பொருட்கள் மற்றும் வண்ணங்களைக் கட்டுப்படுத்துகிறது
- ஒரு ஒருங்கிணைந்த பட பாணியைப் பராமரிக்கிறது
- மேலும் துல்லியமான கட்டுப்பாட்டை வழங்குகிறது
கட்டமைப்பு கண்டுபிடிப்புகள்
Step1X-Edit MLLM (மல்டிமாடல் LLM) + டிஃப்யூஷனின் பிரிக்கப்பட்ட கட்டமைப்பைப் பயன்படுத்துகிறது, இது இயற்கை மொழி புரிதல் மற்றும் உயர் நம்பகத்தன்மை பட உருவாக்கம் ஆகியவற்றைத் தனித்தனியாகக் கையாளுகிறது. இருக்கும் படத் திருத்தல் மாதிரிகளுடன் ஒப்பிடும்போது, இந்த கட்டமைப்பு அறிவுறுத்தல் பொதுமைப்படுத்தல் திறன் மற்றும் படக் கட்டுப்பாடு ஆகியவற்றில் நன்மைகளைக் கொண்டுள்ளது.
MLLM தொகுதி
MLLM தொகுதி இயற்கை மொழி அறிவுறுத்தல்கள் மற்றும் பட உள்ளடக்கத்தை செயலாக்க பொறுப்பாகும். இது மல்டிமாடல் சொற்பொருள் புரிதல் திறன்களைக் கொண்டுள்ளது, இது சிக்கலான எடிட்டிங் தேவைகளை மறைந்த கட்டுப்பாட்டு சமிக்ஞைகளாக பாகுபடுத்தும்.
- இயற்கை மொழி அறிவுறுத்தல்களைச் செயலாக்குகிறது
- பட உள்ளடக்கத்தைக் கையாளுகிறது
- மல்டிமாடல் சொற்பொருள் புரிதல்
- சிக்கலான எடிட்டிங் தேவைகளை பாகுபடுத்துகிறது
டிஃப்யூஷன் தொகுதி
டிஃப்யூஷன் தொகுதி ஒரு பட ஜெனரேட்டராக (Image Decoder) செயல்படுகிறது, MLLM உருவாக்கிய மறைந்த சமிக்ஞைகளின் அடிப்படையில் படங்களின் மறுகட்டமைப்பு அல்லது உள்ளூர் மாற்றத்தை நிறைவு செய்கிறது. இது படத்தின் விவரங்களைப் பாதுகாப்பதையும், பாணியின் நிலைத்தன்மையையும் உறுதி செய்கிறது.
- பட ஜெனரேட்டர் (Image Decoder)
- படங்களை மறுகட்டமைக்கிறது
- படங்களை உள்நாட்டில் மாற்றுகிறது
- பட விவரங்கள் மற்றும் பாணியைப் பாதுகாக்கிறது
இந்த அமைப்பு பாரம்பரிய பைப்லைன் மாதிரிகளில் தனித்தனி ‘புரிதல்’ மற்றும் ‘உருவாக்கம்’ சிக்கலை நிவர்த்தி செய்கிறது. சிக்கலான எடிட்டிங் அறிவுறுத்தல்களை செயல்படுத்தும்போது, இந்த மாதிரி அதிக துல்லியம் மற்றும் கட்டுப்பாட்டைக் கொண்டிருக்க உதவுகிறது.
பயிற்சி தரவு
பரந்த அளவிலான சிக்கலான படத் திருத்தல் பணிகளை ஆதரிக்க, Step1X-Edit ஒரு தொழில்துறை முன்னணி படத் திருத்தல் பயிற்சி தரவுத்தொகுப்பை உருவாக்கியுள்ளது. இது 20 மில்லியன் பட-உரை அறிவுறுத்தல் ட்ரிப்லெட்களை உருவாக்குகிறது, மேலும் இறுதியாக 1 மில்லியனுக்கும் அதிகமான உயர்தர மாதிரிகளைத் தக்க வைத்துக் கொள்கிறது. தரவு உரை மாற்றுதல், செயல் உருவாக்கம், பாணி பரிமாற்றம் மற்றும் பின்னணி சரிசெய்தல் போன்ற அடிக்கடி கோரப்படும் அம்சங்கள் உட்பட 11 முக்கிய பணி வகைகளை உள்ளடக்கியது. பணி வகைகள் சமமாக விநியோகிக்கப்படுகின்றன, மேலும் அறிவுறுத்தல் மொழி இயற்கையானதாகவும் யதார்த்தமாகவும் இருக்கிறது.
- தொழில்துறை முன்னணி பயிற்சி தரவுத்தொகுப்பு
- 20 மில்லியன் பட-உரை அறிவுறுத்தல் ட்ரிப்லெட்கள்
- 1 மில்லியன் உயர்தர மாதிரிகள்
- 11 முக்கிய பணி வகைகள்
- சமமாக விநியோகிக்கப்பட்ட பணி வகைகள்
செயல்திறன் மதிப்பீடு
Step1X-Edit படத் திருத்தலின் 11 துணைப் பணிகளிலும் தொடர்ந்து உயர்தர வெளியீட்டைப் பராமரிக்கிறது. இதன் திறன்கள் நன்கு சீரானவை, மேலும் இது கிட்டத்தட்ட அனைத்து பணி பரிமாணங்களிலும் முன்னணியில் உள்ளது, இது அதன் வலுவான பல்துறை திறன் மற்றும் சமநிலையை நிரூபிக்கிறது.
GEdit-Bench தரக்குறியீடு
மாதிரி மதிப்பீடு ஒரு சுய-வளர்ச்சி செய்யப்பட்ட GEdit-Bench தரக்குறியீட்டைப் பயன்படுத்துகிறது. கைமுறையாகத் தொகுக்கப்பட்ட பணித் தொகுப்புகளைப் போலன்றி, இந்த தரக்குறியீடு உண்மையான சமூக எடிட்டிங் கோரிக்கைகளிலிருந்து வருகிறது, இது தயாரிப்பு தேவைகளுக்கு நெருக்கமாக உள்ளது.
- சுய-வளர்ச்சி தரக்குறியீடு
- உண்மையான சமூக எடிட்டிங் கோரிக்கைகள்
- தயாரிப்பு தேவைகளுக்கு நெருக்கமாக
GEdit-Bench இன் மூன்று முக்கிய குறிகாட்டிகளிலும் Step1X-Edit இருக்கும் திறந்த மூல மாதிரிகளை விட கணிசமாக முன்னிலை வகிக்கிறது. இது GPT-4o க்கு நெருக்கமாக செயல்படுகிறது, மொழி புரிதல் மற்றும் பட மறுகட்டமைப்புக்கு இடையே ஒரு சிறந்த சமநிலையை அடைகிறது.
திறன்களின் விரிவான ஆய்வு
Step1X-Edit என்பது படங்களை மாற்றுவது மட்டுமல்ல; திருத்தங்களுக்குப் பின்னால் உள்ள நோக்கத்தைப் புரிந்துகொள்வது, அவற்றை துல்லியமாகச் செயல்படுத்துவது மற்றும் அசல் படத்தின் ஒருமைப்பாட்டைப் பாதுகாப்பது பற்றியது. முக்கிய திறன்களான சொற்பொருள் துல்லியம், அடையாள நிலைத்தன்மை மற்றும் உயர் துல்லிய பிராந்திய கட்டுப்பாடு ஆகியவை நவீன படத் திருத்தலின் நுணுக்கமான தேவைகளை நிவர்த்தி செய்ய வடிவமைக்கப்பட்டுள்ளன.
சொற்பொருள் துல்லிய பகுப்பாய்வு ஆழத்தில்
Step1X-Edit இன் சொற்பொருள் துல்லிய பகுப்பாய்வு எளிய முக்கிய வார்த்தை அங்கீகாரத்திற்கு அப்பாற்பட்டது. இது இயற்கை மொழி விளக்கங்களின் சூழலுக்குள் சென்று, அறிவுறுத்தல்களின் சிக்கலான சேர்க்கைகளைப் புரிந்துகொள்கிறது. கடுமையான டெம்ப்ளேட்களை நம்பியிருக்கும் அமைப்புகளைப் போலன்றி, Step1X-Edit கட்டற்ற மொழியைப் புரிந்துகொள்ள முடியும், இது பல்வேறு எடிட்டிங் காட்சிகளுக்கு மிகவும் தகவமைக்கக்கூடியதாக உள்ளது. இது பல திருப்பங்கள் மற்றும் பல பணி எடிட்டிங்கை தடையின்றி கையாளுகிறது, அடுத்தடுத்த அறிவுறுத்தல்களுக்கு இடையிலான உறவுகளைப் புரிந்துகொண்டு ஒத்திசைவான முடிவுகளை உருவாக்குகிறது.
இந்த உதாரணத்தைக் கவனியுங்கள்: ஒரு பயனர் ஒரு படத்தில் ஒரு அடையாளத்தில் உள்ள உரையை மாற்றிவிட்டு, அடையாளத்தின் நிறத்தை வேறு தீமுக்குப் பொருத்தமாக மாற்ற விரும்புகிறார். Step1X-Edit வெறுமனே உரையை மாற்றி வண்ணத்தை மாற்றுவதில்லை; அடையாளம் ஒரு தனி பொருள் என்பதைப் புரிந்துகொள்கிறது, மேலும் உரை மற்றும் வண்ண மாற்றங்கள் ஒன்றுக்கொன்று மற்றும் ஒட்டுமொத்த படத்துடன் ஒத்திசைவாக இருப்பதை உறுதி செய்கிறது. மேலும், மாதிரி படங்களில் உள்ள உரையை அடையாளம் கண்டு மறுகட்டமைக்க முடியும், அது ஓரளவு மறைக்கப்பட்டிருந்தாலும் அல்லது சிதைக்கப்பட்டிருந்தாலும் கூட. இந்த திறன் ஸ்கேன் செய்யப்பட்ட ஆவணங்கள் அல்லது மேலடுக்கு உரையுடன் கூடிய படங்களைத் திருத்துவதற்கு மிகவும் பயனுள்ளதாக இருக்கிறது.
அடையாள நிலைத்தன்மை பராமரிப்பு விளக்கம்
படங்களில் உள்ள நபர்கள் மாற்றங்கள் இருந்தபோதிலும் அடையாளம் காணக்கூடியதாக இருக்க வேண்டிய சூழ்நிலைகளில் அடையாள நிலைத்தன்மையைப் பராமரிப்பது முக்கியமானது. இது குறிப்பாக மெய்நிகர் மனித பயன்பாடுகள், இ-காமர்ஸ் மாடலிங் மற்றும் சமூக ஊடக உள்ளடக்க உருவாக்கத்தில் முக்கியமானது. Step1X-Edit முக அம்சங்கள், போஸ்கள் மற்றும் தனித்துவமான அடையாள பண்புகள் எடிட்டிங் செயல்முறை முழுவதும் பாதுகாக்கப்படுவதை உறுதி செய்கிறது.
உதாரணமாக, ஒரு பயனர் ஒரு படத்தில் ஒரு மெய்நிகர் மாதிரியின் உடையை மாற்ற விரும்பினால், Step1X-Edit மாதிரியின் முக அம்சங்கள், சிகை அலங்காரம் மற்றும் உடல் விகிதாச்சாரங்களைப் பராமரிக்கிறது, திருத்தப்பட்ட படம் அசல் மாதிரியை இன்னும் துல்லியமாக பிரதிபலிக்கிறது என்பதை உறுதி செய்கிறது. இதேபோல், இ-காமர்ஸில், தயாரிப்புகளைக் காட்சிப்படுத்தும் மாதிரிகள், வாடிக்கையாளர்களுக்கு குழப்பம் ஏற்படாத வகையில், மாதிரியின் தோற்றம் வெவ்வேறு படங்களில் நிலையானதாக இருக்க வேண்டும்.
உயர் துல்லிய பிராந்திய கட்டுப்பாடு மேம்படுத்தப்பட்டது
உயர் துல்லிய பிராந்திய கட்டுப்பாடு பயனர்கள் படத்தின் குறிப்பிட்ட பகுதிகளில் மற்ற காட்சிகளை பாதிக்காமல் இலக்கு எடிட்டிங் செய்ய உதவுகிறது. ஒரு ஆடையின் நிறத்தை மாற்றுவது, ஒரு பொருளின் அமைப்பை மாற்றுவது அல்லது ஒரு குறிப்பிட்ட பகுதிக்கு குறிப்பிட்ட கூறுகளைச் சேர்ப்பது போன்ற நுணுக்கமான சரிசெய்தல்கள் தேவைப்படும் பணிகளுக்கு இந்த திறன் அவசியம். Step1X-Edit குறிப்பிட்ட பகுதிகளைத் தேர்ந்தெடுத்து குறிப்பிடத்தக்க துல்லியத்துடன் எடிட்டிங்கைப் பயன்படுத்த பயனர்களை அனுமதிக்கிறது, மாற்றங்கள் இருக்கும் படத்துடன் தடையின்றி கலக்கப்படுவதை உறுதி செய்கிறது.
ஒரு புகைப்படத்தில் உள்ள ஒரு காரின் நிறத்தை மாற்றிவிட்டு, பிரதிபலிப்புகள் மற்றும் நிழல்களை அப்படியே வைத்திருக்க விரும்பும் ஒரு சூழ்நிலையை கற்பனை செய்து பாருங்கள். Step1X-Edit காரை தனிமைப்படுத்தலாம், அதன் நிறத்தை மாற்றலாம் மற்றும் அசல் விளக்கு விளைவுகளைப் பாதுகாக்கலாம், இது யதார்த்தமான மற்றும் பார்வைக்கு ஈர்க்கும் முடிவை உருவாக்குகிறது. மாதிரி ஒட்டுமொத்த பாணி மற்றும் படத்தின் அழகியலை நிலையானதாக வைத்திருப்பதை உறுதி செய்கிறது, திருத்தப்பட்ட பகுதிகள் பொருத்தமற்றதாகக் காணப்படுவதைத் தடுக்கிறது.
கட்டமைப்பை டிகோடிங் செய்தல்: MLLM + டிஃப்யூஷன்
மல்டிமாடல் பெரிய மொழி மாதிரிகள் (MLLM) மற்றும் டிஃப்யூஷன் மாதிரிகளை ஒருங்கிணைக்கும் Step1X-Edit இன் பிரிக்கப்பட்ட கட்டமைப்பு, படத் திருத்தல் தொழில்நுட்பத்தில் ஒரு குறிப்பிடத்தக்க முன்னேற்றத்தைக் குறிக்கிறது. இந்த வடிவமைப்பு தொழிலாளர் பிரிவை அனுமதிக்கிறது, அங்கு இயற்கை மொழி புரிதல் மற்றும் உயர் நம்பகத்தன்மை பட உருவாக்கம் ஆகியவை அந்தந்த பணிகளுக்கு உகந்த தனித்தனி தொகுதிகளால் கையாளப்படுகின்றன.
MLLM தொகுதியில் ஆழமான டைவ்
MLLM தொகுதி அமைப்பின் மூளையாக செயல்படுகிறது, இயற்கை மொழி அறிவுறுத்தல்கள் மற்றும் பட உள்ளடக்கம் இரண்டையும் புரிந்துகொள்வதற்கும் விளக்குவதற்கும் பொறுப்பாகும். இது மேம்பட்ட மல்டிமாடல் சொற்பொருள் புரிதல் திறன்களைக் கொண்டுள்ளது, சிக்கலான எடிட்டிங் தேவைகளை செயல்படுத்தக்கூடிய மறைந்த கட்டுப்பாட்டு சமிக்ஞைகளாகப் பிரிக்க உதவுகிறது. அறிவுறுத்தல்களின் மொழியியல் கட்டமைப்பை பகுப்பாய்வு செய்வது, மாற்றியமைக்கப்பட வேண்டிய முக்கிய கூறுகளை அடையாளம் காண்பது மற்றும் படத்தின் வெவ்வேறு பகுதிகளுக்கு இடையிலான உறவுகளைப் புரிந்துகொள்வது ஆகியவை இந்த செயல்பாட்டில் அடங்கும்.
MLLM தொகுதி எடிட்டிங் அறிவுறுத்தல்களை டிஃப்யூஷன் தொகுதி புரிந்து கொள்ளக்கூடிய ஒரு பிரதிநிதித்துவத்திற்கு வரைபடமாக்க அதிநவீன வழிமுறைகளைப் பயன்படுத்துகிறது. இந்த பிரதிநிதித்துவம் அறிவுறுத்தல்களின் சொற்பொருள் அர்த்தத்தைப் பாதுகாக்கும் வகையில் விரும்பிய மாற்றங்களை குறியாக்குகிறது, மேலும் இதன் விளைவாக வரும் எடிட்டிங் பயனரின் நோக்கத்துடன் ஒத்துப்போவதை உறுதி செய்கிறது. எடுத்துக்காட்டாக, ஒரு பயனர் “பின்னணியில் ஒரு சூரிய அஸ்தமனத்தைச் சேர்க்கவும்” என்று கேட்டால், MLLM தொகுதி பின்னணி பகுதியை அடையாளம் கண்டு, சூரிய அஸ்தமனத்தின் கருத்தை அங்கீகரித்து, குறிப்பிட்ட பகுதியில் யதார்த்தமான சூரிய அஸ்தமனத்தை உருவாக்க டிஃப்யூஷன் தொகுதிக்கு அறிவுறுத்தும் ஒரு கட்டுப்பாட்டு சமிக்ஞையை உருவாக்குகிறது.
டிஃப்யூஷன் தொகுதி விளக்கம்
டிஃப்யூஷன் தொகுதி கலைஞராக செயல்படுகிறது, MLLM தொகுதி உருவாக்கிய மறைந்த கட்டுப்பாட்டு சமிக்ஞைகளை எடுத்துக்கொண்டு அவற்றை உயர் நம்பகத்தன்மையுடன் படத்தை மறுகட்டமைக்க அல்லது மாற்றப் பயன்படுத்துகிறது. இந்த தொகுதி டிஃப்யூஷன் எனப்படும் ஒரு செயல்முறையைப் பயன்படுத்துகிறது, இது படிப்படியாக படத்திற்கு சத்தத்தை சேர்ப்பது மற்றும் புதிய படங்களை உருவாக்க அல்லது இருக்கும் படங்களை மாற்ற இந்த செயல்முறையை மாற்றியமைக்க கற்றுக்கொள்வது ஆகியவை அடங்கும். டிஃப்யூஷன் தொகுதி படங்களின் ஒரு பரந்த தரவுத்தொகுப்பில் பயிற்சி அளிக்கப்படுகிறது, இது யதார்த்தமான மற்றும் பார்வைக்கு ஈர்க்கும் முடிவுகளை உருவாக்க அனுமதிக்கிறது.
மாற்றியமைக்கப்பட்ட படம் அசல் படத்தின் விவரங்கள், அமைப்புகள் மற்றும் விளக்கு விளைவுகளை பராமரிப்பதை டிஃப்யூஷன் தொகுதி உறுதி செய்கிறது, மாற்றங்களை ஏற்கனவே உள்ள உள்ளடக்கத்துடன் தடையின்றி கலக்கிறது. இது படத்தின் ஒட்டுமொத்த அழகியலுக்கு பொருந்தும் வகையில் எடிட்டிங்கின் பாணியை மாற்றியமைக்க முடியும், இது ஒரு ஒத்திசைவான மற்றும் இணக்கமான முடிவை உருவாக்குகிறது. உதாரணமாக, ஒரு பயனர் “படத்தை ஒரு ஓவியம் போலக் காட்டுங்கள்” என்று விரும்பினால், டிஃப்யூஷன் தொகுதி கலை வடிப்பான்கள் மற்றும் அமைப்புகளைப் பயன்படுத்தி படத்தை நம்பத்தகுந்த ஓவியமாக மாற்ற முடியும், அதே நேரத்தில் அசல் கலவை மற்றும் உள்ளடக்கத்தைப் பாதுகாக்கிறது.
சினெர்ஜி: பிரிப்பதன் சக்தி
Step1X-Edit இன் பிரிக்கப்பட்ட கட்டமைப்பு பாரம்பரிய படத் திருத்தல் மாதிரிகளின் ஒரு அடிப்படை வரம்பை நிவர்த்தி செய்கிறது, அங்கு ‘புரிதல்’ மற்றும் ‘உருவாக்கம்’ பெரும்பாலும் பின்னிப்பிணைந்து அந்தந்த பணிகளுக்கு உகந்ததாக இல்லை. இந்த செயல்பாடுகளை தனித்தனி தொகுதிகளாகப் பிரிப்பதன் மூலம், Step1X-Edit சிக்கலான எடிட்டிங் அறிவுறுத்தல்களை செயல்படுத்தும்போது அதிக துல்லியம் மற்றும் கட்டுப்பாட்டை அடைகிறது. MLLM தொகுதி பயனரின் நோக்கத்தை துல்லியமாக விளக்குவதில் கவனம் செலுத்த முடியும், அதே நேரத்தில் டிஃப்யூஷன் தொகுதி குறிப்பிட்ட தேவைகளைப் பூர்த்தி செய்யும் உயர்தர படங்களை உருவாக்குவதில் கவனம் செலுத்த முடியும்.
MLLM மற்றும் டிஃப்யூஷன் தொகுதிகளுக்கு இடையிலான இந்த சினெர்ஜி Step1X-Edit பரந்த அளவிலான எடிட்டிங் பணிகளை குறிப்பிடத்தக்க துல்லியம் மற்றும் நிலைத்தன்மையுடன் கையாள உதவுகிறது. இது ஒரு படத்தில் நுட்பமான சரிசெய்தல்களைச் செய்தாலும் அல்லது சிக்கலான மாற்றங்களைச் செய்தாலும், Step1X-Edit பார்வைக்கு ஈர்க்கும் மற்றும் சொற்பொருள் ரீதியாக துல்லியமான முடிவுகளை வழங்க முடியும். பிரிக்கப்பட்ட கட்டமைப்பு மாதிரியை மேலும் மட்டுப்படுத்தக்கூடியதாகவும் எளிதாக புதுப்பிக்கக்கூடியதாகவும் ஆக்குகிறது, இது அதன் செயல்திறன் மற்றும் திறன்களை தொடர்ந்து மேம்படுத்த டெவலப்பர்களை அனுமதிக்கிறது.
தரவுத்தொகுப்பு பொறியியல்: செயல்திறனின் அடித்தளம்
Step1X-Edit கையாளக்கூடிய பல்வேறு மற்றும் சிக்கலான படத் திருத்தல் பணிகளை ஆதரிக்க, டெவலப்பர்கள் ஒரு தொழில்துறை முன்னணி படத் திருத்தல் பயிற்சி தரவுத்தொகுப்பை உருவாக்கினர். இந்த தரவுத்தொகுப்பு பட-உரை அறிவுறுத்தல் ட்ரிப்லெட்களின் ஒரு பரந்த தொகுப்பைக் கொண்டுள்ளது, அவை பரந்த அளவிலான எடிட்டிங் கட்டளைகளைப் புரிந்துகொண்டு செயல்படுத்த மாதிரியைப் பயிற்றுவிக்கப் பயன்படுத்தப்படுகின்றன. தரவுத்தொகுப்பில் 20 மில்லியன் ட்ரிப்லெட்கள் உள்ளன, அவற்றில் 1 மில்லியனுக்கும் அதிகமான உயர்தர மாதிரிகள் துல்லியம் மற்றும் நிலைத்தன்மையை உறுதி செய்வதற்காக கவனமாகத் தேர்ந்தெடுக்கப்பட்டுள்ளன.
தரவு உரை மாற்றுதல், செயல் உருவாக்கம், பாணி பரிமாற்றம் மற்றும் பின்னணி சரிசெய்தல் போன்ற அடிக்கடி கோரப்படும் அம்சங்களை உள்ளடக்கிய 11 முக்கிய பணி வகைகளை உள்ளடக்கியது. இந்த பணி வகைகள் தரவுத்தொகுப்பு முழுவதும் சமமாக விநியோகிக்கப்படுகின்றன, மாதிரிக்கு சமநிலையான பயிற்சி கிடைப்பதை உறுதி செய்கிறது மற்றும் பல்வேறு எடிட்டிங் காட்சிகளில் சிறப்பாக செயல்பட முடியும். தரவுத்தொகுப்பில் பயன்படுத்தப்படும் அறிவுறுத்தல் மொழி இயற்கையானதாகவும் யதார்த்தமாகவும் இருக்கிறது, மக்கள் படத் திருத்தங்களைக் கேட்கும்போது தொடர்பு கொள்ளும் முறையை பிரதிபலிக்கிறது.
“படத்தை மேலும் விண்டேஜ் தோற்றமளிக்கச் செய்யுங்கள்” அல்லது “காட்சிக்கு ஒரு நாடக உணர்வைச் சேர்க்கவும்” போன்ற சிக்கலான மற்றும் நுணுக்கமான எடிட்டிங் அறிவுறுத்தல்களின் எடுத்துக்காட்டுகளையும் தரவுத்தொகுப்பு உள்ளடக்கியது. இந்த அறிவுறுத்தல்களுக்கு மாதிரி சுருக்கமான கருத்துக்களைப் புரிந்துகொண்டு அவற்றை ஆக்கப்பூர்வமான மற்றும் பார்வைக்கு ஈர்க்கும் வகையில் படத்தில் பயன்படுத்த வேண்டும். Step1X-Edit இன் செயல்திறனில் தரவுத்தொகுப்பின் பன்முகத்தன்மை மற்றும் செழுமை ஆகியவை முக்கியமான காரணிகளாகும், இது பரந்த அளவிலான எடிட்டிங் பணிகளை குறிப்பிடத்தக்க துல்லியம் மற்றும் பல்துறை திறன் மூலம் கையாள உதவுகிறது.
தரப்படுத்தல் சிறப்பு: GEdit-Bench
Step1X-Edit இன் செயல்திறனை கடுமையாக மதிப்பிடுவதற்கு, டெவலப்பர்கள் GEdit-Bench எனப்படும் ஒரு சுய-வளர்ச்சி தரக்குறியீட்டை உருவாக்கினர். இந்த தரக்குறியீடு பல்வேறு படத் திருத்தல் காட்சிகளில் மாதிரியின் திறன்களை விரிவான மதிப்பீட்டை வழங்க வடிவமைக்கப்பட்டுள்ளது. கைமுறையாகத் தொகுக்கப்பட்ட பணித் தொகுப்புகளைப் போலன்றி, GEdit-Bench அதன் பணிகளை உண்மையான சமூக எடிட்டிங் கோரிக்கைகளிலிருந்து எடுக்கிறது, இது உண்மையான பயன்பாடுகளில் மாதிரியின் செயல்திறனின் மிகவும் யதார்த்தமான மற்றும் பொருத்தமான அளவீடாக அமைகிறது.
GEdit-Bench இல் உள்ள பணிகள் உரை மாற்றுதல், பொருள் அகற்றுதல், பாணி பரிமாற்றம் மற்றும் பின்னணி சரிசெய்தல் உள்ளிட்ட பரந்த அளவிலான எடிட்டிங் செயல்பாடுகளை உள்ளடக்கியது. “படத்தை மேலும் தொழில்முறை தோற்றமளிக்கச் செய்யுங்கள்” அல்லது “காட்சிக்கு ஒரு வெப்ப உணர்வைச் சேர்க்கவும்” போன்ற சிக்கலான மற்றும் நுணுக்கமான அறிவுறுத்தல்களை மாதிரி புரிந்துகொண்டு செயல்படுத்த வேண்டிய பணிகளையும் தரக்குறியீடு உள்ளடக்கியது. GEdit-Bench உண்மையான சூழ்நிலைகளில் மாதிரியின் செயல்திறனின் மிகவும் துல்லியமான மற்றும் நம்பகமான மதிப்பீட்டை வழங்குகிறது.
GEdit-Bench இல் Step1X-Edit குறிப்பிடத்தக்க முடிவுகளை அடைந்துள்ளது, மூன்று முக்கிய குறிகாட்டிகளில் இருக்கும் திறந்த மூல மாதிரிகளை விஞ்சியுள்ளது: சொற்பொருள் நிலைத்தன்மை, படத் தரம் மற்றும் ஒட்டுமொத்த மதிப்பெண். மாதிரியின் செயல்திறன் GPT-4o க்கு நெருக்கமாக உள்ளது, இது மொழி புரிதல் மற்றும் பட மறுகட்டமைப்புக்கு இடையே ஒரு சிறந்த சமநிலையை அடையும் திறனைக் காட்டுகிறது.
முடிவில், Step1X-Edit திறந்த மூல படத் திருத்தல் தொழில்நுட்பத்தில் ஒரு குறிப்பிடத்தக்க முன்னேற்றத்தைக் குறிக்கிறது. இதன் பிரிக்கப்பட்ட கட்டமைப்பு, பரந்த பயிற்சி தரவுத்தொகுப்பு மற்றும் கடுமையான தரப்படுத்தல் ஆகியவை பரந்த அளவிலான எடிட்டிங் பணிகளுக்கு ஒரு சக்திவாய்ந்த மற்றும் பல்துறை கருவியாக அமைகின்றன. நீங்கள் ஒரு தொழில்முறை புகைப்படக் கலைஞராக இருந்தாலும், ஒரு சமூக ஊடக ஆர்வலராக இருந்தாலும் அல்லது உங்கள் படங்களை மேம்படுத்த விரும்பும் யாராக இருந்தாலும், Step1X-Edit உங்கள் இலக்குகளை குறிப்பிடத்தக்க துல்லியம் மற்றும் எளிதாக அடைய உதவும்.