Step1X-Edit, modeli ya kuhariri picha ya chanzo huria iliyotengenezwa na StepFun, imetolewa, ikifikia utendaji bora zaidi (SOTA). Modeli hii, inayojivunia vigezo bilioni 19 (7B MLLM + 12B DiT), ina uwezo mkubwa katika maeneo matatu muhimu: uchambuzi sahihi wa semantiki, uhifadhi thabiti wa utambulisho, na udhibiti wa kiwango cha juu wa eneo. Inasaidia aina 11 za kazi za kuhariri picha za mara kwa mara, ikiwa ni pamoja na uingizwaji wa maandishi, uhamishaji wa mtindo, mabadiliko ya nyenzo, na urekebishaji wa picha. Step1X-Edit imeundwa kuelewa, kurekebisha kwa usahihi, na kuhifadhi maelezo kwa ufanisi.
Uwezo Mkuu wa Step1X-Edit
Step1X-Edit inaunganisha Mifumo Mikubwa ya Lugha ya Kimitindo Mingi (MLLM) na modeli za Uenezaji, na kusababisha maboresho makubwa katika usahihi wa uhariri na uaminifu wa picha ndani ya mfumo huria. Katika alama mpya ya GEdit-Bench ya kuhariri picha, Step1X-Edit inazidi modeli zilizopo za chanzo huria katika uthabiti wa semantiki, ubora wa picha, na alama ya jumla, ikishindana na utendaji wa GPT-4o na Gemini 2.0 Flash.
Uchambuzi Sahihi wa Semantiki
Modeli inasaidia michanganyiko changamano ya maagizo yaliyoelezwa katika lugha asilia. Maagizo haya hayahitaji kiolezo, na kufanya modeli iwe rahisi kubadilika na kuweza kushughulikia mahitaji ya uhariri wa zamu nyingi, kazi nyingi. Pia inasaidia utambuzi, uingizwaji, na ujenzi mpya wa maandishi katika picha.
- Inasaidia maelezo changamano ya lugha asilia
- Hakuna violezo vilivyowekwa vinavyohitajika
- Ina uwezo wa uhariri wa zamu nyingi, kazi nyingi
- Inatambua, inabadilisha, na kujenga upya maandishi katika picha
Udumishaji wa Uthabiti wa Utambulisho
Modeli huhifadhi mara kwa mara sura za uso, pozi, na sifa za utambulisho baada ya kuhariri. Hii inafaa kwa matukio yenye mahitaji ya juu ya uthabiti, kama vile binadamu bandia, modeli za biashara ya mtandaoni, na picha za mitandao ya kijamii.
- Hudumisha sura za uso
- Huhifadhi pozi
- Huzingatia sifa za utambulisho
- Inafaa kwa binadamu bandia, modeli za biashara ya mtandaoni, na mitandao ya kijamii
Udhibiti wa Mikoa ya Usahihi wa Juu
Modeli inasaidia uhariri unaolengwa wa maandishi, vifaa, rangi, na vipengele vingine katika maeneo maalum. Inadumisha mtindo wa picha uliounganishwa na inatoa udhibiti sahihi zaidi.
- Uhariri unaolengwa katika maeneo maalum
- Hudhibiti maandishi, vifaa, na rangi
- Hudumisha mtindo wa picha uliounganishwa
- Hutoa udhibiti sahihi zaidi
Ubunifu wa Kimuundo
Step1X-Edit hutumia muundo uliotenganishwa wa MLLM (Multimodal LLM) + Diffusion, ambao hushughulikia tofauti uelewa wa lugha asilia na utengenezaji wa picha wa uaminifu wa hali ya juu. Ikilinganishwa na modeli zilizopo za kuhariri picha, muundo huu una faida katika uwezo wa jumla wa maagizo na udhibiti wa picha.
Moduli ya MLLM
Moduli ya MLLM inawajibika kwa kuchakata maagizo ya lugha asilia na maudhui ya picha. Ina uwezo wa uelewa wa semantiki wa mitindo mingi, ambayo inaweza kuchambua mahitaji changamano ya uhariri kuwa ishara fiche za udhibiti.
- Huchakata maagizo ya lugha asilia
- Hushughulikia maudhui ya picha
- Uelewa wa semantiki wa mitindo mingi
- Huchambua mahitaji changamano ya uhariri
Moduli ya Uenezaji
Moduli ya Uenezaji hutumika kama jenereta ya picha (Dekoda ya Picha), kukamilisha ujenzi mpya au urekebishaji wa ndani wa picha kulingana na ishara fiche zilizotolewa na MLLM. Hii inahakikisha uhifadhi wa maelezo ya picha na uthabiti wa mtindo.
- Jenereta ya picha (Dekoda ya Picha)
- Hujenga upya picha
- Hurekebisha picha ndani ya nchi
- Huhifadhi maelezo ya picha na mtindo
Muundo huu unashughulikia suala la “uelewa” na “uzalishaji” tofauti katika modeli za jadi za bomba. Hii inawezesha modeli kuwa na usahihi wa juu na udhibiti wakati wa kutekeleza maagizo changamano ya uhariri.
Data ya Mafunzo
Ili kusaidia anuwai ya kazi changamano za kuhariri picha, Step1X-Edit imeunda seti ya data ya mafunzo ya uhariri picha inayoongoza katika tasnia. Inazalisha vipengele vitatu vya maagizo ya picha-maandishi milioni 20 na hatimaye inahifadhi zaidi ya sampuli milioni 1 za ubora wa juu. Data inashughulikia aina 11 za kazi kuu, pamoja na vipengele vinavyoombwa mara kwa mara kama vile uingizwaji wa maandishi, utengenezaji wa vitendo, uhamishaji wa mtindo, na marekebisho ya mandharinyuma. Aina za kazi zimesambazwa sawasawa, na lugha ya maagizo ni ya asili na ya kweli.
- Seti ya data ya mafunzo inayoongoza katika tasnia
- Vipengele vitatu vya maagizo ya picha-maandishi milioni 20
- Sampuli milioni 1 za ubora wa juu
- Aina 11 za kazi kuu
- Aina za kazi zilizosambazwa sawasawa
Tathmini ya Utendaji
Step1X-Edit hudumisha mara kwa mara matokeo ya ubora wa juu katika kazi ndogo 11 za kuhariri picha. Uwezo wake umesawazishwa vizuri, na unabaki mstari wa mbele katika karibu vipimo vyote vya kazi, kuonyesha matumizi yake mengi na usawa.
Alama ya GEdit-Bench
Tathmini ya modeli hutumia alama ya GEdit-Bench iliyoendelezwa yenyewe. Tofauti na makusanyo ya kazi yaliyounganishwa kwa mikono, alama hii inatoka kwa maombi halisi ya uhariri wa jamii, ambayo ni karibu na mahitaji ya bidhaa.
- Alama iliyoendelezwa yenyewe
- Maombi halisi ya uhariri wa jamii
- Karibu na mahitaji ya bidhaa
Step1X-Edit inaongoza sana modeli zilizopo za chanzo huria katika viashiria vitatu vya msingi vya GEdit-Bench. Inafanya kazi karibu na GPT-4o, ikifikia usawa bora kati ya uelewa wa lugha na ujenzi mpya wa picha.
Uchunguzi wa Kina wa Uwezo
Step1X-Edit haihusu tu kubadilisha picha; ni kuhusu kuelewa kweli nia iliyo nyuma ya uhariri, kuitekeleza kwa usahihi, na kulinda uadilifu wa picha asilia. Uwezo mkuu—usahihi wa semantiki, uthabiti wa utambulisho, na udhibiti wa eneo la usahihi wa juu—zimeundwa kushughulikia mahitaji magumu ya uhariri wa picha za kisasa.
Uchambuzi Sahihi wa Semantiki kwa Kina
Uchambuzi sahihi wa semantiki wa Step1X-Edit unaenda zaidi ya utambuzi rahisi wa maneno muhimu. Inaingia ndani ya muktadha wa maelezo ya lugha asilia, kuelewa michanganyiko changamano ya maagizo. Tofauti na mifumo ambayo inategemea violezo ngumu, Step1X-Edit inaweza kufasiri lugha huru, na kuifanya iweze kubadilika sana kwa matukio mbalimbali ya uhariri. Inashughulikia uhariri wa zamu nyingi na kazi nyingi bila mshono, kuelewa mahusiano kati ya maagizo mfululizo ili kutoa matokeo thabiti.
Fikiria mfano huu: Mtumiaji anataka kubadilisha maandishi kwenye ishara kwenye picha na kisha kubadilisha rangi ya ishara ili ifanane na mandhari tofauti. Step1X-Edit haibadilishi tu maandishi na kubadilisha rangi; inaelewa kuwa ishara ni kitu kimoja na inahakikisha kuwa mabadiliko ya maandishi na rangi yanaendana na kila mmoja na picha nzima. Zaidi ya hayo, modeli inaweza kutambua na kujenga upya maandishi ndani ya picha, hata kama yamefichwa au kupotoshwa kiasi fulani. Uwezo huu ni muhimu sana kwa kuhariri hati zilizochanganuliwa au picha zilizo na maandishi yaliyopachikwa.
Ufafanuzi wa Udumishaji wa Uthabiti wa Utambulisho
Kudumisha uthabiti wa utambulisho ni muhimu katika matukio ambapo masomo katika picha yanahitaji kubaki yanatambulika licha ya mabadiliko. Hii ni muhimu sana katika matumizi ya binadamu bandia, uundaji wa modeli za biashara ya mtandaoni, na uundaji wa maudhui ya mitandao ya kijamii. Step1X-Edit inahakikisha kuwa sura za uso, pozi, na sifa za kipekee za utambulisho zinahifadhiwa katika mchakato mzima wa uhariri.
Kwa mfano, ikiwa mtumiaji anataka kubadilisha mavazi ya modeli bandia kwenye picha, Step1X-Edit hudumisha sura za uso wa modeli, mtindo wa nywele, na uwiano wa mwili, kuhakikisha kuwa picha iliyohaririwa bado inawakilisha kwa usahihi modeli asilia. Vile vile, katika biashara ya mtandaoni, ambapo modeli huonyesha bidhaa, mwonekano wa modeli lazima ubaki thabiti katika picha tofauti ili kuepusha kuwachanganya wateja.
Udhibiti wa Mikoa ya Usahihi wa Juu Ulioimarishwa
Udhibiti wa mikoa ya usahihi wa juu huwawezesha watumiaji kufanya uhariri unaolengwa kwa maeneo maalum ya picha bila kuathiri eneo lililosalia la eneo. Uwezo huu ni muhimu kwa kazi zinazohitaji marekebisho mazuri, kama vile kubadilisha rangi ya vazi, kubadilisha muundo wa kitu, au kuongeza vipengele maalum kwenye eneo fulani. Step1X-Edit inaruhusu watumiaji kuchagua maeneo maalum na kutumia uhariri kwa usahihi wa ajabu, kuhakikisha kuwa mabadiliko yanaunganishwa bila mshono na picha iliyopo.
Fikiria hali ambapo mtumiaji anataka kubadilisha rangi ya gari kwenye picha lakini kuweka mwangwi na vivuli sawa. Step1X-Edit inaweza kutenga gari, kubadilisha rangi yake, na kuhifadhi athari za taa asilia, na kuunda matokeo halisi na ya kuvutia. Modeli pia inahakikisha kuwa mtindo na urembo wa jumla wa picha unasalia thabiti, kuzuia maeneo yaliyohaririwa kuonekana hayafai.
Kufumbua Muundo: MLLM + Uenezaji
Muundo uliotenganishwa wa Step1X-Edit, unaochanganya Mifumo Mikubwa ya Lugha ya Kimitindo Mingi (MLLM) na modeli za Uenezaji, unaashiria maendeleo makubwa katika teknolojia ya kuhariri picha. Muundo huu unaruhusu mgawanyo wa kazi ambapo uelewa wa lugha asilia na utengenezaji wa picha wa uaminifu wa hali ya juu unashughulikiwa na moduli tofauti zilizoboreshwa kwa kazi zao husika.
Ingia kwa Kina kwenye Moduli ya MLLM
Moduli ya MLLM hutumika kama ubongo wa mfumo, inayowajibika kwa kuelewa na kufasiri maagizo ya lugha asilia na maudhui ya picha. Inamiliki uwezo wa hali ya juu wa uelewa wa semantiki wa mitindo mingi, kuwezesha kuchambua mahitaji changamano ya uhariri kuwa ishara fiche za udhibiti zinazoweza kutekelezwa. Mchakato huu unahusisha kuchanganua muundo wa lugha wa maagizo, kutambua vipengele muhimu vya kubadilishwa, na kuelewa mahusiano kati ya sehemu tofauti za picha.
Moduli ya MLLM hutumia algoriti za kisasa kuweka ramani maagizo ya uhariri kwa uwakilishi ambao moduli ya Uenezaji inaweza kuelewa. Uwakilishi huu huweka msimbo mabadiliko yanayotarajiwa kwa njia ambayo inahifadhi maana ya semantiki ya maagizo na kuhakikisha kuwa uhariri unaotokana unaendana na nia ya mtumiaji. Kwa mfano, ikiwa mtumiaji ataomba ‘kuongeza machweo kwenye mandharinyuma,’ moduli ya MLLM hutambua eneo la mandharinyuma, hutambua dhana ya machweo, na hutoa ishara ya udhibiti ambayo inalielekeza moduli ya Uenezaji kuunda machweo halisi katika eneo lililobainishwa.
Kueleza Moduli ya Uenezaji
Moduli ya Uenezaji hufanya kazi kama msanii, ikichukua ishara fiche za udhibiti zinazozalishwa na moduli ya MLLM na kuzitumia kujenga upya au kurekebisha picha kwa uaminifu wa hali ya juu. Moduli hii hutumia mchakato unaoitwa uenezaji, ambao unahusisha kuongeza hatua kwa hatua kelele kwenye picha na kisha kujifunza kubadilisha mchakato huu ili kutoa picha mpya au kurekebisha zilizopo. Moduli ya Uenezaji imefunzwa kwenye seti kubwa ya data ya picha, na kuiruhusu kutoa matokeo halisi na ya kuvutia.
Moduli ya Uenezaji inahakikisha kuwa picha iliyobadilishwa inahifadhi maelezo ya picha asilia, miundo, na athari za taa, ikichanganya mabadiliko bila mshono na maudhui yaliyopo. Inaweza pia kurekebisha mtindo wa uhariri ili kufanana na urembo wa jumla wa picha, na kuunda matokeo thabiti na yenye usawa. Kwa mfano, ikiwa mtumiaji anataka ‘kufanya picha ionekane kama mchoro,’ moduli ya Uenezaji inaweza kutumia vichujio vya kisanii na miundo ili kubadilisha picha kuwa mchoro wa kushawishi, huku ikihifadhi muundo na maudhui asilia.
Mshikamano: Nguvu ya Kutenganisha
Muundo uliotenganishwa wa Step1X-Edit unashughulikia kikomo cha kimsingi cha modeli za jadi za kuhariri picha, ambapo ‘kuelewa’ na ‘kuzalisha’ mara nyingi huunganishwa na haziwezi kuboreshwa kwa kazi zao husika. Kwa kutenganisha kazi hizi kuwa moduli tofauti, Step1X-Edit inafanikisha usahihi wa juu na udhibiti wakati wa kutekeleza maagizo changamano ya uhariri. Moduli ya MLLM inaweza kuzingatia kufasiri kwa usahihi nia ya mtumiaji, huku moduli ya Uenezaji inaweza kuzingatia kutoa picha za ubora wa juu zinazokidhi mahitaji maalum.
Mshikamano huu kati ya moduli za MLLM na Uenezaji huwezesha Step1X-Edit kushughulikia anuwai ya kazi za uhariri kwa usahihi na uthabiti wa ajabu. Iwe inafanya marekebisho madogo kwa picha au kufanya mabadiliko changamano, Step1X-Edit inaweza kutoa matokeo ambayo yanaonekana kuvutia na sahihi kwa semantiki. Muundo uliotenganishwa pia hufanya modeli iwe ya msimu zaidi na rahisi kusasisha, kuruhusu wasanidi programu kuendelea kuboresha utendaji na uwezo wake.
Uhandisi wa Seti ya Data: Msingi wa Utendaji
Ili kusaidia kazi mbalimbali na changamano za kuhariri picha ambazo Step1X-Edit inaweza kushughulikia, wasanidi programu walijenga seti ya data ya mafunzo ya uhariri picha inayoongoza katika tasnia. Seti hii ya data inajumuisha mkusanyiko mkubwa wa vipengele vitatu vya maagizo ya picha-maandishi, ambavyo hutumiwa kufunza modeli ili kuelewa na kutekeleza anuwai ya amri za uhariri. Seti ya data inajumuisha vipengele vitatu milioni 20, ambavyo zaidi ya milioni 1 ni sampuli za ubora wa juu ambazo zimedumishwa kwa uangalifu ili kuhakikisha usahihi na uthabiti.
Data inashughulikia aina 11 za kazi kuu, zinazojumuisha vipengele vinavyoombwa mara kwa mara kama vile uingizwaji wa maandishi, utengenezaji wa vitendo, uhamishaji wa mtindo, na marekebisho ya mandharinyuma. Aina hizi za kazi zimesambazwa sawasawa katika seti yote ya data, kuhakikisha kuwa modeli inapokea mafunzo yaliyosawazishwa na inaweza kufanya vizuri katika matukio mbalimbali ya uhariri. Lugha ya maagizo inayotumiwa katika seti ya data ni ya asili na ya kweli, inayoonyesha jinsi watu huwasiliana wanapoomba uhariri wa picha.
Seti ya data pia inajumuisha mifano ya maagizo changamano na yenye nuances ya uhariri, kama vile ‘kufanya picha ionekane ya zamani zaidi’ au ‘kuongeza hisia ya drama kwenye eneo.’ Maagizo haya yanahitaji modeli kuelewa dhana dhahania na kuyatumia kwenye picha kwa njia ya ubunifu na ya kuvutia. Tofauti na utajiri wa seti ya data ni vipengele muhimu katika utendaji wa Step1X-Edit, na kuiwezesha kushughulikia anuwai ya kazi za uhariri kwa usahihi na matumizi mengi ya ajabu.
Ubora wa Ulinganishaji: GEdit-Bench
Ili kutathmini kwa ukamilifu utendaji wa Step1X-Edit, wasanidi programu waliunda alama iliyoendelezwa yenyewe inayoitwa GEdit-Bench. Alama hii imeundwa kutoa tathmini kamili ya uwezo wa modeli katika matukio mbalimbali ya uhariri picha. Tofauti na makusanyo ya kazi yaliyounganishwa kwa mikono, GEdit-Bench huchota kazi zake kutoka kwa maombi halisi ya uhariri wa jamii, na kuifanya iwe kipimo halisi na kinachofaa zaidi cha utendaji wa modeli katika matumizi ya ulimwengu halisi.
Kazi katika GEdit-Bench zinashughulikia anuwai ya shughuli za uhariri, pamoja na uingizwaji wa maandishi, uondoaji wa kitu, uhamishaji wa mtindo, na marekebisho ya mandharinyuma. Alama pia inajumuisha kazi zinazohitaji modeli kuelewa na kutekeleza maagizo changamano na yenye nuances, kama vile ‘kufanya picha ionekane ya kitaalamu zaidi’ au ‘kuongeza hisia ya joto kwenye eneo.’ GEdit-Bench hutoa tathmini sahihi zaidi na ya kuaminika ya utendaji wa modeli katika matukio ya ulimwengu halisi.
Step1X-Edit imefikia matokeo ya ajabu kwenye GEdit-Bench, ikizidi modeli zilizopo za chanzo huria katika viashiria vyote vitatu vya msingi: uthabiti wa semantiki, ubora wa picha, na alama ya jumla. Utendaji wa modeli uko karibu na ule wa GPT-4o, kuonyesha uwezo wake wa kufikia usawa bora kati ya uelewa wa lugha na ujenzi mpya wa picha.
Kwa kumalizia, Step1X-Edit inawakilisha maendeleo makubwa katika teknolojia ya uhariri picha ya chanzo huria. Muundo wake uliotenganishwa, seti kubwa ya data ya mafunzo, na ulinganishaji mkali huifanya kuwa zana yenye nguvu na matumizi mengi kwa anuwai ya kazi za uhariri. Iwe wewe ni mpiga picha mtaalamu, mshabiki wa mitandao ya kijamii, au mtu tu anayetaka kuboresha picha zao, Step1X-Edit inaweza kukusaidia kufikia malengo yako kwa usahihi na urahisi wa ajabu.