Step1X-Edit అనేది StepFun ద్వారా అభివృద్ధి చేయబడిన ఒక ఓపెన్-సోర్స్ ఇమేజ్ ఎడిటింగ్ మోడల్, ఇది అత్యాధునిక (SOTA) పనితీరును సాధించింది. ఈ మోడల్ 19 బిలియన్ పారామితులతో (7B MLLM + 12B DiT) మూడు ముఖ్య రంగాలలో రాణిస్తుంది: ఖచ్చితమైన సెమాంటిక్ విశ్లేషణ, స్థిరమైన గుర్తింపు పరిరక్షణ, మరియు అధిక-ఖచ్చిత ప్రాంత-స్థాయి నియంత్రణ. ఇది టెక్స్ట్ పునఃస్థాపన, శైలి బదిలీ, మెటీరియల్ రూపాంతరం మరియు పోర్ట్రెయిట్ రీటచింగ్ వంటి 11 రకాల సాధారణ ఇమేజ్ ఎడిటింగ్ పనులకు మద్దతు ఇస్తుంది. Step1X-Edit ను ఖచ్చితంగా అర్థం చేసుకోవడానికి, సవరించడానికి మరియు వివరాలను సమర్థవంతంగా పరిరక్షించడానికి రూపొందించబడింది.
Step1X-Edit యొక్క ప్రధాన సామర్థ్యాలు
Step1X-Edit మల్టీమోడల్ లార్జ్ లాంగ్వేజ్ మోడల్స్ (MLLM) మరియు డిఫ్యూషన్ మోడల్స్ను ஒருங்கிணைస్తుంది, ఇది ఓపెన్-సోర్స్ ఫ్రేమ్వర్క్లో ఎడిటింగ్ ఖచ్చితత్వం మరియు ఇమేజ్ విశ్వసనీయతలో గణనీయమైన మెరుగుదలలకు దారితీస్తుంది. కొత్తగా విడుదల చేసిన GEdit-Bench ఇమేజ్ ఎడిటింగ్ బెంచ్మార్క్లో, Step1X-Edit సెమాంటిక్ స్థిరత్వం, ఇమేజ్ క్వాలిటీ మరియు మొత్తం స్కోర్లో ఉన్న ఓపెన్-సోర్స్ మోడళ్లను అధిగమించింది, GPT-4o మరియు Gemini 2.0 ఫ్లాష్ పనితీరును అధిగమించింది.
సెమాంటిక్ ప్రెసిషన్ అనాలిసిస్
ఈ మోడల్ సహజ భాషలో వివరించిన సూచనల యొక్క సంక్లిష్ట కలయికలకు మద్దతు ఇస్తుంది. ఈ సూచనలకు టెంప్లేట్ అవసరం లేదు, ఇది మోడల్ను అనువైనదిగా చేస్తుంది మరియు బహుళ-మలుపు, బహుళ-పని ఎడిటింగ్ అవసరాలను నిర్వహించగలదు. ఇది చిత్రాలలో వచనాన్ని గుర్తించడం, మార్చడం మరియు పునర్నిర్మించడాన్ని కూడా సమర్థిస్తుంది.
- సంక్లిష్ట సహజ భాషా వివరణలకు మద్దతు ఇస్తుంది
- స్థిర టెంప్లేట్లు అవసరం లేదు
- బహుళ-మలుపు, బహుళ-పని ఎడిటింగ్కు సామర్థ్యం కలిగి ఉంటుంది
- చిత్రాలలో వచనాన్ని గుర్తిస్తుంది, మారుస్తుంది మరియు పునర్నిర్మిస్తుంది
ఐడెంటిటీ కన్సిస్టెన్సీ మెయింటెనెన్స్
సవరణ తర్వాత మోడల్ ముఖ లక్షణాలు, భంగిమలు మరియు గుర్తింపు లక్షణాలను స్థిరంగా నిర్వహిస్తుంది. వర్చువల్ మానవులు, ఇ-కామర్స్ మోడల్స్ మరియు సోషల్ మీడియా చిత్రాలు వంటి అధిక స్థిరత్వం అవసరమయ్యే దృశ్యాలకు ఇది అనుకూలంగా ఉంటుంది.
- ముఖ లక్షణాలను నిర్వహిస్తుంది
- భంగిమలను సంరక్షిస్తుంది
- గుర్తింపు లక్షణాలను నిలుపుకుంటుంది
- వర్చువల్ మానవులు, ఇ-కామర్స్ మోడల్స్ మరియు సోషల్ మీడియాకు అనుకూలం
హై-ప్రెసిషన్ రీజినల్ కంట్రోల్
మోడల్ నిర్దిష్ట ప్రాంతాల్లో టెక్స్ట్, మెటీరియల్స్, రంగులు మరియు ఇతర అంశాల యొక్క లక్ష్య సవరణకు మద్దతు ఇస్తుంది. ఇది ఏకీకృత ఇమేజ్ శైలిని నిర్వహిస్తుంది మరియు మరింత ఖచ్చితమైన నియంత్రణను అందిస్తుంది.
- నిర్దిష్ట ప్రాంతాల్లో లక్ష్య సవరణ
- టెక్స్ట్, మెటీరియల్స్ మరియు రంగులను నియంత్రిస్తుంది
- ఏకీకృత ఇమేజ్ శైలిని నిర్వహిస్తుంది
- మరింత ఖచ్చితమైన నియంత్రణను అందిస్తుంది
ఆర్కిటెక్చరల్ ఇన్నోవేషన్స్
Step1X-Edit MLLM (మల్టీమోడల్ LLM) + డిఫ్యూషన్ యొక్క వేరు చేయబడిన ఆర్కిటెక్చర్ను ఉపయోగిస్తుంది, ఇది సహజ భాషా అవగాహన మరియు అధిక-విశ్వసనీయ ఇమేజ్ జనరేషన్ను విడిగా నిర్వహిస్తుంది. ఇప్పటికే ఉన్న ఇమేజ్ ఎడిటింగ్ మోడళ్లతో పోలిస్తే, ఈ ఆర్కిటెక్చర్కు సూచన సాధారణీకరణ సామర్థ్యం మరియు ఇమేజ్ నియంత్రణ సామర్థ్యంలో ప్రయోజనాలు ఉన్నాయి.
MLLM మాడ్యూల్
MLLM మాడ్యూల్ సహజ భాషా సూచనలను మరియు ఇమేజ్ కంటెంట్ను ప్రాసెస్ చేయడానికి బాధ్యత వహిస్తుంది. ఇది మల్టీమోడల్ సెమాంటిక్ అవగాహన సామర్థ్యాలను కలిగి ఉంది, ఇది సంక్లిష్ట ఎడిటింగ్ అవసరాలను గుప్త నియంత్రణ సంకేతాలుగా విశ్లేషించగలదు.
- సహజ భాషా సూచనలను ప్రాసెస్ చేస్తుంది
- ఇమేజ్ కంటెంట్ను నిర్వహిస్తుంది
- మల్టీమోడల్ సెమాంటిక్ అవగాహన
- సంక్లిష్ట ఎడిటింగ్ అవసరాలను విశ్లేషిస్తుంది
డిఫ్యూషన్ మాడ్యూల్
డిఫ్యూషన్ మాడ్యూల్ ఇమేజ్ జనరేటర్ (ఇమేజ్ డీకోడర్) వలె పనిచేస్తుంది, MLLM ద్వారా ఉత్పత్తి చేయబడిన గుప్త సంకేతాల ఆధారంగా చిత్రాల పునర్నిర్మాణం లేదా స్థానిక సవరణను పూర్తి చేస్తుంది. ఇది ఇమేజ్ వివరాల పరిరక్షణ మరియు శైలి యొక్క స్థిరత్వాన్ని నిర్ధారిస్తుంది.
- ఇమేజ్ జనరేటర్ (ఇమేజ్ డీకోడర్)
- చిత్రాలను పునర్నిర్మిస్తుంది
- చిత్రాలను స్థానికంగా సవరిస్తుంది
- ఇమేజ్ వివరాలు మరియు శైలిని పరిరక్షిస్తుంది
ఈ నిర్మాణం సాంప్రదాయ పైప్లైన్ మోడళ్లలో ప్రత్యేకమైన ‘అవగాహన’ మరియు ‘ఉత్పత్తి’ సమస్యను పరిష్కరిస్తుంది. సంక్లిష్టమైన ఎడిటింగ్ సూచనలను అమలు చేసేటప్పుడు మోడల్కు అధిక ఖచ్చితత్వం మరియు నియంత్రణ ఉండటానికి ఇది అనుమతిస్తుంది.
శిక్షణ డేటా
విస్తృత శ్రేణి సంక్లిష్ట ఇమేజ్ ఎడిటింగ్ పనులకు మద్దతు ఇవ్వడానికి, Step1X-Edit పరిశ్రమ-ప్రముఖ ఇమేజ్ ఎడిటింగ్ శిక్షణ డేటాను నిర్మించింది. ఇది 20 మిలియన్ల ఇమేజ్-టెక్స్ట్ సూచన త్రికాలను ఉత్పత్తి చేస్తుంది మరియు చివరికి 1 మిలియన్ కంటే ఎక్కువ అధిక-నాణ్యత నమూనాలను నిలుపుకుంటుంది. ఈ డేటా టెక్స్ట్ పునఃస్థాపన, చర్య ఉత్పత్తి, శైలి బదిలీ మరియు నేపథ్య సర్దుబాటు వంటి తరచుగా అభ్యర్థించిన లక్షణాలతో సహా 11 ప్రధాన పని రకాలను కలిగి ఉంటుంది. పని రకాలు సమానంగా పంపిణీ చేయబడతాయి మరియు సూచన భాష సహజమైనది మరియు వాస్తవికమైనది.
- పరిశ్రమ-ప్రముఖ శిక్షణ డేటా
- 20 మిలియన్ల ఇమేజ్-టెక్స్ట్ సూచన త్రికాలు
- 1 మిలియన్ అధిక-నాణ్యత నమూనాలు
- 11 ప్రధాన పని రకాలు
- సమానంగా పంపిణీ చేయబడిన పని రకాలు
పనితీరు మూల్యాంకనం
Step1X-Edit ఇమేజ్ ఎడిటింగ్ యొక్క 11 ఉప-పనులలో అధిక-నాణ్యత అవుట్పుట్ను స్థిరంగా నిర్వహిస్తుంది. దీని సామర్థ్యాలు బాగా సమతుల్యంగా ఉన్నాయి మరియు ఇది దాదాపు అన్ని పని కొలతలలో అగ్రగామిగా కొనసాగుతుంది, ఇది దాని బలమైన పాండిత్యం మరియు సమతుల్యతను ప్రదర్శిస్తుంది.
GEdit-Bench బెంచ్మార్క్
మోడల్ మూల్యాంకనం స్వీయ-అభివృద్ధి చేసిన GEdit-Bench బెంచ్మార్క్ను ఉపయోగిస్తుంది. మానవీయంగా సంశ్లేషణ చేయబడిన పని సేకరణల వలె కాకుండా, ఈ బెంచ్మార్క్ నిజమైన సంఘం ఎడిటింగ్ అభ్యర్థనల నుండి వస్తుంది, ఇవి ఉత్పత్తి అవసరాలకు దగ్గరగా ఉంటాయి.
- స్వీయ-అభివృద్ధి చేసిన బెంచ్మార్క్
- నిజమైన సంఘం ఎడిటింగ్ అభ్యర్థనలు
- ఉత్పత్తి అవసరాలకు దగ్గరగా ఉంటుంది
GEdit-Bench యొక్క మూడు ప్రధాన సూచికలలో Step1X-Edit ఇప్పటికే ఉన్న ఓపెన్-సోర్స్ మోడళ్లను గణనీయంగా నడిపిస్తుంది. ఇది GPT-4o కి దగ్గరగా పనిచేస్తుంది, భాషా అవగాహన మరియు ఇమేజ్ పునర్నిర్మాణం మధ్య ఆదర్శ సమతుల్యతను సాధిస్తుంది.
సామర్థ్యాల వివరణాత్మక పరిశీలన
Step1X-Edit చిత్రాలను మార్చడం మాత్రమే కాదు; ఇది సవరణల వెనుక ఉన్న ఉద్దేశాన్ని నిజంగా అర్థం చేసుకోవడం, వాటిని ఖచ్చితత్వంతో అమలు చేయడం మరియు అసలు చిత్రం యొక్క సమగ్రతను కాపాడటం గురించి. ప్రధాన సామర్థ్యాలు - సెమాంటిక్ ఖచ్చితత్వం, గుర్తింపు స్థిరత్వం మరియు అధిక-ఖచ్చిత ప్రాంత నియంత్రణ - ఆధునిక ఇమేజ్ ఎడిటింగ్ యొక్క సూక్ష్మమైన డిమాండ్లను పరిష్కరించడానికి రూపొందించబడ్డాయి.
సెమాంటిక్ ప్రెసిషన్ అనాలిసిస్ ఇన్ డెప్త్
Step1X-Edit యొక్క సెమాంటిక్ ఖచ్చితత్వ విశ్లేషణ సాధారణ కీలకపద గుర్తింపును మించిపోయింది. ఇది సహజ భాషా వివరణల సందర్భాన్ని పరిశీలిస్తుంది, సూచనల యొక్క సంక్లిష్ట కలయికలను అర్థం చేసుకుంటుంది. దృఢమైన టెంప్లేట్లపై ఆధారపడే సిస్టమ్ల వలె కాకుండా, Step1X-Edit ఉచిత-రూప భాషను అర్థం చేసుకోగలదు, ఇది వివిధ ఎడిటింగ్ దృశ్యాలకు చాలా అనుగుణంగా ఉంటుంది. ఇది బహుళ-మలుపు మరియు బహుళ-పని ఎడిటింగ్ను సజావుగా నిర్వహిస్తుంది, సమర్థవంతమైన ఫలితాలను ఉత్పత్తి చేయడానికి వరుస సూచనల మధ్య సంబంధాలను అర్థం చేసుకుంటుంది.
ఈ ఉదాహరణను పరిగణించండి: ఒక చిత్రంపై ఉన్న గుర్తుపై వచనాన్ని మార్చాలని మరియు ఆ గుర్తు రంగును వేరే థీమ్కు సరిపోయేలా మార్చాలని ఒక వినియోగదారు కోరుకుంటున్నారు. Step1X-Edit వచనాన్ని మార్చి, రంగును మార్చడమే కాదు; ఆ గుర్తు ఒకే వస్తువు అని అర్థం చేసుకుంటుంది మరియు వచన మరియు రంగు మార్పులు ఒకదానితో ఒకటి మరియు మొత్తం చిత్రంతో స్థిరంగా ఉండేలా చూస్తుంది. అంతేకాకుండా, మోడల్ చిత్రాలలో వచనాన్ని గుర్తించగలదు మరియు పునర్నిర్మించగలదు, అది పాక్షికంగా అస్పష్టంగా లేదా వక్రీకరించబడి ఉన్నప్పటికీ. ఈ సామర్థ్యం స్కాన్ చేసిన పత్రాలను లేదా అతివ్యాప్తి చెందిన వచనంతో ఉన్న చిత్రాలను సవరించడానికి ప్రత్యేకంగా ఉపయోగపడుతుంది.
ఐడెంటిటీ కన్సిస్టెన్సీ మెయింటెనెన్స్ ఎక్స్ప్లెయిన్డ్
చిత్రాలలో ఉన్న విషయాలు మార్పులు ఉన్నప్పటికీ గుర్తించదగినవిగా ఉండవలసిన దృశ్యాలలో గుర్తింపు స్థిరత్వాన్ని నిర్వహించడం చాలా ముఖ్యం. ఇది వర్చువల్ హ్యూమన్ అప్లికేషన్స్, ఇ-కామర్స్ మోడలింగ్ మరియు సోషల్ మీడియా కంటెంట్ క్రియేషన్లో ప్రత్యేకంగా ముఖ్యమైనది. Step1X-Edit ముఖ లక్షణాలు, భంగిమలు మరియు ప్రత్యేక గుర్తింపు లక్షణాలు ఎడిటింగ్ ప్రక్రియలో సంరక్షించబడతాయని నిర్ధారిస్తుంది.
ఉదాహరణకు, ఒక వినియోగదారు చిత్రంలో ఒక వర్చువల్ మోడల్ యొక్క దుస్తులను మార్చాలని కోరుకుంటే, Step1X-Edit మోడల్ యొక్క ముఖ లక్షణాలు, కేశాలంకరణ మరియు శరీర నిష్పత్తులను నిర్వహిస్తుంది, సవరించిన చిత్రం ఇప్పటికీ అసలు మోడల్ను ఖచ్చితంగా సూచిస్తుందని నిర్ధారిస్తుంది. అదేవిధంగా, ఇ-కామర్స్లో, మోడల్లు ఉత్పత్తులను ప్రదర్శించే చోట, వినియోగదారులను గందరగోళానికి గురిచేయకుండా ఉండటానికి మోడల్ యొక్క రూపాన్ని వివిధ చిత్రాలలో స్థిరంగా ఉండాలి.
హై-ప్రెసిషన్ రీజినల్ కంట్రోల్ ఎన్హాన్స్డ్
హై-ప్రెసిషన్ ప్రాంతీయ నియంత్రణ వినియోగదారులను మిగిలిన దృశ్యాన్ని ప్రభావితం చేయకుండా ఒక చిత్రం యొక్క నిర్దిష్ట ప్రాంతాలకు లక్ష్య సవరణలు చేయడానికి అనుమతిస్తుంది. చక్కటి సర్దుబాట్లు అవసరమయ్యే పనులకు ఈ సామర్థ్యం అవసరం, దుస్తుల రంగును మార్చడం, వస్తువు యొక్క ఆకృతిని మార్చడం లేదా నిర్దిష్ట ప్రాంతానికి నిర్దిష్ట అంశాలను జోడించడం వంటివి. Step1X-Edit వినియోగదారులను నిర్దిష్ట ప్రాంతాలను ఎంచుకోవడానికి మరియు గుర్తించదగిన ఖచ్చితత్వంతో సవరణలను వర్తింపజేయడానికి అనుమతిస్తుంది, మార్పులు ఇప్పటికే ఉన్న చిత్రంతో సజావుగా మిళితమయ్యేలా చూస్తుంది.
ఒక వినియోగదారు ఫోటోలోని కారు రంగును మార్చాలని కోరుకునే దృశ్యాన్ని ఊహించుకోండి, అయితే ప్రతిబింబాలు మరియు నీడలను చెక్కుచెదరకుండా ఉంచండి. Step1X-Edit కారును వేరు చేయగలదు, దాని రంగును మార్చగలదు మరియు అసలు లైటింగ్ ప్రభావాలను సంరక్షించగలదు, వాస్తవికమైన మరియు దృశ్యమానంగా ఆకర్షణీయమైన ఫలితాన్ని సృష్టిస్తుంది. మోడల్ మొత్తం శైలి మరియు చిత్రం యొక్క సౌందర్యాలు స్థిరంగా ఉండేలా చూస్తుంది, సవరించిన ప్రాంతాలు చోటు తప్పుతున్నట్లుగా కనిపించకుండా నిరోధిస్తుంది.
ఆర్కిటెక్చర్ను డీకోడింగ్ చేయడం: MLLM + డిఫ్యూషన్
మల్టీమోడల్ లార్జ్ లాంగ్వేజ్ మోడల్స్ (MLLM) మరియు డిఫ్యూషన్ మోడల్స్ను మిళితం చేస్తూ, Step1X-Edit యొక్క వేరు చేయబడిన నిర్మాణం ఇమేజ్ ఎడిటింగ్ టెక్నాలజీలో గణనీయమైన పురోగతిని సూచిస్తుంది. ఈ డిజైన్ సహజ భాషా అవగాహన మరియు అధిక-విశ్వసనీయ ఇమేజ్ జనరేషన్ వాటి సంబంధిత పనుల కోసం ఆప్టిమైజ్ చేయబడిన ప్రత్యేక మాడ్యూల్స్ ద్వారా నిర్వహించబడే కార్మిక విభజనకు అనుమతిస్తుంది.
డీప్ డైవ్ ఇంటూ ద MLLM మాడ్యూల్
MLLM మాడ్యూల్ సిస్టమ్ యొక్క మెదడుగా పనిచేస్తుంది, సహజ భాషా సూచనలు మరియు ఇమేజ్ కంటెంట్ రెండింటినీ అర్థం చేసుకోవడానికి మరియు అర్థం చేసుకోవడానికి బాధ్యత వహిస్తుంది. ఇది అధునాతన మల్టీమోడల్ సెమాంటిక్ అవగాహన సామర్థ్యాలను కలిగి ఉంది, సంక్లిష్ట ఎడిటింగ్ అవసరాలను అమలు చేయగల గుప్త నియంత్రణ సంకేతాలుగా విడదీయడానికి వీలు కల్పిస్తుంది. ఈ ప్రక్రియ సూచనల యొక్క భాషా నిర్మాణాన్ని విశ్లేషించడం, సవరించవలసిన కీలక అంశాలను గుర్తించడం మరియు చిత్రం యొక్క వివిధ భాగాల మధ్య సంబంధాలను అర్థం చేసుకోవడం వంటివి కలిగి ఉంటుంది.
MLLM మాడ్యూల్ ఎడిటింగ్ సూచనలను డిఫ్యూషన్ మాడ్యూల్ అర్థం చేసుకోగల ప్రాతినిధ్యానికి మ్యాప్ చేయడానికి అధునాతన అల్గారిథమ్లను ఉపయోగిస్తుంది. ఈ ప్రాతినిధ్యం సూచనల యొక్క సెమాంటిక్ అర్థాన్ని కాపాడే విధంగా కావలసిన మార్పులను ఎన్కోడ్ చేస్తుంది మరియు ఫలితంగా వచ్చే సవరణలు వినియోగదారు ఉద్దేశానికి అనుగుణంగా ఉండేలా చేస్తుంది. ఉదాహరణకు, ఒక వినియోగదారు ‘నేపథ్యానికి సూర్యాస్తమయం జోడించమని’ అడిగితే, MLLM మాడ్యూల్ నేపథ్య ప్రాంతాన్ని గుర్తిస్తుంది, సూర్యాస్తమయం అనే భావనను గుర్తిస్తుంది మరియు నిర్దిష్ట ప్రాంతంలో వాస్తవిక సూర్యాస్తమయాన్ని సృష్టించమని డిఫ్యూషన్ మాడ్యూల్కు సూచించే నియంత్రణ సంకేతాన్ని ఉత్పత్తి చేస్తుంది.
ఎలుసిడేటింగ్ ద డిఫ్యూషన్ మాడ్యూల్
డిఫ్యూషన్ మాడ్యూల్ కళాకారుడిగా పనిచేస్తుంది, MLLM మాడ్యూల్ ద్వారా ఉత్పత్తి చేయబడిన గుప్త నియంత్రణ సంకేతాలను తీసుకుంటుంది మరియు వాటిని ఉపయోగించి అధిక విశ్వసనీయతతో చిత్రాన్ని పునర్నిర్మించడానికి లేదా సవరించడానికి. ఈ మాడ్యూల్ డిఫ్యూషన్ అని పిలువబడే ప్రక్రియను ఉపయోగిస్తుంది, ఇది క్రమంగా చిత్రానికి శబ్దాన్ని జోడించడం మరియు తరువాత కొత్త చిత్రాలను ఉత్పత్తి చేయడానికి లేదా ఇప్పటికే ఉన్న వాటిని సవరించడానికి ఈ ప్రక్రియను తిప్పికొట్టడం నేర్చుకోవడం. డిఫ్యూషన్ మాడ్యూల్ను చిత్రాల యొక్క విస్తారమైన డేటాసెట్లో శిక్షణ పొందుతుంది, ఇది వాస్తవికమైన మరియు దృశ్యమానంగా ఆకర్షణీయమైన ఫలితాలను ఉత్పత్తి చేయడానికి అనుమతిస్తుంది.
మార్పులు ఇప్పటికే ఉన్న కంటెంట్తో సజావుగా మిళితమయ్యేలా డిఫ్యూషన్ మాడ్యూల్ సవరించిన చిత్రం అసలు చిత్రం యొక్క వివరాలు, అల్లికలు మరియు లైటింగ్ ప్రభావాలను నిర్వహిస్తుందని నిర్ధారిస్తుంది. ఇది సవరణల శైలిని కూడా చిత్రంలోని మొత్తం సౌందర్యానికి సరిపోయేలా స్వీకరించగలదు, ఇది పొందికైన మరియు శ్రావ్యమైన ఫలితాన్ని సృష్టిస్తుంది. ఉదాహరణకు, ఒక వినియోగదారు ‘చిత్రాన్ని పెయింటింగ్ లాగా కనిపించేలా చేయమని’ కోరుకుంటే, డిఫ్యూషన్ మాడ్యూల్ అసలు కూర్పు మరియు కంటెంట్ను సంరక్షిస్తూ, చిత్రాన్ని ఒప్పించే పెయింటింగ్గా మార్చడానికి కళాత్మక ఫిల్టర్లు మరియు అల్లికలను వర్తింపజేయవచ్చు.
సినర్జీ: ద పవర్ ఆఫ్ డీకప్లింగ్
Step1X-Edit యొక్క వేరు చేయబడిన నిర్మాణం సాంప్రదాయ ఇమేజ్ ఎడిటింగ్ మోడళ్ల యొక్క ప్రాథమిక పరిమితిని పరిష్కరిస్తుంది, ఇక్కడ ‘అవగాహన’ మరియు ‘ఉత్పత్తి’ తరచుగా ముడిపడి ఉంటాయి మరియు వాటి సంబంధిత పనుల కోసం ఆప్టిమైజ్ చేయబడవు. ఈ విధధులను ప్రత్యేక మాడ్యూల్స్గా విభజించడం ద్వారా, Step1X-Edit సంక్లిష్ట ఎడిటింగ్ సూచనలను అమలు చేసేటప్పుడు అధిక ఖచ్చితత్వాన్ని మరియు నియంత్రణను సాధిస్తుంది. MLLM మాడ్యూల్ వినియోగదారు ఉద్దేశాన్ని ఖచ్చితంగా అర్థం చేసుకోవడంపై దృష్టి పెట్టగలదు, అయితే డిఫ్యూషన్ మాడ్యూల్ పేర్కొన్న అవసరాలను తీర్చే అధిక-నాణ్యత చిత్రాలను ఉత్పత్తి చేయడంపై దృష్టి పెట్టగలదు.
MLLM మరియు డిఫ్యూషన్ మాడ్యూల్స్ మధ్య ఈ సినర్జీ Step1X-Edit అనేక రకాల ఎడిటింగ్ పనులను గుర్తించదగిన ఖచ్చితత్వం మరియు స్థిరత్వంతో నిర్వహించడానికి వీలు కల్పిస్తుంది. ఇది చిత్రానికి సూక్ష్మమైన సర్దుబాట్లు చేయడం లేదా సంక్లిష్ట పరివర్తనలను చేయడం అయినా, Step1X-Edit దృశ్యమానంగా ఆకర్షణీయంగా మరియు సెమాంటిక్గా ఖచ్చితమైన ఫలితాలను అందించగలదు. వేరు చేయబడిన నిర్మాణం మోడల్ను మరింత మాడ్యులర్గా చేస్తుంది మరియు నవీకరించడాన్ని సులభతరం చేస్తుంది, ఇది డెవలపర్లు దాని పనితీరు మరియు సామర్థ్యాలను నిరంతరం మెరుగుపరచడానికి అనుమతిస్తుంది.
డేటాసెట్ ఇంజినీరింగ్: ద ఫౌండేషన్ ఆఫ్ పెర్ఫార్మెన్స్
Step1X-Edit నిర్వహించగల విభిన్న మరియు సంక్లిష్ట ఇమేజ్ ఎడిటింగ్ పనులకు మద్దతు ఇవ్వడానికి, డెవలపర్లు పరిశ్రమ-ప్రముఖ ఇమేజ్ ఎడిటింగ్ శిక్షణ డేటాను నిర్మించారు. ఈ డేటాలో విస్తారమైన ఇమేజ్-టెక్స్ట్ సూచన త్రికల సమాహారం ఉంది, వీటిని మోడల్ను విస్తృత శ్రేణి ఎడిటింగ్ ఆదేశాలను అర్థం చేసుకోవడానికి మరియు అమలు చేయడానికి శిక్షణ ఇవ్వడానికి ఉపయోగిస్తారు. డేటాలో 20 మిలియన్ల త్రికలు ఉన్నాయి, వీటిలో 1 మిలియన్ కంటే ఎక్కువ అధిక-నాణ్యత నమూనాలు ఉన్నాయి, ఇవి ఖచ్చితత్వం మరియు స్థిరత్వాన్ని నిర్ధారించడానికి జాగ్రత్తగా క్యూరేట్ చేయబడ్డాయి.
డేటా టెక్స్ట్ పునఃస్థాపన, చర్య ఉత్పత్తి, శైలి బదిలీ మరియు నేపథ్య సర్దుబాటు వంటి తరచుగా అభ్యర్థించిన లక్షణాలను కలిగి ఉన్న 11 ప్రధాన పని రకాలను కవర్ చేస్తుంది. ఈ పని రకాలు డేటాసెట్ అంతటా సమానంగా పంపిణీ చేయబడతాయి, మోడల్ సమతుల్య శిక్షణ పొందుతుందని మరియు వివిధ ఎడిటింగ్ దృశ్యాలలో బాగా పనిచేస్తుందని నిర్ధారిస్తుంది. డేటాసెట్లో ఉపయోగించిన సూచన భాష సహజమైనది మరియు వాస్తవికమైనది, చిత్ర సవరణలను అభ్యర్థించేటప్పుడు ప్రజలు ఎలా కమ్యూనికేట్ చేస్తారో ప్రతిబింబిస్తుంది.
డేటాసెట్లో ‘చిత్రాన్ని మరింత వింటేజ్గా కనిపించేలా చేయండి’ లేదా ‘దృశ్యానికి నాటకీయతను జోడించండి’ వంటి సంక్లిష్టమైన మరియు సూక్ష్మమైన ఎడిటింగ్ సూచనల ఉదాహరణలు కూడా ఉన్నాయి. ఈ సూచనలకు మోడల్ నైరూప్య భావనలను అర్థం చేసుకోవాలి మరియు వాటిని సృజనాత్మకంగా మరియు దృశ్యమానంగా ఆకర్షణీయంగా చిత్రానికి వర్తింపజేయాలి. Step1X-Edit యొక్క పనితీరులో డేటాసెట్ యొక్క వైవిధ్యం మరియు గొప్పతనం కీలకమైన అంశాలు, ఇది గుర్తించదగిన ఖచ్చితత్వంతో మరియు పాండిత్యంతో అనేక రకాల ఎడిటింగ్ పనులను నిర్వహించడానికి వీలు కల్పిస్తుంది.
బెంచ్మార్కింగ్ ఎక్సలెన్స్: GEdit-Bench
Step1X-Edit యొక్క పనితీరును కచ్చితంగా అంచనా వేయడానికి, డెవలపర్లు GEdit-Bench అనే స్వీయ-అభివృద్ధి చేసిన బెంచ్మార్క్ను సృష్టించారు. ఈ బెంచ్మార్క్ వివిధ ఇమేజ్ ఎడిటింగ్ దృశ్యాలలో మోడల్ యొక్క సామర్థ్యాలను సమగ్రంగా అంచనా వేయడానికి రూపొందించబడింది. మానవీయంగా సంశ్లేషణ చేయబడిన పని సేకరణల వలె కాకుండా, GEdit-Bench దాని పనులను నిజమైన సంఘం ఎడిటింగ్ అభ్యర్థనల నుండి తీసుకుంటుంది, ఇది వాస్తవ-ప్రపంచ అనువర్తనాల్లో మోడల్ పనితీరు యొక్క మరింత వాస్తవికమైన మరియు సంబంధిత కొలమానంగా చేస్తుంది.
GEdit-Bench లోని పనులు టెక్స్ట్ పునఃస్థాపన, వస్తువు తొలగింపు, శైలి బదిలీ మరియు నేపథ్య సర్దుబాటుతో సహా అనేక రకాల ఎడిటింగ్ కార్యకలాపాలను కవర్ చేస్తాయి. బెంచ్మార్క్లో ‘చిత్రాన్ని మరింత వృత్తిపరంగా కనిపించేలా చేయండి’ లేదా ‘దృశ్యానికి వెచ్చదనాన్ని జోడించండి’ వంటి సంక్లిష్టమైన మరియు సూక్ష్మమైన సూచనలను మోడల్ అర్థం చేసుకోవడానికి మరియు అమలు చేయడానికి అవసరమైన పనులు కూడా ఉన్నాయి. GEdit-Bench వాస్తవ-ప్రపంచ దృశ్యాలలో మోడల్ పనితీరు యొక్క మరింత ఖచ్చితమైన మరియు నమ్మదగిన అంచనాను అందిస్తుంది.
GEdit-Bench పై Step1X-Edit గుర్తించదగిన ఫలితాలను సాధించింది, సెమాంటిక్ స్థిరత్వం, ఇమేజ్ క్వాలిటీ మరియు మొత్తం స్కోర్ అనే మూడు ప్రధాన సూచికలలో ఇప్పటికే ఉన్న ఓపెన్-సోర్స్ మోడళ్లను అధిగమించింది. మోడల్ యొక్క పనితీరు GPT-4o కి దగ్గరగా ఉంది, భాషా అవగాహన మరియు ఇమేజ్ పునర్నిర్మాణం మధ్య ఆదర్శ సమతుల్యతను సాధించగల సామర్థ్యాన్ని ప్రదర్శిస్తుంది.
ముగింపులో, Step1X-Edit ఓపెన్-సోర్స్ ఇమేజ్ ఎడిటింగ్ టెక్నాలజీలో గణనీయమైన పురోగతిని సూచిస్తుంది. దీని వేరు చేయబడిన నిర్మాణం, విస్తారమైన శిక్షణ డేటా మరియు కఠినమైన బెంచ్మార్కింగ్ దీనిని అనేక రకాల ఎడిటింగ్ పనులకు శక్తివంతమైన మరియు బహుముఖ సాధనంగా చేస్తుంది. మీరు ప్రొఫెషనల్ ఫోటోగ్రాఫర్ అయినా, సోషల్ మీడియా ఔత్సాహికులైనా లేదా వారి చిత్రాలను మెరుగుపరచాలనుకునే వ్యక్తి అయినా, Step1X-Edit గుర్తించదగిన ఖచ్చితత్వంతో మరియు సులభంగా మీ లక్ష్యాలను సాధించడంలో మీకు సహాయపడుతుంది.