Step1X-Edit: ਇਕ ਕ੍ਰਾਂਤੀਕਾਰੀ ਓਪਨ-ਸੋਰਸ ਚਿੱਤਰ ਸੰਪਾਦਨ ਮਾਡਲ

Step1X-Edit, StepFun ਦੁਆਰਾ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਇੱਕ ਓਪਨ-ਸੋਰਸ ਚਿੱਤਰ ਸੰਪਾਦਨ ਮਾਡਲ ਹੈ, ਜਿਸ ਨੇ ਅਤਿ-ਆਧੁਨਿਕ (SOTA) ਪ੍ਰਦਰਸ਼ਨ ਹਾਸਲ ਕੀਤਾ ਹੈ। ਇਹ ਮਾਡਲ, ਜਿਸ ਵਿੱਚ 19 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ (7B MLLM + 12B DiT) ਹਨ, ਤਿੰਨ ਮੁੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਹੈ: ਸਟੀਕ ਅਰਥ ਵਿਗਿਆਨਕ ਵਿਸ਼ਲੇਸ਼ਣ, ਨਿਰੰਤਰ ਪਛਾਣ ਸੁਰੱਖਿਆ, ਅਤੇ ਉੱਚ-ਸ਼ੁੱਧਤਾ ਖੇਤਰ-ਪੱਧਰੀ ਨਿਯੰਤਰਣ। ਇਹ 11 ਕਿਸਮਾਂ ਦੇ ਆਮ ਚਿੱਤਰ ਸੰਪਾਦਨ ਕਾਰਜਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਟੈਕਸਟ ਬਦਲਣਾ, ਸ਼ੈਲੀ ਟ੍ਰਾਂਸਫਰ, ਸਮੱਗਰੀ ਪਰਿਵਰਤਨ, ਅਤੇ ਪੋਰਟਰੇਟ ਰੀਟਚਿੰਗ ਸ਼ਾਮਲ ਹਨ। Step1X-Edit ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸਮਝਣ, ਸਹੀ ਢੰਗ ਨਾਲ ਸੋਧਣ ਅਤੇ ਵੇਰਵਿਆਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ।

Step1X-Edit ਦੀਆਂ ਮੁੱਖ ਸਮਰੱਥਾਵਾਂ

Step1X-Edit ਮਲਟੀਮੋਡਲ ਲਾਰਜ ਲੈਂਗੂਏਜ ਮਾਡਲਜ਼ (MLLM) ਅਤੇ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ ਨੂੰ ਜੋੜਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਓਪਨ-ਸੋਰਸ ਫਰੇਮਵਰਕ ਦੇ ਅੰਦਰ ਸੰਪਾਦਨ ਦੀ ਸ਼ੁੱਧਤਾ ਅਤੇ ਚਿੱਤਰ ਵਫ਼ਾਦਾਰੀ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਹੁੰਦੇ ਹਨ। ਨਵੇਂ ਜਾਰੀ ਕੀਤੇ ਗਏ GEdit-Bench ਚਿੱਤਰ ਸੰਪਾਦਨ ਬੈਂਚਮਾਰਕ ਵਿੱਚ, Step1X-Edit ਮੌਜੂਦਾ ਓਪਨ-ਸੋਰਸ ਮਾਡਲਾਂ ਨੂੰ ਅਰਥ ਵਿਗਿਆਨਕ ਇਕਸਾਰਤਾ, ਚਿੱਤਰ ਗੁਣਵੱਤਾ ਅਤੇ ਸਮੁੱਚੇ ਸਕੋਰ ਵਿੱਚ ਪਛਾੜਦਾ ਹੈ, GPT-4o ਅਤੇ Gemini 2.0 Flash ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨਾਲ ਮੁਕਾਬਲਾ ਕਰਦਾ ਹੈ।

ਅਰਥ ਵਿਗਿਆਨਕ ਸ਼ੁੱਧਤਾ ਵਿਸ਼ਲੇਸ਼ਣ

ਇਹ ਮਾਡਲ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਵਿੱਚ ਦਰਸਾਏ ਗਏ ਨਿਰਦੇਸ਼ਾਂ ਦੇ ਗੁੰਝਲਦਾਰ ਸੰਜੋਗਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ। ਇਹਨਾਂ ਨਿਰਦੇਸ਼ਾਂ ਨੂੰ ਕਿਸੇ ਟੈਮਪਲੇਟ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ, ਜਿਸ ਨਾਲ ਮਾਡਲ ਲਚਕਦਾਰ ਬਣਦਾ ਹੈ ਅਤੇ ਮਲਟੀ-ਟਰਨ, ਮਲਟੀ-ਟਾਸਕ ਸੰਪਾਦਨ ਲੋੜਾਂ ਨੂੰ ਸੰਭਾਲਣ ਦੇ ਯੋਗ ਹੁੰਦਾ ਹੈ। ਇਹ ਚਿੱਤਰਾਂ ਵਿੱਚ ਟੈਕਸਟ ਦੀ ਪਛਾਣ, ਬਦਲਾਅ ਅਤੇ ਪੁਨਰ ਨਿਰਮਾਣ ਦਾ ਵੀ ਸਮਰਥਨ ਕਰਦਾ ਹੈ।

  • ਗੁੰਝਲਦਾਰ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਵਰਣਨਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ
  • ਕਿਸੇ ਸਥਿਰ ਟੈਮਪਲੇਟ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ
  • ਮਲਟੀ-ਟਰਨ, ਮਲਟੀ-ਟਾਸਕ ਸੰਪਾਦਨ ਦੇ ਸਮਰੱਥ
  • ਚਿੱਤਰਾਂ ਵਿੱਚ ਟੈਕਸਟ ਦੀ ਪਛਾਣ ਕਰਦਾ ਹੈ, ਬਦਲਦਾ ਹੈ ਅਤੇ ਪੁਨਰ ਨਿਰਮਾਣ ਕਰਦਾ ਹੈ

ਪਛਾਣ ਇਕਸਾਰਤਾ ਰੱਖ-ਰਖਾਅ

ਇਹ ਮਾਡਲ ਸੰਪਾਦਨ ਤੋਂ ਬਾਅਦ ਚਿਹਰੇ ਦੇ ਫੀਚਰਾਂ, ਪੋਜ਼ਾਂ ਅਤੇ ਪਛਾਣ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਲਗਾਤਾਰ ਸੁਰੱਖਿਅਤ ਰੱਖਦਾ ਹੈ। ਇਹ ਉੱਚ ਇਕਸਾਰਤਾ ਲੋੜਾਂ ਵਾਲੇ ਦ੍ਰਿਸ਼ਾਂ ਲਈ ਢੁਕਵਾਂ ਹੈ, ਜਿਵੇਂ ਕਿ ਵਰਚੁਅਲ ਮਨੁੱਖ, ਈ-ਕਾਮਰਸ ਮਾਡਲ, ਅਤੇ ਸੋਸ਼ਲ ਮੀਡੀਆ ਚਿੱਤਰ।

  • ਚਿਹਰੇ ਦੇ ਫੀਚਰਾਂ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦਾ ਹੈ
  • ਪੋਜ਼ਾਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਦਾ ਹੈ
  • ਪਛਾਣ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦਾ ਹੈ
  • ਵਰਚੁਅਲ ਮਨੁੱਖਾਂ, ਈ-ਕਾਮਰਸ ਮਾਡਲਾਂ, ਅਤੇ ਸੋਸ਼ਲ ਮੀਡੀਆ ਲਈ ਆਦਰਸ਼

ਉੱਚ-ਸ਼ੁੱਧਤਾ ਖੇਤਰੀ ਨਿਯੰਤਰਣ

ਇਹ ਮਾਡਲ ਖਾਸ ਖੇਤਰਾਂ ਵਿੱਚ ਟੈਕਸਟ, ਸਮੱਗਰੀ, ਰੰਗਾਂ ਅਤੇ ਹੋਰ ਤੱਤਾਂ ਦੇ ਨਿਸ਼ਾਨਾ ਸੰਪਾਦਨ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ। ਇਹ ਇੱਕ ਯੂਨੀਫਾਈਡ ਚਿੱਤਰ ਸ਼ੈਲੀ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦਾ ਹੈ ਅਤੇ ਹੋਰ ਸਟੀਕ ਨਿਯੰਤਰਣ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ।

  • ਖਾਸ ਖੇਤਰਾਂ ਵਿੱਚ ਨਿਸ਼ਾਨਾ ਸੰਪਾਦਨ
  • ਟੈਕਸਟ, ਸਮੱਗਰੀ ਅਤੇ ਰੰਗਾਂ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਦਾ ਹੈ
  • ਇੱਕ ਯੂਨੀਫਾਈਡ ਚਿੱਤਰ ਸ਼ੈਲੀ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦਾ ਹੈ
  • ਹੋਰ ਸਟੀਕ ਨਿਯੰਤਰਣ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ

ਆਰਕੀਟੈਕਚਰਲ ਨਵੀਨਤਾਵਾਂ

Step1X-Edit MLLM (ਮਲਟੀਮੋਡਲ LLM) + ਡਿਫਿਊਜ਼ਨ ਦੇ ਇੱਕ ਡੀਕਪਲਡ ਆਰਕੀਟੈਕਚਰ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੀ ਸਮਝ ਅਤੇ ਉੱਚ-ਵਫ਼ਾਦਾਰੀ ਚਿੱਤਰ ਉਤਪਾਦਨ ਨੂੰ ਵੱਖਰੇ ਤੌਰ ‘ਤੇ ਸੰਭਾਲਦਾ ਹੈ। ਮੌਜੂਦਾ ਚਿੱਤਰ ਸੰਪਾਦਨ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ, ਇਸ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਨਿਰਦੇਸ਼ ਜਨਰਲਾਈਜੇਸ਼ਨ ਯੋਗਤਾ ਅਤੇ ਚਿੱਤਰ ਨਿਯੰਤਰਣਯੋਗਤਾ ਵਿੱਚ ਫਾਇਦੇ ਹਨ।

MLLM ਮੋਡੀਊਲ

MLLM ਮੋਡੀਊਲ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਨਿਰਦੇਸ਼ਾਂ ਅਤੇ ਚਿੱਤਰ ਸਮੱਗਰੀ ਨੂੰ ਸੰਸਾਧਿਤ ਕਰਨ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਹੈ। ਇਸ ਵਿੱਚ ਮਲਟੀਮੋਡਲ ਅਰਥ ਵਿਗਿਆਨਕ ਸਮਝ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਹਨ, ਜੋ ਗੁੰਝਲਦਾਰ ਸੰਪਾਦਨ ਲੋੜਾਂ ਨੂੰ ਲੁਕਵੇਂ ਨਿਯੰਤਰਣ ਸਿਗਨਲਾਂ ਵਿੱਚ ਪਾਰਸ ਕਰ ਸਕਦੀਆਂ ਹਨ।

  • ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਨਿਰਦੇਸ਼ਾਂ ਨੂੰ ਸੰਸਾਧਿਤ ਕਰਦਾ ਹੈ
  • ਚਿੱਤਰ ਸਮੱਗਰੀ ਨੂੰ ਸੰਭਾਲਦਾ ਹੈ
  • ਮਲਟੀਮੋਡਲ ਅਰਥ ਵਿਗਿਆਨਕ ਸਮਝ
  • ਗੁੰਝਲਦਾਰ ਸੰਪਾਦਨ ਲੋੜਾਂ ਨੂੰ ਪਾਰਸ ਕਰਦਾ ਹੈ

ਡਿਫਿਊਜ਼ਨ ਮੋਡੀਊਲ

ਡਿਫਿਊਜ਼ਨ ਮੋਡੀਊਲ ਇੱਕ ਚਿੱਤਰ ਜਨਰੇਟਰ (ਇਮੇਜ ਡੀਕੋਡਰ) ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ, MLLM ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਲੁਕਵੇਂ ਸਿਗਨਲਾਂ ਦੇ ਆਧਾਰ ‘ਤੇ ਚਿੱਤਰਾਂ ਦੇ ਪੁਨਰ ਨਿਰਮਾਣ ਜਾਂ ਸਥਾਨਕ ਸੋਧ ਨੂੰ ਪੂਰਾ ਕਰਦਾ ਹੈ। ਇਹ ਚਿੱਤਰ ਵੇਰਵਿਆਂ ਦੀ ਸੁਰੱਖਿਆ ਅਤੇ ਸ਼ੈਲੀ ਦੀ ਇਕਸਾਰਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ।

  • ਚਿੱਤਰ ਜਨਰੇਟਰ (ਇਮੇਜ ਡੀਕੋਡਰ)
  • ਚਿੱਤਰਾਂ ਦਾ ਪੁਨਰ ਨਿਰਮਾਣ ਕਰਦਾ ਹੈ
  • ਸਥਾਨਕ ਤੌਰ ‘ਤੇ ਚਿੱਤਰਾਂ ਨੂੰ ਸੋਧਦਾ ਹੈ
  • ਚਿੱਤਰ ਵੇਰਵਿਆਂ ਅਤੇ ਸ਼ੈਲੀ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਦਾ ਹੈ

ਇਹ ਢਾਂਚਾ ਰਵਾਇਤੀ ਪਾਈਪਲਾਈਨ ਮਾਡਲਾਂ ਵਿੱਚ ਵੱਖਰੀ “ਸਮਝ” ਅਤੇ “ਉਤਪਾਦਨ” ਦੇ ਮੁੱਦੇ ਨੂੰ ਸੰਬੋਧਿਤ ਕਰਦਾ ਹੈ। ਇਹ ਮਾਡਲ ਨੂੰ ਗੁੰਝਲਦਾਰ ਸੰਪਾਦਨ ਨਿਰਦੇਸ਼ਾਂ ਨੂੰ ਲਾਗੂ ਕਰਦੇ ਸਮੇਂ ਉੱਚ ਸ਼ੁੱਧਤਾ ਅਤੇ ਨਿਯੰਤਰਣ ਰੱਖਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ।

ਸਿਖਲਾਈ ਡਾਟਾ

ਵੱਖ-ਵੱਖ ਗੁੰਝਲਦਾਰ ਚਿੱਤਰ ਸੰਪਾਦਨ ਕਾਰਜਾਂ ਦਾ ਸਮਰਥਨ ਕਰਨ ਲਈ, Step1X-Edit ਨੇ ਇੱਕ ਉਦਯੋਗ-ਪ੍ਰਮੁੱਖ ਚਿੱਤਰ ਸੰਪਾਦਨ ਸਿਖਲਾਈ ਡੇਟਾਸੈਟ ਬਣਾਇਆ ਹੈ। ਇਹ 20 ਮਿਲੀਅਨ ਚਿੱਤਰ-ਟੈਕਸਟ ਨਿਰਦੇਸ਼ ਟ੍ਰਿਪਲੇਟਸ ਤਿਆਰ ਕਰਦਾ ਹੈ ਅਤੇ ਅੰਤ ਵਿੱਚ 1 ਮਿਲੀਅਨ ਤੋਂ ਵੱਧ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਨਮੂਨਿਆਂ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦਾ ਹੈ। ਡਾਟਾ 11 ਕੋਰ ਟਾਸਕ ਕਿਸਮਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਅਕਸਰ ਬੇਨਤੀ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਸ਼ਾਮਲ ਹਨ ਜਿਵੇਂ ਕਿ ਟੈਕਸਟ ਬਦਲਣਾ, ਐਕਸ਼ਨ ਜਨਰੇਸ਼ਨ, ਸ਼ੈਲੀ ਟ੍ਰਾਂਸਫਰ, ਅਤੇ ਬੈਕਗ੍ਰਾਉਂਡ ਐਡਜਸਟਮੈਂਟ। ਟਾਸਕ ਦੀਆਂ ਕਿਸਮਾਂ ਬਰਾਬਰ ਵੰਡੀਆਂ ਜਾਂਦੀਆਂ ਹਨ, ਅਤੇ ਨਿਰਦੇਸ਼ ਭਾਸ਼ਾ ਕੁਦਰਤੀ ਅਤੇ ਯਥਾਰਥਵਾਦੀ ਹੈ।

  • ਉਦਯੋਗ-ਪ੍ਰਮੁੱਖ ਸਿਖਲਾਈ ਡੇਟਾਸੈਟ
  • 20 ਮਿਲੀਅਨ ਚਿੱਤਰ-ਟੈਕਸਟ ਨਿਰਦੇਸ਼ ਟ੍ਰਿਪਲੇਟਸ
  • 1 ਮਿਲੀਅਨ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਨਮੂਨੇ
  • 11 ਕੋਰ ਟਾਸਕ ਕਿਸਮਾਂ
  • ਬਰਾਬਰ ਵੰਡੀਆਂ ਟਾਸਕ ਕਿਸਮਾਂ

ਪ੍ਰਦਰਸ਼ਨ ਮੁਲਾਂਕਣ

Step1X-Edit ਲਗਾਤਾਰ ਚਿੱਤਰ ਸੰਪਾਦਨ ਦੇ 11 ਉਪ-ਕਾਰਜਾਂ ਵਿੱਚ ਉੱਚ-ਗੁਣਵੱਤਾ ਆਉਟਪੁੱਟ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦਾ ਹੈ। ਇਸਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੰਤੁਲਿਤ ਹਨ, ਅਤੇ ਇਹ ਲਗਭਗ ਸਾਰੇ ਟਾਸਕ ਡਾਇਮੈਨਸ਼ਨਾਂ ਵਿੱਚ ਮੋਹਰੀ ਰਹਿੰਦਾ ਹੈ, ਜੋ ਇਸਦੀ ਮਜ਼ਬੂਤ ​​ਬਹੁਪੱਖਤਾ ਅਤੇ ਸੰਤੁਲਨ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

GEdit-Bench ਬੈਂਚਮਾਰਕ

ਮਾਡਲ ਮੁਲਾਂਕਣ ਇੱਕ ਸਵੈ-ਵਿਕਸਤ GEdit-Bench ਬੈਂਚਮਾਰਕ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਹੱਥੀਂ ਸੰਸ਼ਲੇਸ਼ਿਤ ਟਾਸਕ ਸੰਗ੍ਰਹਾਂ ਦੇ ਉਲਟ, ਇਹ ਬੈਂਚਮਾਰਕ ਅਸਲ ਕਮਿਊਨਿਟੀ ਸੰਪਾਦਨ ਬੇਨਤੀਆਂ ਤੋਂ ਆਉਂਦਾ ਹੈ, ਜੋ ਉਤਪਾਦ ਲੋੜਾਂ ਦੇ ਨੇੜੇ ਹਨ।

  • ਸਵੈ-ਵਿਕਸਤ ਬੈਂਚਮਾਰਕ
  • ਅਸਲ ਕਮਿਊਨਿਟੀ ਸੰਪਾਦਨ ਬੇਨਤੀਆਂ
  • ਉਤਪਾਦ ਲੋੜਾਂ ਦੇ ਨੇੜੇ

Step1X-Edit GEdit-Bench ਦੇ ਤਿੰਨ ਕੋਰ ਸੂਚਕਾਂ ਵਿੱਚ ਮੌਜੂਦਾ ਓਪਨ-ਸੋਰਸ ਮਾਡਲਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਅਗਵਾਈ ਕਰਦਾ ਹੈ। ਇਹ GPT-4o ਦੇ ਨੇੜੇ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਭਾਸ਼ਾ ਦੀ ਸਮਝ ਅਤੇ ਚਿੱਤਰ ਪੁਨਰ ਨਿਰਮਾਣ ਦੇ ਵਿਚਕਾਰ ਇੱਕ ਆਦਰਸ਼ ਸੰਤੁਲਨ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ।

ਸਮਰੱਥਾਵਾਂ ਦੀ ਵਿਸਤ੍ਰਿਤ ਜਾਂਚ

Step1X-Edit ਸਿਰਫ਼ ਚਿੱਤਰਾਂ ਨੂੰ ਬਦਲਣ ਬਾਰੇ ਨਹੀਂ ਹੈ; ਇਹ ਸੰਪਾਦਨਾਂ ਦੇ ਪਿੱਛੇ ਇਰਾਦੇ ਨੂੰ ਸੱਚਮੁੱਚ ਸਮਝਣ, ਉਹਨਾਂ ਨੂੰ ਸ਼ੁੱਧਤਾ ਨਾਲ ਲਾਗੂ ਕਰਨ, ਅਤੇ ਅਸਲ ਚਿੱਤਰ ਦੀ ਅਖੰਡਤਾ ਦੀ ਰੱਖਿਆ ਕਰਨ ਬਾਰੇ ਹੈ। ਕੋਰ ਸਮਰੱਥਾਵਾਂ—ਅਰਥ ਵਿਗਿਆਨਕ ਸ਼ੁੱਧਤਾ, ਪਛਾਣ ਇਕਸਾਰਤਾ, ਅਤੇ ਉੱਚ-ਸ਼ੁੱਧਤਾ ਖੇਤਰ ਨਿਯੰਤਰਣ—ਨੂੰ ਆਧੁਨਿਕ ਚਿੱਤਰ ਸੰਪਾਦਨ ਦੀਆਂ ਸੂਖਮ ਮੰਗਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ।

ਡੂੰਘਾਈ ਵਿੱਚ ਅਰਥ ਵਿਗਿਆਨਕ ਸ਼ੁੱਧਤਾ ਵਿਸ਼ਲੇਸ਼ਣ

Step1X-Edit ਦਾ ਅਰਥ ਵਿਗਿਆਨਕ ਸ਼ੁੱਧਤਾ ਵਿਸ਼ਲੇਸ਼ਣ ਸਧਾਰਨ ਕੀਵਰਡ ਪਛਾਣ ਤੋਂ ਪਰੇ ਹੈ। ਇਹ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਵਰਣਨਾਂ ਦੇ ਸੰਦਰਭ ਵਿੱਚ ਜਾਂਦਾ ਹੈ, ਨਿਰਦੇਸ਼ਾਂ ਦੇ ਗੁੰਝਲਦਾਰ ਸੰਜੋਗਾਂ ਨੂੰ ਸਮਝਦਾ ਹੈ। ਸਖ਼ਤ ਟੈਮਪਲੇਟਾਂ ‘ਤੇ ਨਿਰਭਰ ਕਰਨ ਵਾਲੇ ਸਿਸਟਮਾਂ ਦੇ ਉਲਟ, Step1X-Edit ਮੁਫਤ-ਫਾਰਮ ਭਾਸ਼ਾ ਦੀ ਵਿਆਖਿਆ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਵੱਖ-ਵੱਖ ਸੰਪਾਦਨ ਦ੍ਰਿਸ਼ਾਂ ਲਈ ਬਹੁਤ ਜ਼ਿਆਦਾ ਅਨੁਕੂਲ ਹੋ ਜਾਂਦਾ ਹੈ। ਇਹ ਮਲਟੀ-ਟਰਨ ਅਤੇ ਮਲਟੀ-ਟਾਸਕ ਸੰਪਾਦਨ ਨੂੰ ਨਿਰਵਿਘਨ ਢੰਗ ਨਾਲ ਸੰਭਾਲਦਾ ਹੈ, ਇਕਸਾਰ ਨਤੀਜੇ ਪੈਦਾ ਕਰਨ ਲਈ ਲਗਾਤਾਰ ਨਿਰਦੇਸ਼ਾਂ ਵਿਚਕਾਰ ਸਬੰਧਾਂ ਨੂੰ ਸਮਝਦਾ ਹੈ।

ਇਸ ਉਦਾਹਰਣ ‘ਤੇ ਵਿਚਾਰ ਕਰੋ: ਇੱਕ ਉਪਭੋਗਤਾ ਇੱਕ ਚਿੱਤਰ ਵਿੱਚ ਇੱਕ ਚਿੰਨ੍ਹ ‘ਤੇ ਟੈਕਸਟ ਬਦਲਣਾ ਚਾਹੁੰਦਾ ਹੈ ਅਤੇ ਫਿਰ ਇੱਕ ਵੱਖਰੇ ਥੀਮ ਨਾਲ ਮੇਲ ਕਰਨ ਲਈ ਚਿੰਨ੍ਹ ਦੇ ਰੰਗ ਨੂੰ ਬਦਲਣਾ ਚਾਹੁੰਦਾ ਹੈ। Step1X-Edit ਸਿਰਫ਼ ਟੈਕਸਟ ਨੂੰ ਬਦਲਦਾ ਅਤੇ ਰੰਗ ਨੂੰ ਬਦਲਦਾ ਹੀ ਨਹੀਂ ਹੈ; ਇਹ ਸਮਝਦਾ ਹੈ ਕਿ ਚਿੰਨ੍ਹ ਇੱਕ ਸਿੰਗਲ ਵਸਤੂ ਹੈ ਅਤੇ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਟੈਕਸਟ ਅਤੇ ਰੰਗ ਤਬਦੀਲੀਆਂ ਇੱਕ ਦੂਜੇ ਅਤੇ ਸਮੁੱਚੇ ਚਿੱਤਰ ਦੇ ਅਨੁਕੂਲ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਮਾਡਲ ਚਿੱਤਰਾਂ ਦੇ ਅੰਦਰ ਟੈਕਸਟ ਦੀ ਪਛਾਣ ਅਤੇ ਪੁਨਰ ਨਿਰਮਾਣ ਕਰ ਸਕਦਾ ਹੈ, ਭਾਵੇਂ ਇਹ ਅੰਸ਼ਕ ਤੌਰ ‘ਤੇ ਧੁੰਦਲਾ ਹੋਵੇ ਜਾਂ ਵਿਗੜਿਆ ਹੋਵੇ। ਇਹ ਸਮਰੱਥਾ ਖਾਸ ਤੌਰ ‘ਤੇ ਸਕੈਨ ਕੀਤੇ ਦਸਤਾਵੇਜ਼ਾਂ ਜਾਂ ਓਵਰਲੇਡ ਟੈਕਸਟ ਵਾਲੇ ਚਿੱਤਰਾਂ ਨੂੰ ਸੰਪਾਦਿਤ ਕਰਨ ਲਈ ਲਾਭਦਾਇਕ ਹੈ।

ਪਛਾਣ ਇਕਸਾਰਤਾ ਰੱਖ-ਰਖਾਅ ਸਮਝਾਈ ਗਈ

ਪਛਾਣ ਇਕਸਾਰਤਾ ਨੂੰ ਬਣਾਈ ਰੱਖਣਾ ਉਹਨਾਂ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਹੈ ਜਿੱਥੇ ਚਿੱਤਰਾਂ ਵਿੱਚ ਵਿਸ਼ਿਆਂ ਨੂੰ ਬਦਲਾਵਾਂ ਦੇ ਬਾਵਜੂਦ ਪਛਾਣਨ ਯੋਗ ਰਹਿਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ ਵਰਚੁਅਲ ਮਨੁੱਖੀ ਐਪਲੀਕੇਸ਼ਨਾਂ, ਈ-ਕਾਮਰਸ ਮਾਡਲਿੰਗ, ਅਤੇ ਸੋਸ਼ਲ ਮੀਡੀਆ ਸਮੱਗਰੀ ਬਣਾਉਣ ਵਿੱਚ ਖਾਸ ਤੌਰ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਹੈ। Step1X-Edit ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਚਿਹਰੇ ਦੇ ਫੀਚਰ, ਪੋਜ਼ ਅਤੇ ਵਿਲੱਖਣ ਪਛਾਣ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਸੰਪਾਦਨ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ ਸੁਰੱਖਿਅਤ ਰੱਖਿਆ ਗਿਆ ਹੈ।

ਉਦਾਹਰਨ ਲਈ, ਜੇਕਰ ਕੋਈ ਉਪਭੋਗਤਾ ਇੱਕ ਚਿੱਤਰ ਵਿੱਚ ਇੱਕ ਵਰਚੁਅਲ ਮਾਡਲ ਦੇ ਪਹਿਰਾਵੇ ਨੂੰ ਬਦਲਣਾ ਚਾਹੁੰਦਾ ਹੈ, ਤਾਂ Step1X-Edit ਮਾਡਲ ਦੇ ਚਿਹਰੇ ਦੇ ਫੀਚਰਾਂ, ਹੇਅਰ ਸਟਾਈਲ ਅਤੇ ਸਰੀਰ ਦੇ ਅਨੁਪਾਤ ਨੂੰ ਬਣਾਈ ਰੱਖਦਾ ਹੈ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਸੰਪਾਦਿਤ ਚਿੱਤਰ ਅਜੇ ਵੀ ਅਸਲ ਮਾਡਲ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਦਰਸਾਉਂਦਾ ਹੈ। ਇਸੇ ਤਰ੍ਹਾਂ, ਈ-ਕਾਮਰਸ ਵਿੱਚ, ਜਿੱਥੇ ਮਾਡਲ ਉਤਪਾਦਾਂ ਨੂੰ ਦਿਖਾਉਂਦੇ ਹਨ, ਗਾਹਕਾਂ ਨੂੰ ਉਲਝਣ ਤੋਂ ਬਚਾਉਣ ਲਈ ਮਾਡਲ ਦੀ ਦਿੱਖ ਵੱਖ-ਵੱਖ ਚਿੱਤਰਾਂ ਵਿੱਚ ਇਕਸਾਰ ਰਹਿਣੀ ਚਾਹੀਦੀ ਹੈ।

ਉੱਚ-ਸ਼ੁੱਧਤਾ ਖੇਤਰੀ ਨਿਯੰਤਰਣ ਵਧਾਇਆ ਗਿਆ

ਉੱਚ-ਸ਼ੁੱਧਤਾ ਖੇਤਰੀ ਨਿਯੰਤਰਣ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਦ੍ਰਿਸ਼ ਦੇ ਬਾਕੀ ਹਿੱਸੇ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕੀਤੇ ਬਿਨਾਂ ਚਿੱਤਰ ਦੇ ਖਾਸ ਖੇਤਰਾਂ ਵਿੱਚ ਨਿਸ਼ਾਨਾ ਸੰਪਾਦਨ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ ਸਮਰੱਥਾ ਉਹਨਾਂ ਕਾਰਜਾਂ ਲਈ ਜ਼ਰੂਰੀ ਹੈ ਜਿਹਨਾਂ ਲਈ ਵਧੀਆ-ਧੁਨ ਵਾਲੀਆਂ ਵਿਵਸਥਾਵਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਕੱਪੜੇ ਦਾ ਰੰਗ ਬਦਲਣਾ, ਕਿਸੇ ਵਸਤੂ ਦੇ ਟੈਕਸਚਰ ਨੂੰ ਬਦਲਣਾ, ਜਾਂ ਕਿਸੇ ਖਾਸ ਖੇਤਰ ਵਿੱਚ ਖਾਸ ਤੱਤਾਂ ਨੂੰ ਜੋੜਨਾ। Step1X-Edit ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਖਾਸ ਖੇਤਰਾਂ ਨੂੰ ਚੁਣਨ ਅਤੇ ਸ਼ਾਨਦਾਰ ਸ਼ੁੱਧਤਾ ਨਾਲ ਸੰਪਾਦਨ ਲਾਗੂ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਤਬਦੀਲੀਆਂ ਮੌਜੂਦਾ ਚਿੱਤਰ ਨਾਲ ਨਿਰਵਿਘਨ ਰਲ਼ ਜਾਣ।

ਇੱਕ ਅਜਿਹੇ ਦ੍ਰਿਸ਼ ਦੀ ਕਲਪਨਾ ਕਰੋ ਜਿੱਥੇ ਇੱਕ ਉਪਭੋਗਤਾ ਇੱਕ ਫੋਟੋ ਵਿੱਚ ਇੱਕ ਕਾਰ ਦਾ ਰੰਗ ਬਦਲਣਾ ਚਾਹੁੰਦਾ ਹੈ ਪਰ ਪ੍ਰਤੀਬਿੰਬਾਂ ਅਤੇ ਪਰਛਾਵਿਆਂ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਣਾ ਚਾਹੁੰਦਾ ਹੈ। Step1X-Edit ਕਾਰ ਨੂੰ ਅਲੱਗ ਕਰ ਸਕਦਾ ਹੈ, ਇਸਦਾ ਰੰਗ ਬਦਲ ਸਕਦਾ ਹੈ, ਅਤੇ ਅਸਲ ਰੋਸ਼ਨੀ ਪ੍ਰਭਾਵਾਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖ ਸਕਦਾ ਹੈ, ਇੱਕ ਯਥਾਰਥਵਾਦੀ ਅਤੇ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਆਕਰਸ਼ਕ ਨਤੀਜਾ ਬਣਾ ਸਕਦਾ ਹੈ। ਮਾਡਲ ਇਹ ਵੀ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਚਿੱਤਰ ਦੀ ਸਮੁੱਚੀ ਸ਼ੈਲੀ ਅਤੇ ਸੁਹਜ ਇਕਸਾਰ ਰਹੇ, ਸੰਪਾਦਿਤ ਖੇਤਰਾਂ ਨੂੰ ਬੇਢੰਗੇ ਦਿਸਣ ਤੋਂ ਰੋਕਦਾ ਹੈ।

ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਡੀਕੋਡ ਕਰਨਾ: MLLM + ਡਿਫਿਊਜ਼ਨ

Step1X-Edit ਦਾ ਡੀਕਪਲਡ ਆਰਕੀਟੈਕਚਰ, ਮਲਟੀਮੋਡਲ ਲਾਰਜ ਲੈਂਗੂਏਜ ਮਾਡਲਜ਼ (MLLM) ਅਤੇ ਡਿਫਿਊਜ਼ਨ ਮਾਡਲਾਂ ਦਾ ਸੁਮੇਲ, ਚਿੱਤਰ ਸੰਪਾਦਨ ਤਕਨਾਲੋਜੀ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਇਹ ਡਿਜ਼ਾਈਨ ਕਿਰਤ ਦੀ ਵੰਡ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ ਜਿੱਥੇ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੀ ਸਮਝ ਅਤੇ ਉੱਚ-ਵਫ਼ਾਦਾਰੀ ਚਿੱਤਰ ਉਤਪਾਦਨ ਨੂੰ ਵੱਖਰੇ ਮੋਡੀਊਲਾਂ ਦੁਆਰਾ ਸੰਭਾਲਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਉਹਨਾਂ ਦੇ ਸੰਬੰਧਿਤ ਕਾਰਜਾਂ ਲਈ ਅਨੁਕੂਲਿਤ ਹੁੰਦੇ ਹਨ।

MLLM ਮੋਡੀਊਲ ਵਿੱਚ ਡੂੰਘੀ ਡੁਬਕੀ

MLLM ਮੋਡੀਊਲ ਸਿਸਟਮ ਦੇ ਦਿਮਾਗ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ, ਜੋ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਨਿਰਦੇਸ਼ਾਂ ਅਤੇ ਚਿੱਤਰ ਸਮੱਗਰੀ ਦੋਵਾਂ ਨੂੰ ਸਮਝਣ ਅਤੇ ਵਿਆਖਿਆ ਕਰਨ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਹੈ। ਇਸ ਵਿੱਚ ਉੱਨਤ ਮਲਟੀਮੋਡਲ ਅਰਥ ਵਿਗਿਆਨਕ ਸਮਝ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਹਨ, ਜੋ ਇਸਨੂੰ ਗੁੰਝਲਦਾਰ ਸੰਪਾਦਨ ਲੋੜਾਂ ਨੂੰ ਕਾਰਵਾਈਯੋਗ ਲੁਕਵੇਂ ਨਿਯੰਤਰਣ ਸਿਗਨਲਾਂ ਵਿੱਚ ਕੱਟਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦੀਆਂ ਹਨ। ਇਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਭਾਸ਼ਾਈ ਬਣਤਰ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨਾ, ਸੋਧ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਮੁੱਖ ਤੱਤਾਂ ਦੀ ਪਛਾਣ ਕਰਨਾ, ਅਤੇ ਚਿੱਤਰ ਦੇ ਵੱਖ-ਵੱਖ ਹਿੱਸਿਆਂ ਵਿਚਕਾਰ ਸਬੰਧਾਂ ਨੂੰ ਸਮਝਣਾ ਸ਼ਾਮਲ ਹੈ।

MLLM ਮੋਡੀਊਲ ਸੰਪਾਦਨ ਨਿਰਦੇਸ਼ਾਂ ਨੂੰ ਇੱਕ ਪ੍ਰਤੀਨਿਧਤਾ ਲਈ ਮੈਪ ਕਰਨ ਲਈ ਗੁੰਝਲਦਾਰ ਐਲਗੋਰਿਦਮ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਜਿਸਨੂੰ ਡਿਫਿਊਜ਼ਨ ਮੋਡੀਊਲ ਸਮਝ ਸਕਦਾ ਹੈ। ਇਹ ਪ੍ਰਤੀਨਿਧਤਾ ਲੋੜੀਂਦੀਆਂ ਤਬਦੀਲੀਆਂ ਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਏਨਕੋਡ ਕਰਦੀ ਹੈ ਜੋ ਨਿਰਦੇਸ਼ਾਂ ਦੇ ਅਰਥ ਵਿਗਿਆਨਕ ਅਰਥ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਦੀ ਹੈ ਅਤੇ ਯਕੀਨੀ ਬਣਾਉਂਦੀ ਹੈ ਕਿ ਨਤੀਜੇ ਵਜੋਂ ਹੋਣ ਵਾਲੇ ਸੰਪਾਦਨ ਉਪਭੋਗਤਾ ਦੇ ਇਰਾਦੇ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ। ਉਦਾਹਰਨ ਲਈ, ਜੇਕਰ ਕੋਈ ਉਪਭੋਗਤਾ “ਬੈਕਗ੍ਰਾਉਂਡ ਵਿੱਚ ਸੂਰਜ ਡੁੱਬਣਾ ਸ਼ਾਮਲ ਕਰਨ” ਲਈ ਕਹਿੰਦਾ ਹੈ, ਤਾਂ MLLM ਮੋਡੀਊਲ ਬੈਕਗ੍ਰਾਉਂਡ ਖੇਤਰ ਦੀ ਪਛਾਣ ਕਰਦਾ ਹੈ, ਸੂਰਜ ਡੁੱਬਣ ਦੀ ਧਾਰਨਾ ਨੂੰ ਪਛਾਣਦਾ ਹੈ, ਅਤੇ ਇੱਕ ਨਿਯੰਤਰਣ ਸਿਗਨਲ ਤਿਆਰ ਕਰਦਾ ਹੈ ਜੋ ਡਿਫਿਊਜ਼ਨ ਮੋਡੀਊਲ ਨੂੰ ਨਿਰਧਾਰਤ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਯਥਾਰਥਵਾਦੀ ਸੂਰਜ ਡੁੱਬਣਾ ਬਣਾਉਣ ਲਈ ਨਿਰਦੇਸ਼ ਦਿੰਦਾ ਹੈ।

ਡਿਫਿਊਜ਼ਨ ਮੋਡੀਊਲ ਨੂੰ ਸਪੱਸ਼ਟ ਕਰਨਾ

ਡਿਫਿਊਜ਼ਨ ਮੋਡੀਊਲ ਕਲਾਕਾਰ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ, MLLM ਮੋਡੀਊਲ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਲੁਕਵੇਂ ਨਿਯੰਤਰਣ ਸਿਗਨਲਾਂ ਨੂੰ ਲੈਂਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਦੀ ਵਰਤੋਂ ਚਿੱਤਰ ਨੂੰ ਉੱਚ ਵਫ਼ਾਦਾਰੀ ਨਾਲ ਪੁਨਰ ਨਿਰਮਾਣ ਜਾਂ ਸੋਧਣ ਲਈ ਕਰਦਾ ਹੈ। ਇਹ ਮੋਡੀਊਲ ਡਿਫਿਊਜ਼ਨ ਨਾਮਕ ਇੱਕ ਪ੍ਰਕਿਰਿਆ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਹੌਲੀ-ਹੌਲੀ ਚਿੱਤਰ ਵਿੱਚ ਸ਼ੋਰ ਜੋੜਨਾ ਅਤੇ ਫਿਰ ਨਵੇਂ ਚਿੱਤਰ ਤਿਆਰ ਕਰਨ ਜਾਂ ਮੌਜੂਦਾ ਚਿੱਤਰਾਂ ਨੂੰ ਸੋਧਣ ਲਈ ਇਸ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਉਲਟਾਉਣਾ ਸਿੱਖਣਾ ਸ਼ਾਮਲ ਹੈ। ਡਿਫਿਊਜ਼ਨ ਮੋਡੀਊਲ ਨੂੰ ਚਿੱਤਰਾਂ ਦੇ ਇੱਕ ਵਿਸ਼ਾਲ ਡੇਟਾਸੈਟ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਯਥਾਰਥਵਾਦੀ ਅਤੇ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਆਕਰਸ਼ਕ ਨਤੀਜੇ ਪੈਦਾ ਕਰਨ ਦੇ ਯੋਗ ਹੁੰਦਾ ਹੈ।

ਡਿਫਿਊਜ਼ਨ ਮੋਡੀਊਲ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਸੋਧਿਆ ਹੋਇਆ ਚਿੱਤਰ ਅਸਲ ਚਿੱਤਰ ਦੇ ਵੇਰਵਿਆਂ, ਟੈਕਸਚਰ ਅਤੇ ਰੋਸ਼ਨੀ ਪ੍ਰਭਾਵਾਂਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦਾ ਹੈ, ਮੌਜੂਦਾ ਸਮੱਗਰੀ ਨਾਲ ਬਦਲਾਵਾਂ ਨੂੰ ਨਿਰਵਿਘਨ ਢੰਗ ਨਾਲ ਮਿਲਾਉਂਦਾ ਹੈ। ਇਹ ਚਿੱਤਰ ਦੇ ਸਮੁੱਚੇ ਸੁਹਜ ਨਾਲ ਮੇਲ ਕਰਨ ਲਈ ਸੰਪਾਦਨਾਂ ਦੀ ਸ਼ੈਲੀ ਨੂੰ ਵੀ ਅਨੁਕੂਲ ਕਰ ਸਕਦਾ ਹੈ, ਇੱਕ ਇਕਸਾਰ ਅਤੇ ਸੁਮੇਲ ਵਾਲਾ ਨਤੀਜਾ ਬਣਾ ਸਕਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਜੇਕਰ ਕੋਈ ਉਪਭੋਗਤਾ “ਚਿੱਤਰ ਨੂੰ ਪੇਂਟਿੰਗ ਵਰਗਾ ਬਣਾਉਣ” ਲਈ ਕਹਿੰਦਾ ਹੈ, ਤਾਂ ਡਿਫਿਊਜ਼ਨ ਮੋਡੀਊਲ ਚਿੱਤਰ ਨੂੰ ਇੱਕ ਯਕੀਨਨ ਪੇਂਟਿੰਗ ਵਿੱਚ ਬਦਲਣ ਲਈ ਕਲਾਤਮਕ ਫਿਲਟਰ ਅਤੇ ਟੈਕਸਚਰ ਲਾਗੂ ਕਰ ਸਕਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਅਸਲ ਰਚਨਾ ਅਤੇ ਸਮੱਗਰੀ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਦਾ ਹੈ।

ਤਾਲਮੇਲ: ਡੀਕਪਲਿੰਗ ਦੀ ਸ਼ਕਤੀ

Step1X-Edit ਦਾ ਡੀਕਪਲਡ ਆਰਕੀਟੈਕਚਰ ਰਵਾਇਤੀ ਚਿੱਤਰ ਸੰਪਾਦਨ ਮਾਡਲਾਂ ਦੀ ਇੱਕ ਬੁਨਿਆਦੀ ਸੀਮਾ ਨੂੰ ਸੰਬੋਧਿਤ ਕਰਦਾ ਹੈ, ਜਿੱਥੇ “ਸਮਝ” ਅਤੇ “ਉਤਪਾਦਨ” ਅਕਸਰ ਆਪਸ ਵਿੱਚ ਜੁੜੇ ਹੁੰਦੇ ਹਨ ਅਤੇ ਉਹਨਾਂ ਦੇ ਸੰਬੰਧਿਤ ਕਾਰਜਾਂ ਲਈ ਅਨੁਕੂਲਿਤ ਨਹੀਂ ਹੁੰਦੇ ਹਨ। ਇਹਨਾਂ ਫੰਕਸ਼ਨਾਂ ਨੂੰ ਵੱਖਰੇ ਮੋਡੀਊਲਾਂ ਵਿੱਚ ਵੱਖ ਕਰਕੇ, Step1X-Edit ਗੁੰਝਲਦਾਰ ਸੰਪਾਦਨ ਨਿਰਦੇਸ਼ਾਂ ਨੂੰ ਲਾਗੂ ਕਰਦੇ ਸਮੇਂ ਉੱਚ ਸ਼ੁੱਧਤਾ ਅਤੇ ਨਿਯੰਤਰਣ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। MLLM ਮੋਡੀਊਲ ਉਪਭੋਗਤਾ ਦੇ ਇਰਾਦੇ ਦੀ ਸਹੀ ਵਿਆਖਿਆ ਕਰਨ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰ ਸਕਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਡਿਫਿਊਜ਼ਨ ਮੋਡੀਊਲ ਨਿਰਧਾਰਤ ਲੋੜਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਾਲੇ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਚਿੱਤਰਾਂ ਨੂੰ ਤਿਆਰ ਕਰਨ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰ ਸਕਦਾ ਹੈ।

MLLM ਅਤੇ ਡਿਫਿਊਜ਼ਨ ਮੋਡੀਊਲਾਂ ਵਿਚਕਾਰ ਇਹ ਤਾਲਮੇਲ Step1X-Edit ਨੂੰ ਸ਼ਾਨਦਾਰ ਸ਼ੁੱਧਤਾ ਅਤੇ ਇਕਸਾਰਤਾ ਨਾਲ ਸੰਪਾਦਨ ਕਾਰਜਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਨੂੰ ਸੰਭਾਲਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ। ਭਾਵੇਂ ਇਹ ਇੱਕ ਚਿੱਤਰ ਵਿੱਚ ਸੂਖਮ ਵਿਵਸਥਾਵਾਂ ਕਰ ਰਿਹਾ ਹੈ ਜਾਂ ਗੁੰਝਲਦਾਰ ਪਰਿਵਰਤਨ ਕਰ ਰਿਹਾ ਹੈ, Step1X-Edit ਅਜਿਹੇ ਨਤੀਜੇ ਦੇ ਸਕਦਾ ਹੈ ਜੋ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਆਕਰਸ਼ਕ ਅਤੇ ਅਰਥ ਵਿਗਿਆਨਕ ਤੌਰ ‘ਤੇ ਸਹੀ ਹਨ। ਡੀਕਪਲਡ ਆਰਕੀਟੈਕਚਰ ਮਾਡਲ ਨੂੰ ਵਧੇਰੇ ਮਾਡਿਊਲਰ ਅਤੇ ਅੱਪਡੇਟ ਕਰਨਾ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਇਸਦੇ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਲਗਾਤਾਰ ਬਿਹਤਰ ਬਣਾਉਣ ਦੀ ਇਜਾਜ਼ਤ ਮਿਲਦੀ ਹੈ।

ਡੇਟਾਸੈਟ ਇੰਜੀਨੀਅਰਿੰਗ: ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਬੁਨਿਆਦ

ਵੱਖ-ਵੱਖ ਅਤੇ ਗੁੰਝਲਦਾਰ ਚਿੱਤਰ ਸੰਪਾਦਨ ਕਾਰਜਾਂ ਦਾ ਸਮਰਥਨ ਕਰਨ ਲਈ ਜਿਨ੍ਹਾਂ ਨੂੰ Step1X-Edit ਸੰਭਾਲ ਸਕਦਾ ਹੈ, ਡਿਵੈਲਪਰਾਂ ਨੇ ਇੱਕ ਉਦਯੋਗ-ਪ੍ਰਮੁੱਖ ਚਿੱਤਰ ਸੰਪਾਦਨ ਸਿਖਲਾਈ ਡੇਟਾਸੈਟ ਬਣਾਇਆ ਹੈ। ਇਸ ਡੇਟਾਸੈਟ ਵਿੱਚ ਚਿੱਤਰ-ਟੈਕਸਟ ਨਿਰਦੇਸ਼ ਟ੍ਰਿਪਲੇਟਸ ਦਾ ਇੱਕ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਸ਼ਾਮਲ ਹੈ, ਜਿਨ੍ਹਾਂ ਦੀ ਵਰਤੋਂ ਮਾਡਲ ਨੂੰ ਵੱਖ-ਵੱਖ ਸੰਪਾਦਨ ਕਮਾਂਡਾਂ ਨੂੰ ਸਮਝਣ ਅਤੇ ਲਾਗੂ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਡੇਟਾਸੈਟ ਵਿੱਚ 20 ਮਿਲੀਅਨ ਟ੍ਰਿਪਲੇਟਸ ਸ਼ਾਮਲ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ 1 ਮਿਲੀਅਨ ਤੋਂ ਵੱਧ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਨਮੂਨੇ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਸ਼ੁੱਧਤਾ ਅਤੇ ਇਕਸਾਰਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਧਿਆਨ ਨਾਲ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ।

ਡਾਟਾ 11 ਕੋਰ ਟਾਸਕ ਕਿਸਮਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਅਕਸਰ ਬੇਨਤੀ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਸ਼ਾਮਲ ਹਨ ਜਿਵੇਂ ਕਿ ਟੈਕਸਟ ਬਦਲਣਾ, ਐਕਸ਼ਨ ਜਨਰੇਸ਼ਨ, ਸ਼ੈਲੀ ਟ੍ਰਾਂਸਫਰ, ਅਤੇ ਬੈਕਗ੍ਰਾਉਂਡ ਐਡਜਸਟਮੈਂਟ। ਇਹ ਟਾਸਕ ਕਿਸਮਾਂ ਪੂਰੇ ਡੇਟਾਸੈਟ ਵਿੱਚ ਬਰਾਬਰ ਵੰਡੀਆਂ ਗਈਆਂ ਹਨ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦੀਆਂ ਹਨ ਕਿ ਮਾਡਲ ਨੂੰ ਸੰਤੁਲਿਤ ਸਿਖਲਾਈ ਮਿਲੇ ਅਤੇ ਉਹ ਵੱਖ-ਵੱਖ ਸੰਪਾਦਨ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਚੰਗਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰ ਸਕੇ। ਡੇਟਾਸੈਟ ਵਿੱਚ ਵਰਤੀ ਜਾਣ ਵਾਲੀ ਨਿਰਦੇਸ਼ ਭਾਸ਼ਾ ਕੁਦਰਤੀ ਅਤੇ ਯਥਾਰਥਵਾਦੀ ਹੈ, ਜੋ ਲੋਕਾਂ ਦੇ ਸੰਪਾਦਨ ਬੇਨਤੀ ਕਰਨ ਵੇਲੇ ਸੰਚਾਰ ਕਰਨ ਦੇ ਤਰੀਕੇ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ।

ਡੇਟਾਸੈਟ ਵਿੱਚ ਗੁੰਝਲਦਾਰ ਅਤੇ ਸੂਖਮ ਸੰਪਾਦਨ ਨਿਰਦੇਸ਼ਾਂ ਦੀਆਂ ਉਦਾਹਰਣਾਂ ਵੀ ਸ਼ਾਮਲ ਹਨ, ਜਿਵੇਂ ਕਿ “ਚਿੱਤਰ ਨੂੰ ਹੋਰ ਵਿੰਟੇਜ ਦਿਖਾਓ” ਜਾਂ “ਦ੍ਰਿਸ਼ ਵਿੱਚ ਡਰਾਮੇ ਦੀ ਭਾਵਨਾ ਸ਼ਾਮਲ ਕਰੋ।” ਇਹਨਾਂ ਨਿਰਦੇਸ਼ਾਂ ਲਈ ਮਾਡਲ ਨੂੰ ਅਮੂਰਤ ਸੰਕਲਪਾਂ ਨੂੰ ਸਮਝਣ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਇੱਕ ਰਚਨਾਤਮਕ ਅਤੇ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਆਕਰਸ਼ਕ ਤਰੀਕੇ ਨਾਲ ਚਿੱਤਰ ‘ਤੇ ਲਾਗੂ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਡੇਟਾਸੈਟ ਦੀ ਵਿਭਿੰਨਤਾ ਅਤੇ ਅਮੀਰੀ Step1X-Edit ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਕਾਰਕ ਹਨ, ਜੋ ਇਸਨੂੰ ਸ਼ਾਨਦਾਰ ਸ਼ੁੱਧਤਾ ਅਤੇ ਬਹੁਪੱਖਤਾ ਨਾਲ ਸੰਪਾਦਨ ਕਾਰਜਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਨੂੰ ਸੰਭਾਲਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦੀ ਹੈ।

ਬੈਂਚਮਾਰਕਿੰਗ ਉੱਤਮਤਾ: GEdit-Bench

Step1X-Edit ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਸਖ਼ਤੀ ਨਾਲ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ, ਡਿਵੈਲਪਰਾਂ ਨੇ GEdit-Bench ਨਾਮਕ ਇੱਕ ਸਵੈ-ਵਿਕਸਤ ਬੈਂਚਮਾਰਕ ਬਣਾਇਆ ਹੈ। ਇਹ ਬੈਂਚਮਾਰਕ ਵੱਖ-ਵੱਖ ਚਿੱਤਰ ਸੰਪਾਦਨ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਵਿਆਪਕ ਮੁਲਾਂਕਣ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਹੱਥੀਂ ਸੰਸ਼ਲੇਸ਼ਿਤ ਟਾਸਕ ਸੰਗ੍ਰਹਾਂ ਦੇ ਉਲਟ, GEdit-Bench ਆਪਣੇ ਟਾਸਕ ਅਸਲ ਕਮਿਊਨਿਟੀ ਸੰਪਾਦਨ ਬੇਨਤੀਆਂ ਤੋਂ ਲੈਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਅਸਲ-ਸੰਸਾਰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਇੱਕ ਵਧੇਰੇ ਯਥਾਰਥਵਾਦੀ ਅਤੇ ਢੁਕਵਾਂ ਮਾਪ ਬਣ ਜਾਂਦਾ ਹੈ।

GEdit-Bench ਵਿੱਚ ਟਾਸਕ ਸੰਪਾਦਨ ਓਪਰੇਸ਼ਨਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਨੂੰ ਕਵਰ ਕਰਦੇ ਹਨ, ਜਿਸ ਵਿੱਚ ਟੈਕਸਟ ਬਦਲਣਾ, ਆਬਜੈਕਟ ਹਟਾਉਣਾ, ਸ਼ੈਲੀ ਟ੍ਰਾਂਸਫਰ, ਅਤੇ ਬੈਕਗ੍ਰਾਉਂਡ ਐਡਜਸਟਮੈਂਟ ਸ਼ਾਮਲ ਹਨ। ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਉਹ ਟਾਸਕ ਵੀ ਸ਼ਾਮਲ ਹਨ ਜਿਹਨਾਂ ਲਈ ਮਾਡਲ ਨੂੰ ਗ