Step1X-Edit, StepFun দ্বারা উদ্ভাবিত একটি যুগান্তকারী ওপেন-সোর্স ইমেজ এডিটিং মডেল, যা অত্যাধুনিক কর্মক্ষমতা প্রদানে সক্ষম। ১৯ বিলিয়ন প্যারামিটার (7B MLLM + 12B DiT) সমৃদ্ধ এই মডেলটি তিনটি মূল ক্ষেত্রে অসাধারণ দক্ষতা প্রদর্শন করে: নিখুঁত শব্দার্থিক বিশ্লেষণ, সামঞ্জস্যপূর্ণ পরিচিতি সংরক্ষণ এবং উচ্চ-নির্ভুল অঞ্চল-স্তরের নিয়ন্ত্রণ। এটি ১১ প্রকারের বহুল ব্যবহৃত ইমেজ এডিটিং টাস্ক সমর্থন করে, যার মধ্যে টেক্সট প্রতিস্থাপন, স্টাইল স্থানান্তর, উপাদানের রূপান্তর এবং প্রতিকৃতির অঙ্গরাগ অন্যতম। Step1X-Edit বিশেষভাবে ডিজাইন করা হয়েছে ছবি বোঝা, সঠিকভাবে পরিবর্তন করা এবং কার্যকরভাবে ডিটেইল সংরক্ষণ করার জন্য।
Step1X-Edit এর মূল সক্ষমতা
Step1X-Edit মাল্টিমোডাল লার্জ ল্যাঙ্গুয়েজ মডেল (MLLM) এবং ডিফিউশন মডেলের সমন্বয়ে গঠিত, যা ওপেন-সোর্স ফ্রেমওয়ার্কের মধ্যে সম্পাদনার নির্ভুলতা এবং ছবির বিশ্বস্ততা উল্লেখযোগ্যভাবে উন্নত করে। সম্প্রতি প্রকাশিত GEdit-Bench ইমেজ এডিটিং বেঞ্চমার্কে, Step1X-Edit শব্দার্থিক সামঞ্জস্য, ছবির গুণমান এবং সামগ্রিক স্কোরের দিক থেকে বিদ্যমান ওপেন-সোর্স মডেলগুলোকে ছাড়িয়ে গেছে এবং GPT-4o ও Gemini 2.0 Flash এর সাথে প্রতিদ্বন্দ্বিতা করতে সক্ষম হয়েছে।
শব্দার্থিক নির্ভুলতা বিশ্লেষণ
মডেলটি স্বাভাবিক ভাষায় বর্ণিত নির্দেশাবলীর জটিল সংমিশ্রণ সমর্থন করে। এই নির্দেশাবলীর জন্য কোনো টেমপ্লেটের প্রয়োজন হয় না, যা মডেলটিকে নমনীয় করে তোলে এবং বহু-পালা, বহু-কার্য সম্পাদনার চাহিদা সামলাতে সক্ষম করে। এটি ছবির টেক্সট সনাক্তকরণ, প্রতিস্থাপন এবং পুনর্গঠন সমর্থন করে।
- জটিল স্বাভাবিক ভাষা বর্ণনা সমর্থন করে
- কোনো নির্দিষ্ট টেমপ্লেটের প্রয়োজন নেই
- বহু-পালা, বহু-কার্য সম্পাদনায় সক্ষম
- ছবির টেক্সট সনাক্তকরণ, প্রতিস্থাপন ও পুনর্গঠন করে
পরিচিতি সামঞ্জস্য রক্ষণাবেক্ষণ
এই মডেল সম্পাদনার পরে মুখের বৈশিষ্ট্য, ভঙ্গি এবং পরিচিতি বৈশিষ্ট্যগুলি সামঞ্জস্যপূর্ণভাবে বজায় রাখে। এটি ভার্চুয়াল হিউম্যান, ই-কমার্স মডেল এবং সামাজিক যোগাযোগ মাধ্যমের ছবিগুলির মতো উচ্চ সামঞ্জস্যের প্রয়োজনীয়তা সম্পন্ন পরিস্থিতিতে ব্যবহারের জন্য উপযুক্ত।
- মুখের বৈশিষ্ট্য বজায় রাখে
- ভঙ্গি সংরক্ষণ করে
- পরিচিতি বৈশিষ্ট্য ধরে রাখে
- ভার্চুয়াল হিউম্যান, ই-কমার্স মডেল এবং সামাজিক যোগাযোগ মাধ্যমের জন্য আদর্শ
উচ্চ-নির্ভুল আঞ্চলিক নিয়ন্ত্রণ
মডেলটি নির্দিষ্ট অঞ্চলে টেক্সট, উপাদান, রঙ এবং অন্যান্য উপাদানের লক্ষ্যযুক্ত সম্পাদনা সমর্থন করে। এটি একটি ইউনিফাইড ইমেজ স্টাইল বজায় রাখে এবং আরও নির্ভুল নিয়ন্ত্রণ সরবরাহ করে।
- নির্দিষ্ট অঞ্চলে লক্ষ্যযুক্ত সম্পাদনা
- টেক্সট, উপাদান এবং রঙ নিয়ন্ত্রণ করে
- একটি ইউনিফাইড ইমেজ স্টাইল বজায় রাখে
- আরও নির্ভুল নিয়ন্ত্রণ সরবরাহ করে
স্থাপত্য উদ্ভাবন
Step1X-Edit MLLM (মাল্টিমোডাল এলএলএম) + ডিফিউশনের একটি আলাদা আর্কিটেকচার ব্যবহার করে, যা স্বাভাবিক ভাষা বোঝা এবং উচ্চ-বিশ্বস্ততার ইমেজ জেনারেশনকে আলাদাভাবে পরিচালনা করে। বিদ্যমান ইমেজ এডিটিং মডেলগুলির তুলনায়, এই আর্কিটেকচারের নির্দেশাবলীর সাধারণীকরণ ক্ষমতা এবং ইমেজ নিয়ন্ত্রণযোগ্যতার ক্ষেত্রে সুবিধা রয়েছে।
MLLM মডিউল
MLLM মডিউলটি স্বাভাবিক ভাষা নির্দেশাবলী এবং ছবির বিষয়বস্তু প্রক্রিয়াকরণের জন্য দায়ী। এটিতে মাল্টিমোডাল শব্দার্থিক বোঝার ক্ষমতা রয়েছে, যা জটিল সম্পাদনার প্রয়োজনীয়তাগুলিকে সুপ্ত নিয়ন্ত্রণ সংকেতে বিভক্ত করতে পারে।
- স্বাভাবিক ভাষা নির্দেশাবলী প্রক্রিয়া করে
- ছবির বিষয়বস্তু পরিচালনা করে
- মাল্টিমোডাল শব্দার্থিক বোঝা
- জটিল সম্পাদনার প্রয়োজনীয়তা বিশ্লেষণ করে
ডিফিউশন মডিউল
ডিফিউশন মডিউলটি একটি ইমেজ জেনারেটর (Image Decoder) হিসেবে কাজ করে, যা MLLM দ্বারা তৈরি সুপ্ত সংকেতগুলির উপর ভিত্তি করে ছবিগুলির পুনর্গঠন বা স্থানীয় পরিবর্তন সম্পন্ন করে। এটি ছবির ডিটেইল সংরক্ষণ এবং শৈলীর সামঞ্জস্য নিশ্চিত করে।
- ইমেজ জেনারেটর (Image Decoder)
- ছবি পুনর্গঠন করে
- স্থানীয়ভাবে ছবি পরিবর্তন করে
- ছবির ডিটেইল এবং স্টাইল সংরক্ষণ করে
এই কাঠামোটি ঐতিহ্যবাহী পাইপলাইন মডেলগুলিতে পৃথক ‘বোঝা’ এবং ‘উৎপাদন’-এর সমস্যা সমাধান করে। এটি মডেলটিকে জটিল সম্পাদনার নির্দেশাবলী কার্যকর করার সময় উচ্চতর নির্ভুলতা এবং নিয়ন্ত্রণ রাখতে সক্ষম করে।
প্রশিক্ষণ ডেটা
বিস্তৃত পরিসরের জটিল ইমেজ এডিটিং টাস্ক সমর্থন করার জন্য, Step1X-Edit একটি শিল্প-শীর্ষস্থানীয় ইমেজ এডিটিং প্রশিক্ষণ ডেটাসেট তৈরি করেছে। এটি ২ কোটি ইমেজ-টেক্সট নির্দেশাবলী ত্রিপলেট তৈরি করে এবং অবশেষে ১ কোটিরও বেশি উচ্চ-মানের নমুনা সংরক্ষণ করে। ডেটাটি ১১টি মূল টাস্ক প্রকারকে অন্তর্ভুক্ত করে, যার মধ্যে টেক্সট প্রতিস্থাপন, অ্যাকশন জেনারেশন, স্টাইল স্থানান্তর এবং ব্যাকগ্রাউন্ড অ্যাডজাস্টমেন্টের মতো প্রায়শই অনুরোধ করা বৈশিষ্ট্যগুলি অন্তর্ভুক্ত। টাস্কের প্রকারগুলি সমানভাবে বিতরণ করা হয় এবং নির্দেশাবলীর ভাষা স্বাভাবিক এবং বাস্তবসম্মত।
- শিল্প-শীর্ষস্থানীয় প্রশিক্ষণ ডেটাসেট
- ২ কোটি ইমেজ-টেক্সট নির্দেশাবলী ত্রিপলেট
- ১ কোটিরও বেশি উচ্চ-মানের নমুনা
- ১১টি মূল টাস্ক প্রকার
- সমানভাবে বিতরণ করা টাস্ক প্রকার
কর্মক্ষমতা মূল্যায়ন
Step1X-Edit ধারাবাহিকভাবে ইমেজ এডিটিংয়ের ১১টি উপ-টাস্কে উচ্চ-মানের আউটপুট বজায় রাখে। এর ক্ষমতাগুলি সুষম এবং এটি প্রায় সমস্ত টাস্ক ডাইমেনশনে একেবারে শীর্ষে রয়েছে, যা এর শক্তিশালী বহুমুখিতা এবং ভারসাম্য প্রদর্শন করে।
GEdit-Bench বেঞ্চমার্ক
মডেল মূল্যায়ন একটি স্ব-উন্নত GEdit-Bench বেঞ্চমার্ক ব্যবহার করে করা হয়। হাতে তৈরি টাস্ক সংগ্রহের বিপরীতে, এই বেঞ্চমার্কটি বাস্তব কমিউনিটি এডিটিংয়ের অনুরোধ থেকে আসে, যা পণ্যের চাহিদার কাছাকাছি।
- স্ব-উন্নত বেঞ্চমার্ক
- বাস্তব কমিউনিটি এডিটিংয়ের অনুরোধ
- পণ্যের চাহিদার কাছাকাছি
GEdit-Bench-এর তিনটি মূল সূচকে Step1X-Edit উল্লেখযোগ্যভাবে বিদ্যমান ওপেন-সোর্স মডেলগুলোকে নেতৃত্ব দেয়। এটি GPT-4o-এর কাছাকাছি পারফর্ম করে, যা ভাষা বোঝা এবং ইমেজ পুনর্গঠনের মধ্যে একটি আদর্শ ভারসাম্য অর্জন করে।
ক্ষমতার বিস্তারিত পরীক্ষা
Step1X-Edit শুধু ছবি পরিবর্তন করার বিষয় নয়; এটি সম্পাদনার পেছনের উদ্দেশ্যকে সত্যিকার অর্থে বোঝা, নির্ভুলতার সাথে তা সম্পাদন করা এবং আসল ছবির অখণ্ডতা রক্ষা করার বিষয়। মূল ক্ষমতাগুলো—শব্দার্থিক নির্ভুলতা, পরিচিতি সামঞ্জস্যতা এবং উচ্চ-নির্ভুল অঞ্চল নিয়ন্ত্রণ—আধুনিক ছবি সম্পাদনার সূক্ষ্ম চাহিদাগুলো মোকাবিলার জন্য ডিজাইন করা হয়েছে।
শব্দার্থিক নির্ভুলতা বিশ্লেষণের গভীরে
Step1X-Edit এর শব্দার্থিক নির্ভুলতা বিশ্লেষণ কেবল কীওয়ার্ড চেনার বাইরেও বিস্তৃত। এটি স্বাভাবিক ভাষার বর্ণনার প্রেক্ষাপট উপলব্ধি করে, নির্দেশের জটিল সংমিশ্রণ বুঝতে পারে। অনমনীয় টেমপ্লেটের উপর নির্ভরশীল সিস্টেমের বিপরীতে, Step1X-Edit অবাধ ভাষার ব্যাখ্যা করতে পারে, যা এটিকে বিভিন্ন সম্পাদনার পরিস্থিতিতে অত্যন্ত অভিযোজনযোগ্য করে তোলে। এটি বহু-পালা এবং বহু-কার্য সম্পাদনা নির্বিঘ্নে পরিচালনা করে, ধারাবাহিক ফলাফল তৈরি করার জন্য পরপর নির্দেশাবলীর মধ্যে সম্পর্ক বুঝতে পারে।
একটি উদাহরণ বিবেচনা করুন: একজন ব্যবহারকারী একটি ছবিতে সাইনবোর্ডের লেখা পরিবর্তন করতে চান এবং তারপর ভিন্ন থিমের সাথে মিল রেখে সাইনবোর্ডের রঙ পরিবর্তন করতে চান। Step1X-Edit শুধু লেখা প্রতিস্থাপন এবং রঙ পরিবর্তন করে না; এটি বুঝতে পারে যে সাইনবোর্ডটি একটি একক বস্তু এবং নিশ্চিত করে যে লেখা এবং রঙের পরিবর্তন একে অপরের সাথে এবং সামগ্রিক ছবির সাথে সামঞ্জস্যপূর্ণ। অধিকন্তু, মডেলটি ছবির মধ্যে টেক্সট সনাক্ত এবং পুনর্গঠন করতে পারে, এমনকি যদি এটি আংশিকভাবে অস্পষ্ট বা বিকৃত হয়। এই ক্ষমতাটি স্ক্যান করা নথি বা ওভারলে করা টেক্সটযুক্ত ছবি সম্পাদনার জন্য বিশেষভাবে উপযোগী।
পরিচিতি সামঞ্জস্য রক্ষণাবেক্ষণের ব্যাখ্যা
পরিচিতি সামঞ্জস্য বজায় রাখা এমন পরিস্থিতিতে অত্যন্ত গুরুত্বপূর্ণ যেখানে ছবিতে বিষয়গুলোর পরিবর্তন সত্ত্বেও তাদের চেনা যাওয়া দরকার। ভার্চুয়াল হিউম্যান অ্যাপ্লিকেশন, ই-কমার্স মডেলিং এবং সামাজিক মিডিয়া কনটেন্ট তৈরির ক্ষেত্রে এটি বিশেষভাবে গুরুত্বপূর্ণ। Step1X-Edit নিশ্চিত করে যে মুখের বৈশিষ্ট্য, ভঙ্গি এবং অনন্য পরিচিতি বৈশিষ্ট্য সম্পাদনা প্রক্রিয়া চলাকালীন সংরক্ষিত থাকে।
উদাহরণস্বরূপ, যদি একজন ব্যবহারকারী একটি ছবিতে একটি ভার্চুয়াল মডেলের পোশাক পরিবর্তন করতে চান, Step1X-Edit মডেলের মুখের বৈশিষ্ট্য, চুলের স্টাইল এবং শরীরের অনুপাত বজায় রাখে, তা নিশ্চিত করে যে সম্পাদিত ছবিটি এখনও আসল মডেলটিকে সঠিকভাবে উপস্থাপন করে। একইভাবে, ই-কমার্সে, যেখানে মডেলরা পণ্য প্রদর্শন করে, গ্রাহকদের বিভ্রান্তি এড়াতে মডেলের চেহারা বিভিন্ন ছবিতে সামঞ্জস্যপূর্ণ থাকতে হবে।
উচ্চ-নির্ভুল আঞ্চলিক নিয়ন্ত্রণ উন্নত
উচ্চ-নির্ভুল আঞ্চলিক নিয়ন্ত্রণ ব্যবহারকারীদের দৃশ্যের বাকি অংশে কোনও প্রভাব না ফেলে ছবির নির্দিষ্ট অঞ্চলে লক্ষ্যযুক্ত সম্পাদনা করতে সক্ষম করে। এই ক্ষমতা সেই কাজগুলির জন্য অপরিহার্য যা সূক্ষ্ম সমন্বয় প্রয়োজন, যেমন একটি পোশাকের রঙ পরিবর্তন করা, কোনও বস্তুর টেক্সচার পরিবর্তন করা বা কোনও নির্দিষ্ট অঞ্চলে নির্দিষ্ট উপাদান যুক্ত করা। Step1X-Edit ব্যবহারকারীদের নির্দিষ্ট অঞ্চল নির্বাচন করতে এবং অসাধারণ নির্ভুলতার সাথে সম্পাদনা প্রয়োগ করতে দেয়, যা নিশ্চিত করে যে পরিবর্তনগুলি বিদ্যমান ছবির সাথে নির্বিঘ্নে মিশে যায়।
একটি পরিস্থিতি কল্পনা করুন যেখানে একজন ব্যবহারকারী একটি ছবিতে একটি গাড়ির রঙ পরিবর্তন করতে চান তবে প্রতিচ্ছবি এবং ছায়া অক্ষত রাখতে চান। Step1X-Edit গাড়িটিকে আলাদা করতে, এর রঙ পরিবর্তন করতে এবং মূল আলো বজায় রাখতে পারে, যা একটি বাস্তবসম্মত এবং দৃশ্যমানভাবে আকর্ষণীয় ফলাফল তৈরি করে। মডেলটি আরও নিশ্চিত করে যে ছবির সামগ্রিক শৈলী এবং নান্দনিকতা সামঞ্জস্যপূর্ণ থাকে, যা সম্পাদিত অঞ্চলগুলোকে বেমানান দেখাতে বাধা দেয়।
আর্কিটেকচার ডিকোডিং: MLLM + ডিফিউশন
মাল্টিমোডাল লার্জ ল্যাঙ্গুয়েজ মডেল (MLLM) এবং ডিফিউশন মডেলের সমন্বয়ে Step1X-Edit-এর আলাদা আর্কিটেকচার, ছবি সম্পাদনা প্রযুক্তিতে একটি উল্লেখযোগ্য অগ্রগতি চিহ্নিত করে। এই নকশাটি শ্রম বিভাগের জন্য অনুমতি দেয় যেখানে প্রাকৃতিক ভাষা বোঝা এবং উচ্চ-বিশ্বস্ততার ছবি তৈরি তাদের নিজ নিজ কাজের জন্য অপ্টিমাইজ করা পৃথক মডিউল দ্বারা পরিচালিত হয়।
MLLM মডিউলের গভীরে
MLLM মডিউলটি সিস্টেমের মস্তিষ্ক হিসাবে কাজ করে, যা প্রাকৃতিক ভাষার নির্দেশাবলী এবং ছবির বিষয়বস্তু বোঝা এবং ব্যাখ্যা করার জন্য দায়ী। এটিতে উন্নত মাল্টিমোডাল শব্দার্থিক বোঝার ক্ষমতা রয়েছে, যা এটিকে কার্যকরী সুপ্ত নিয়ন্ত্রণ সংকেতে জটিল সম্পাদনার প্রয়োজনীয়তাগুলিকে বিশ্লেষণ করতে সক্ষম করে। এই প্রক্রিয়ার মধ্যে নির্দেশের ভাষাগত গঠন বিশ্লেষণ করা, পরিবর্তন করার জন্য মূল উপাদান সনাক্ত করা এবং ছবির বিভিন্ন অংশের মধ্যে সম্পর্ক বোঝা জড়িত।
MLLM মডিউল অ্যালগরিদম ব্যবহার করে সম্পাদনার নির্দেশাবলীকে এমন একটি উপস্থাপনায় ম্যাপ করে যা ডিফিউশন মডিউল বুঝতে পারে। এই উপস্থাপনা নির্দেশের শব্দার্থিক অর্থ সংরক্ষণ করে এবং নিশ্চিত করে যে ফলাফলের সম্পাদনাগুলি ব্যবহারকারীর ইচ্ছার সাথে সঙ্গতিপূর্ণ। উদাহরণস্বরূপ, যদি কোনও ব্যবহারকারী “পটভূমিতে একটি সূর্যাস্ত যোগ করতে” বলেন, তবে MLLM মডিউল পটভূমি অঞ্চল সনাক্ত করে, একটি সূর্যাস্তের ধারণাটি চেনে এবং একটি নিয়ন্ত্রণ সংকেত তৈরি করে যা ডিফিউশন মডিউলকে নির্দিষ্ট অঞ্চলে একটি বাস্তবসম্মত সূর্যাস্ত তৈরি করার নির্দেশ দেয়।
ডিফিউশন মডিউল ব্যাখ্যা করা
ডিফিউশন মডিউল শিল্পী হিসাবে কাজ করে, MLLM মডিউল দ্বারা উত্পন্ন সুপ্ত নিয়ন্ত্রণ সংকেত গ্রহণ করে এবং সেগুলিকে উচ্চ বিশ্বস্ততার সাথে ছবি পুনর্গঠন বা সংশোধন করতে ব্যবহার করে। এই মডিউল ডিফিউশন নামক একটি প্রক্রিয়া ব্যবহার করে, যার মধ্যে ধীরে ধীরে ছবিতে নয়েজ যোগ করা এবং তারপর নতুন ছবি তৈরি করতে বা বিদ্যমান ছবি সংশোধন করতে এই প্রক্রিয়াটিকে বিপরীত করতে শেখা জড়িত। ডিফিউশন মডিউলটি ছবিগুলির একটি বিশাল ডেটাসেটের উপর প্রশিক্ষিত, যা এটিকে বাস্তবসম্মত এবং দৃশ্যমানভাবে আকর্ষণীয় ফলাফল তৈরি করতে দেয়।
ডিফিউশন মডিউল নিশ্চিত করে যে পরিবর্তিত ছবিটি মূল ছবির বিশদ, টেক্সচার এবং আলোর প্রভাব বজায় রাখে, বিদ্যমান সামগ্রীর সাথে পরিবর্তনগুলিকে নির্বিঘ্নে মিশ্রিত করে। এটি চিত্রের সামগ্রিক নান্দনিকতার সাথে মেলে সম্পাদনার শৈলীকেও মানিয়ে নিতে পারে, যা একটি সুসংগত এবং সুরেলা ফলাফল তৈরি করে। উদাহরণস্বরূপ, যদি কোনও ব্যবহারকারী “ছবিটিকে একটি চিত্রের মতো দেখাতে” চান তবে ডিফিউশন মডিউল চিত্রটিকে একটি বিশ্বাসযোগ্য চিত্রে রূপান্তরিত করতে শৈল্পিক ফিল্টার এবং টেক্সচার প্রয়োগ করতে পারে, যখন মূল রচনা এবং বিষয়বস্তু সংরক্ষণ করে।
সমন্বয়: বিচ্ছিন্নতার শক্তি
Step1X-Edit-এর বিচ্ছিন্ন আর্কিটেকচার ঐতিহ্যবাহী ছবি সম্পাদনা মডেলগুলির একটি মৌলিক সীমাবদ্ধতা দূর করে, যেখানে “বোঝা” এবং “তৈরি” প্রায়শই জড়িত থাকে এবং তাদের নিজ নিজ কাজের জন্য অপ্টিমাইজ করা হয় না। এই ফাংশনগুলিকে পৃথক মডিউলে বিভক্ত করে, Step1X-Edit জটিল সম্পাদনার নির্দেশাবলী কার্যকর করার সময় উচ্চতর নির্ভুলতা এবং নিয়ন্ত্রণ অর্জন করে। MLLM মডিউল ব্যবহারকারীর উদ্দেশ্য সঠিকভাবে ব্যাখ্যা করার দিকে মনোনিবেশ করতে পারে, যখন ডিফিউশন মডিউল নির্দিষ্ট প্রয়োজনীয়তা পূরণ করে এমন উচ্চ-মানের ছবি তৈরি করার দিকে মনোযোগ দিতে পারে।
MLLM এবং ডিফিউশন মডিউলগুলির মধ্যে এই সমন্বয় Step1X-Edit কে অসাধারণ নির্ভুলতা এবং সামঞ্জস্যের সাথে বিস্তৃত সম্পাদনা কার্য পরিচালনা করতে সক্ষম করে। এটি কোনও ছবিতে সূক্ষ্ম সমন্বয় করা বা জটিল রূপান্তর করা হোক না কেন, Step1X-Edit এমন ফলাফল সরবরাহ করতে পারে যা দৃশ্যমানভাবে আকর্ষণীয় এবং শব্দার্থিকভাবে সঠিক। বিচ্ছিন্ন আর্কিটেকচার মডেলটিকে আরও মডুলার এবং আপডেট করা সহজ করে তোলে, যা বিকাশকারীদের ক্রমাগতভাবে এর কর্মক্ষমতা এবং ক্ষমতা উন্নত করতে দেয়।
ডেটাসেট ইঞ্জিনিয়ারিং: পারফরম্যান্সের ভিত্তি
Step1X-Edit যে বিভিন্ন এবং জটিল ছবি সম্পাদনার কাজগুলি পরিচালনা করতে পারে তা সমর্থন করার জন্য, বিকাশকারীরা একটি শিল্প-শীর্ষস্থানীয় ছবি সম্পাদনা প্রশিক্ষণ ডেটাসেট তৈরি করেছেন। এই ডেটাসেটে ইমেজ-টেক্সট নির্দেশাবলী ত্রিপলেটগুলির একটি বিশাল সংগ্রহ রয়েছে, যা মডেলটিকে বিস্তৃত সম্পাদনা কমান্ডগুলি বুঝতে এবং কার্যকর করতে প্রশিক্ষণের জন্য ব্যবহৃত হয়। ডেটাসেটে ২ কোটি ত্রিপলেট রয়েছে, যার মধ্যে ১ কোটিরও বেশি উচ্চ-মানের নমুনা রয়েছে যা সঠিকতা এবং ধারাবাহিকতা নিশ্চিত করার জন্য সাবধানে তৈরি করা হয়েছে।
ডেটাটি ১১টি মূল টাস্ক প্রকারকে অন্তর্ভুক্ত করে, যার মধ্যে টেক্সট প্রতিস্থাপন, অ্যাকশন জেনারেশন, স্টাইল স্থানান্তর এবং ব্যাকগ্রাউন্ড অ্যাডজাস্টমেন্টের মতো প্রায়শই অনুরোধ করা বৈশিষ্ট্যগুলি অন্তর্ভুক্ত। এই টাস্ক প্রকারগুলি ডেটাসেট জুড়ে সমানভাবে বিতরণ করা হয়, যা নিশ্চিত করে যে মডেলটি ভারসাম্যপূর্ণ প্রশিক্ষণ পায় এবং বিভিন্ন সম্পাদনার পরিস্থিতিতে ভাল পারফর্ম করতে পারে। ডেটাসেটে ব্যবহৃত নির্দেশের ভাষাটি স্বাভাবিক এবং বাস্তবসম্মত, যা ছবি সম্পাদনার অনুরোধ করার সময় লোকেরা যেভাবে যোগাযোগ করে তা প্রতিফলিত করে।
ডেটাসেটে জটিল এবং সূক্ষ্ম সম্পাদনার নির্দেশাবলীর উদাহরণও রয়েছে, যেমন “ছবিটিকে আরও ভিনটেজ দেখান” বা “দৃশ্যটিতে নাটকের অনুভূতি যোগ করুন।” এই নির্দেশাবলীর জন্য মডেলটিকে বিমূর্ত ধারণাগুলি বুঝতে এবং সেগুলিকে সৃজনশীল এবং দৃশ্যমানভাবে আকর্ষণীয় উপায়ে ছবিতে প্রয়োগ করতে হয়। ডেটাসেটের বৈচিত্র্য এবং সমৃদ্ধি Step1X-Edit-এর পারফরম্যান্সের গুরুত্বপূর্ণ কারণ, যা এটিকে অসাধারণ নির্ভুলতা এবং বহুমুখীতার সাথে বিস্তৃত সম্পাদনার কাজ পরিচালনা করতে সক্ষম করে।
বেঞ্চমার্কিং শ্রেষ্ঠত্ব: GEdit-Bench
Step1X-Edit-এর কর্মক্ষমতা কঠোরভাবে মূল্যায়ন করার জন্য, বিকাশকারীরা GEdit-Bench নামক একটি স্ব-উন্নত বেঞ্চমার্ক তৈরি করেছেন। এই বেঞ্চমার্কটি বিভিন্ন ছবি সম্পাদনার পরিস্থিতিতে মডেলের ক্ষমতাগুলির একটি বিস্তৃত মূল্যায়ন প্রদানের জন্য ডিজাইন করা হয়েছে। হাতে তৈরি টাস্ক সংগ্রহের বিপরীতে, GEdit-Bench তার টাস্কগুলি বাস্তব কমিউনিটি সম্পাদনার অনুরোধ থেকে নেয়, যা বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলিতে মডেলের কর্মক্ষমতার আরও বাস্তবসম্মত এবং প্রাসঙ্গিক পরিমাপ করে।
GEdit-Bench-এর টাস্কগুলি টেক্সট প্রতিস্থাপন, বস্তু অপসারণ, শৈলী স্থানান্তর এবং পটভূমি সমন্বয় সহ বিস্তৃত সম্পাদনা ক্রিয়াকলাপগুলিকে অন্তর্ভুক্ত করে। বেঞ্চমার্কটিতে এমন টাস্কও রয়েছে যার জন্য মডেলটিকে জটিল এবং সূক্ষ্ম নির্দেশাবলী বুঝতে এবং কার্যকর করতে হয়, যেমন “ছবিটিকে আরও পেশাদার দেখান” বা “দৃশ্যটিতে উষ্ণতার অনুভূতি যোগ করুন।” GEdit-Bench বাস্তব-বিশ্বের পরিস্থিতিতে মডেলের কর্মক্ষমতার আরও সঠিক এবং নির্ভরযোগ্য মূল্যায়ন প্রদান করে।
GEdit-Bench-এ Step1X-Edit অসাধারণ ফলাফল অর্জন করেছে, বিদ্যমান ওপেন-সোর্স মডেলগুলিকে তিনটি মূল সূচকে ছাড়িয়ে গেছে: শব্দার্থিক সামঞ্জস্যতা, ছবির গুণমান এবং সামগ্রিক স্কোর। মডেলটির কর্মক্ষমতা GPT-4o-এর কাছাকাছি, যা ভাষা বোঝা এবং ছবি পুনর্গঠনের মধ্যে একটি আদর্শ ভারসাম্য অর্জনের ক্ষমতা প্রদর্শন করে।
উপসংহারে, Step1X-Edit ওপেন-সোর্স ছবি সম্পাদনা প্রযুক্তিতে একটি গুরুত্বপূর্ণ অগ্রগতি উপস্থাপন করে। এর বিচ্ছিন্ন আর্কিটেকচার, বিশাল প্রশিক্ষণ ডেটাসেট এবং কঠোর বেঞ্চমার্কিং এটিকে বিস্তৃত সম্পাদনার কাজের জন্য একটি শক্তিশালী এবং বহুমুখী সরঞ্জাম করে তুলেছে। আপনি একজন পেশাদার ফটোগ্রাফার, সামাজিক যোগাযোগ মাধ্যমের অনুরাগী বা কেবল কেউ তাদের ছবি উন্নত করতে চান, Step1X-Edit আপনাকে অসাধারণ নির্ভুলতা এবং স্বাচ্ছন্দ্যের সাথে আপনার লক্ষ্য অর্জন করতে সহায়তা করতে পারে।