লিনিয়ার অ্যাটেনশনে MiniMax-এর বাজি

একটি অপ্রচলিত প্রযুক্তিগত পথে অগ্রণী

আপনি কি সংক্ষেপে নিজের পরিচয় দিতে পারেন?

আমি জং ইরান, মিনিম্যাক্সের সিনিয়র রিসার্চ ডিরেক্টর। এখানে আমি মূলত নেটওয়ার্ক আর্কিটেকচার এবং মাল্টিমোডাল আন্ডারস্ট্যান্ডিং বৃহৎ মডেলের ডিজাইন তত্ত্বাবধান করি। মিনিম্যাক্সে, আমার প্রধান দায়িত্ব হল মিনিম্যাক্স-01 নেটওয়ার্ক কাঠামোর ডিজাইন নেতৃত্ব দেওয়া।

এর আগে, আমি সাংহাই আর্টিফিশিয়াল ইন্টেলিজেন্স ল্যাবরেটরিতে নতুন আর্কিটেকচার এক্সপ্লোরেশন গ্রুপের জন্য পিআই হিসেবে কাজ করেছি। সেখানে আমার কাজের প্রধান বিষয় ছিল নন-ট্রান্সফরমার আর্কিটেকচারের জন্য কার্যকরী প্রশিক্ষণ মডেলিং পদ্ধতি এবং ভিজ্যুয়াল-অডিও-ভাষা মাল্টিমোডাল ফিউশন নিয়ে গবেষণা।

কবে আপনি লিনিয়ার অ্যাটেনশন নিয়ে গবেষণা শুরু করেন এবং কেন এই প্রযুক্তিগত পথটি বেছে নিলেন?

আমি লিনিয়ার অ্যাটেনশন নিয়ে গবেষণা শুরু করি প্রায় জুলাই 2021 সালে। এর সূত্রপাত আমার পিএইচডি-র জন্য 2020 সালে করা ‘ইনভার্টিবল অ্যাটেনশন’ নামক একটি পেপার থেকে। সেই সময়ে, ইনভার্টিবল নিউরাল নেটওয়ার্ক এবং অ্যাটেনশন মেকানিজম দুটোই বেশ জনপ্রিয় ছিল, তাই আমরা আমাদের গবেষণায় এই দুটোকে একত্রিত করি।

পরবর্তীতে, আমাদের দলের কিছু সদস্য গণিতের প্রতি খুব আগ্রহী হয়ে ওঠে। লিনিয়ার অ্যাটেনশনের মতো কার্যকরী সিকোয়েন্স মডেলিং পদ্ধতির জন্য একটি শক্তিশালী গাণিতিক ভিত্তি এবং অসংখ্য ফর্মুলা ডেরিভেশন প্রয়োজন, যা দলের আগ্রহের সাথে পুরোপুরি মিলে যায়। তাই আমরা এই দিকটি বেছে নিয়েছিলাম।

সেই সময় শিল্পে লিনিয়ার অ্যাটেনশনের অবস্থা কেমন ছিল?

এটি খুব একটা মূলধারার ছিল না, খুব কম লোকই এই নিয়ে কাজ করত। বেশিরভাগ গবেষক ট্রান্সফরমারের উপর মনোযোগ কেন্দ্রীভূত করেছিলেন, যা মূলত এনএলপি-তে প্রভাবশালী শক্তিতে পরিণত হয়েছিল।

আমরা ভেবেছিলাম যে ট্রান্সফরমার গবেষণায় ভিড় বাড়ানোর চেয়ে বরং আমাদের আলাদা কিছু করা উচিত।

লিনিয়ার অ্যাটেনশন রুটের প্রযুক্তিগত সম্ভাবনা আপনি কীভাবে মূল্যায়ন করেছিলেন?

আমাদের প্রাথমিক উদ্দেশ্য ছিল সরল: ট্রান্সফরমারের দ্বিঘাত কম্পিউটেশনাল জটিলতা মোকাবেলা করা। আমরা স্পার্স ট্রান্সফরমার এবং লিনিয়ার অ্যাটেনশনসহ বিভিন্ন পদ্ধতি পরীক্ষা করেছি।

আমরা দেখেছি যে স্পার্স ট্রান্সফরমার কাজ করে, যা ট্রান্সফরমারের তুলনায় দ্রুত গতি এবং কম মেমরি ব্যবহার নিশ্চিত করে। তবে, লিনিয়ার অ্যাটেনশন খারাপ পারফর্ম করেছে এবং এটি ধীরগতিরও ছিল। তা সত্ত্বেও, আমরা লিনিয়ার অ্যাটেনশন অনুসরণ করার সিদ্ধান্ত নিয়েছি।

এর একটি কারণ ছিল এর গাণিতিক আবেদন – আমরা বিশ্বাস করতাম এর কর্মক্ষমতা আরও ভাল হওয়া উচিত। অন্যটি হল, আমরা অনুভব করেছি যে স্পার্স অ্যাটেনশনের সর্বোচ্চ সীমা হল ফুল অ্যাটেনশন, যা অতিক্রম করা কঠিন। অন্যদিকে, লিনিয়ার অ্যাটেনশনের এটিকে ছাড়িয়ে যাওয়ার সম্ভাবনা ছিল।

লিনিয়ার অ্যাটেনশন কী, তা কি আপনি ব্যাখ্যা করতে পারেন?

লিনিয়ার অ্যাটেনশন মূলত একটি কার্নেল কৌশল। ট্রান্সফরমারগুলিতে, Q, K এবং V ম্যাট্রিক্সগুলিকে গুণ করার সময় বিভিন্ন মাত্রার কারণে QK প্রথমে গুণ করা হবে নাকি KV প্রথমে গুণ করা হবে তার উপর নির্ভর করে বিভিন্ন কম্পিউটেশনাল জটিলতা দেখা যায়।

KV প্রথমে গুণ করলে কম্পিউটেশনাল জটিলতা রৈখিক বা লিনিয়ার করা যেতে পারে। তবে, সমস্যা হল QK গুণ করার পরে একটি সফটম্যাক্স অপারেশন করা হয়, যা কমিউটেটিভ বৈশিষ্ট্যকে সমর্থন করে না এবং সহজে KV প্রথমে গুণ করার জন্য বিভক্ত করা যায় না। অতএব, লিনিয়ার অ্যাটেনশনের প্রথম ধাপ হল সফটম্যাক্স সরিয়ে দেওয়া।

কিন্তু সফটম্যাক্স সরিয়ে দিলে ফলাফলের উপর প্রভাব পড়ে। পরবর্তী কাজ হল সফটম্যাক্স ছাড়াই ফলাফলের সঙ্গতি বজায় রাখা, লিনিয়ার অ্যাটেনশন এটাই অর্জন করতে চায়।

লিনিয়ার অ্যাটেনশন, স্পার্স অ্যাটেনশন এবং লিনিয়ার আরএনএন আর্কিটেকচারের মধ্যে মৌলিক পার্থক্য কী?

স্পার্স অ্যাটেনশন এখনও মূলত একটি সফটম্যাক্স অ্যাটেনশন। এটি কেবল একটি ডেন্স অ্যাটেনশন ম্যাট্রিক্সের চেয়ে কম পয়েন্ট গণনা করে। উদাহরণস্বরূপ, স্লাইডিং উইন্ডো অ্যাটেনশন কেবল একটি উইন্ডোর মধ্যে অ্যাটেনশন স্কোর গণনা করে, যা গণনার পরিমাণ হ্রাস করে গতি বাড়ায়।

লিনিয়ার আরএনএন এবং লিনিয়ার অ্যাটেনশন মূলত একই জিনিস, কেউ এটাকে আরএনএন বলে, আবার কেউ অ্যাটেনশন।

সবকিছুই আরএনএন আকারে লেখা যেতে পারে। উদাহরণস্বরূপ, লাইটনিং অ্যাটেনশন RWKV-4-এর সাথে সঙ্গতিপূর্ণ, যেখানে RWKV-7 হল গেটেড ডেল্টা নেটের একটি উন্নত সংস্করণ। যদিও এগুলি মূলত একই, তবে তাদের বাস্তবায়নের বিশদ বিবরণ ভিন্ন।

লিনিয়ার অ্যাটেনশন মেকানিজমের গবেষণার মূল মাইলফলকগুলি কী কী?

প্রায় 2018-19 সালের দিকে, গবেষণা দেখিয়েছে যে কার্নেল কৌশল ব্যবহার করে ট্রান্সফরমার সফটম্যাক্স অ্যাটেনশনের তাত্ত্বিক কম্পিউটেশনাল জটিলতা হ্রাস করা যেতে পারে, তবে ফলাফল দুর্বল ছিল এবং দক্ষতাও কম ছিল।

2019-20 সালে, স্পার্স অ্যাটেনশনের প্রাধান্য ছিল, যেখানে Google-এর মতো সংস্থাগুলি স্পার্স অ্যাটেনশনের অনেকগুলি রূপ প্রস্তাব করেছিল। পরে, লিনিয়ার অ্যাটেনশন আবির্ভূত হতে শুরু করে, তবে এটি দুর্বল কর্মক্ষমতা এবং ধীর গতির চ্যালেঞ্জের মুখোমুখি হয়েছিল।

গবেষকরা উন্নতির জন্য প্রধানত দুটি পদ্ধতি গ্রহণ করেছেন: একটি হল সফটম্যাক্স ফাংশনকে আনুমানিক করা, যাতে ডিস্ট্রিবিউশন সফটম্যাক্সের সাথে সঙ্গতিপূর্ণ হয়; অন্যটি, যা আমরা বেছে নিয়েছি, তা হল সম্পূর্ণ ভিন্ন পদ্ধতি ব্যবহার করে মডেলিং করা, সফটম্যাক্সকে আনুমানিক করার বিষয়ে চিন্তা না করা।

আমরা আমাদের প্রথম পেপার ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION’ অক্টোবর 2021 সালে প্রকাশ করি, যা কোসাইন ফাংশন দিয়ে সফটম্যাক্স অপারেশন প্রতিস্থাপন করে, যা গণনাকে বিভক্ত করার অনুমতি দেয়।

2022 সালের প্রথমার্ধে, আমরা দ্বিতীয় একটি পেপার ‘The Devil in Linear Transformer’ প্রকাশ করি, যা লিনিয়ার অ্যাটেনশনের কর্মক্ষমতা হ্রাসের কারণ বিশ্লেষণ করে এবং সমাধান প্রদান করে। এটি ছিল লাইটনিং অ্যাটেনশনের অগ্রদূত।

পরে, আমরা বিশেষভাবে লিনিয়ার অ্যাটেনশন এবং দীর্ঘ কনভলিউশনের জন্য পজিশন এনকোডিং নিয়েও গবেষণা করেছি, টিএনএন প্রকাশ করেছি, ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING’, এস4 (মাম্বার পূর্বসূরি)-এর অনুরূপ একটি পদ্ধতি।

অবশেষে, আমরা লাইটনিং অ্যাটেনশন চালু করেছি, যা উন্নত ক্ষয় পদ্ধতি এবং নেটওয়ার্ক কাঠামোর মাধ্যমে ট্রান্সফরমারের কর্মক্ষমতার সাথে মিলে যায়। আমরা এটিকে দ্রুত করার জন্য একটি টাইলিন কৌশলও ব্যবহার করেছি।

বর্তমান নন-ট্রান্সফরমার আর্কিটেকচার প্রযুক্তিগত রুট সম্পর্কে আপনার চিন্তা কী?

লিনিয়ার অ্যাটেনশন আসলে একটি নন-ট্রান্সফরমার পদ্ধতি। বর্তমানে, আরএনএন-এর মতো পদ্ধতিগুলি ছাড়াও, অন্যান্য নন-ট্রান্সফরমার আর্কিটেকচারগুলি হ্রাস পাচ্ছে।

উদাহরণস্বরূপ, সিএনএন-এর মতো দীর্ঘ কনভলিউশন এবং বৃহৎ কার্নেল কনভলিউশন, কর্মক্ষমতা দুর্বল হওয়ার কারণে ধীরে ধীরে বিলুপ্ত হয়ে গেছে বলে মনে হয়। তবে এগুলি আসলে কিছু ক্ষেত্রে বেশ শক্তিশালী, সিকোয়েন্স মডেলিংয়ে এখনও কিছু প্রভাব ফেলে, যেমন অ্যানোমালি ডিটেকশন টাস্ক।

আসলে তিনটি নন-ট্রান্সফরমার আর্কিটেকচার রয়েছে: লিনিয়ার অ্যাটেনশন, দীর্ঘ কনভলিউশন এবং লিনিয়ার আরএনএন।

তবে বাস্তবে, এই তিনটিকেই একটিতে একত্রিত করা যেতে পারে, যাকে আমরা লিনিয়ার কমপ্লেক্সিটি মডেল বলি। আমরা তিনটিকেই অন্তর্ভুক্ত করে একটি নিবন্ধ লিখেছি।

লাইটনিং অ্যাটেনশন এবং মাম্বা ও RWKV-এর মধ্যে মূল পার্থক্যগুলি কী কী?

সবচেয়ে গুরুত্বপূর্ণ পার্থক্য হল লাইটনিং অ্যাটেনশন হল সবচেয়ে সরল লিনিয়ার অ্যাটেনশন। মাম্বা এবং RWKV উভয়ই ডেটা-নির্ভর ক্ষয় ব্যবহার করে, যেখানে লাইটনিং অ্যাটেনশন গতির জন্য হাতে তৈরি ক্ষয় ব্যবহার করে।

যদিও শেখা ক্ষয় আরও ভাল ফলাফল দিতে পারে, তবে এটি গতির সাথে আপস করে। উদাহরণস্বরূপ, RWKV-7 গেটিং ডেল্টা নেটের চেয়ে 10-15% ধীর, যেখানে গেটেড ডেল্টা নেট লাইটনিং অ্যাটেনশনের প্রায় অর্ধেক গতিতে চলে।

RWKV-এর মডেলিংয়ের প্রভাব অবশ্যই লাইটনিং অ্যাটেনশনের চেয়ে ভাল, তবে এটি ধীরগতির এবং এখনও পুনরুদ্ধার সমস্যা সমাধান করতে পারেনি।

এটা কি এখন শিল্পের ঐকমত্য যে লিনিয়ার অ্যাটেনশনের একটি উচ্চ এবং বাস্তবসম্মত ঊর্ধ্বসীমা রয়েছে?

না, যদি এটি ঐকমত্য হত, তবে সবাই লিনিয়ার অ্যাটেনশন মডেলকে স্কেল করত। আর এখন এটা ঐকমত্যও নয়। যদি হত, তবে সবাই লিনিয়ার করত, তবে আপনি দেখতে পাচ্ছেন, তেমনটা নয়।

তবে আমাদের জন্য, আমরা এটি 2023 সালের দ্বিতীয়ার্ধে দেখেছি। সেই সময়, আমি অনেক লোককে জিজ্ঞাসা করেছি এবং অনেকের সাথে কথা বলেছি, এবং তারা যে সবচেয়ে সাধারণ বিষয়টি তুলে ধরেছিল তা হল তারা জানত লিনিয়ার অ্যাটেনশন ছোট স্কেলে কাজ করে, তবে তারা অনুভব করত একবার স্কেল করা হলে এটি ব্যর্থ হবে।

সেই সময়, আমি ভেবেছিলাম আমি সবার দেখার জন্য এটিকে স্কেল করব। এখন যেহেতু মিনিম্যাক্স-01 প্রকাশিত হয়েছে, তাই বড় স্কেলে লিনিয়ার অ্যাটেনশনের ক্ষমতা নিয়ে কারও সন্দেহ নেই।

ছোট পরীক্ষা থেকে বৃহৎ-স্কেলে বাস্তবায়ন

আপনি কি মনে করেন লিনিয়ার অ্যাটেনশনের ঊর্ধ্বসীমা ফুল অ্যাটেনশনকে ছাড়িয়ে যেতে পারে?

আমরা এখন দেখতে পাচ্ছি যে বিশুদ্ধ ট্রান্সফরমারের চেয়ে হাইব্রিড আর্কিটেকচার ভাল। তবে বিশুদ্ধ লিনিয়ার অ্যাটেনশনের সবচেয়ে বড় সমস্যা হল পুনরুদ্ধার ক্ষমতা, যা একাডেমিয়ার জন্য সমাধান করা একটি কঠিন সমস্যা।

বিদ্যমান পদ্ধতিগুলি জটিল এবং ধীর হওয়া সত্ত্বেও সম্পূর্ণরূপে এটি সমাধান করতে পারে না, তাই হাইব্রিড আর্কিটেকচারের দিকে যাওয়া প্রয়োজন।

কোন নোডটি দেখে আপনি ল্যাব থেকে বেরিয়ে আসার সিদ্ধান্ত নিয়েছিলেন?

মে-জুন 2023-এ, আমাদের কাছে অভ্যন্তরীণভাবে লাইটনিং অ্যাটেনশন 2 ছিল, যা ছিল বিশ্বের প্রথম লিনিয়ার অ্যাটেনশন বাস্তবায়ন যা ফ্ল্যাশ অ্যাটেনশনের চেয়ে দ্রুত ছিল।

আমরা বিশ্বাস করি এটি শিল্প লাল রেখা অতিক্রম করেছে এবং এর প্রযুক্তিগত পরিপক্কতা খুব বেশি এবং এটিকে স্কেল করা যেতে পারে।

আপনি এই শিল্প লাল রেখাকে কীভাবে সংজ্ঞায়িত করেন?

প্রথমত, এর প্রভাব ট্রান্সফরমারের চেয়ে ভাল, এবং দ্বিতীয়ত, এটি ট্রান্সফরমারের চেয়ে দ্রুত। এটি এটিকে ট্রান্সফরমার প্রতিস্থাপনের ক্ষমতা দেয়। আমরা সেই সময়ে 15B স্কেলের একটি ডেন্স মডেলে এটি যাচাই করেছি।

আপনি যখন ল্যাব থেকে বেরিয়ে এসেছিলেন, তখন কেন শেষ পর্যন্ত মিনিম্যাক্সের সাথে একত্রিত হয়েছিলেন?

আসলে, আমি সেই সময় কিছু বড় কোম্পানির সাথে কথা বলেছিলাম। তবে শেষ পর্যন্ত, আমি মিনিম্যাক্সের সাথেই এটি ঘটিয়েছি।

প্রথমত, কসফরমার হল একটি নিবন্ধ যা আমি জুঞ্জিয়ের সাথে একসাথে লিখেছিলাম। আমাদের সহযোগিতার একটি ভিত্তি রয়েছে। জুঞ্জিয়ে সেন্সটাইমে থাকার সময় আমার বস ছিলেন। 23 সালের শেষে, জুঞ্জিয়ে আমাকে রাতের খাবারের জন্য আমন্ত্রণ জানিয়েছিলেন। তিনি এই অত্যাধুনিক প্রযুক্তির সম্ভাবনা সম্পর্কে আরও আত্মবিশ্বাসী। আমার ধারণা, তিনি সেই সময় একটি প্রযুক্তিগত সাফল্যের সন্ধানে ছিলেন।

সেই সময়, মিনিম্যাক্স মো-এর উপর গবেষণা সম্পন্ন করেছিল, এবং পরবর্তী ধাপের জন্য খুব কম প্রযুক্তিগত সাফল্যের পয়েন্ট ছিল। সেই সময়, লাইটনিং অ্যাটেনশন প্রকাশিত হয়েছিল, এবং মাম্বাও জনপ্রিয় ছিল, তাই তার দৃষ্টিতে এটি একটি বাস্তবসম্মত দিক ছিল।

এটি কি মিনিম্যাক্সের ইন্টারেক্টিভ সঙ্গী পণ্যের সাথে সম্পর্কিত?

এর সাথে কোনও সম্পর্ক নেই। ইয়ান জুঞ্জিয়ে মডেলের ঊর্ধ্বসীমা এবং কীভাবে এই সিলিং আরও ভেঙে দেওয়া যায় সে বিষয়ে বেশি চিন্তিত।

লিনিয়ার অ্যাটেনশন জনসাধারণের চোখে দক্ষতার দিক থেকে সাফল্য অর্জনের একটি দিক হতে পারে, সিলিং ভেঙে দেওয়ার চেয়ে।

এখানে বিষয় হল, প্রথমত, প্রতিটি প্রস্তুতকারকের কম্পিউটিং ক্ষমতা স্থির। মডেলটি যত দ্রুত ত্বরান্বিত করা যায়, এটি তত বেশি ডেটা গ্রহণ করতে পারবে এবং আরও ভাল মডেল তৈরি করা যাবে। যখন কম্পিউটিং ক্ষমতা স্থির থাকে, তখন মডেল যত দ্রুত হবে, তত ভাল।

আপনি কি এমন পরিস্থিতি দেখেছেন যেখানে ডেটা শীর্ষে পৌঁছেছে?

এখনও না, তাই না? ডেটা এখনও ক্রমাগত স্কেলিংয়ের পর্যায়ে রয়েছে, তবে এটি 23 সালের মতো আগ্রাসী নাও হতে পারে।

কারণ ডেটা সবসময় বাড়ছে, এবং প্রতিদিন নতুন ডেটা বের হচ্ছে। মডেলের জন্য, প্রতিদিন প্রক্রিয়াকরণের জন্য নতুন ডেটা রয়েছে। ইন্টারনেট দ্বারা প্রতিদিন এত ডেটা তৈরি হয়। পরিষ্কার করার মাধ্যমে, আমরা এখনও নতুন ডেটা পেতে পারি।

মানব উন্নয়নের এত বছর ধরে যে ডেটা বিদ্যমান রয়েছে, তার তুলনায় ডেটা বৃদ্ধির হার কি কমে গেছে?

আসলে, তেমনটা নাও হতে পারে। চীনের পাঁচ হাজার বছরের ইতিহাস দেখুন, এবং মাত্র কয়েকটি বই জমা হয়েছে। তবে ইন্টারনেটের বিকাশের সাথে সাথে ডেটার পরিমাণ বৃদ্ধি একটি খুব খাড়া বক্ররেখা। ইন্টারনেটের আগে উত্পন্ন সামগ্রিক ডেটা সম্ভবত পরের এক বছরে উত্পন্ন ডেটার মতো নাও হতে পারে।

স্কেল-আপ প্রক্রিয়ার সময়, লাইটনিং অ্যাটেনশন কী কী চ্যালেঞ্জের মুখোমুখি হয়েছিল?

এর প্রসারণযোগ্যতা যাচাই করার জন্য, আমরা প্রথমে স্কেলিং ল পরীক্ষা করি, ধীরে ধীরে ছোট মডেল থেকে 7B, 9B পর্যন্ত প্রসারিত করি এবং অবশেষে 400B-এর বেশি মডেলগুলিতে স্কেল করি।

এবং আমরা তাত্ত্বিকভাবে প্রমাণ করেছি যে লিনিয়ারের ক্ষমতা ট্রান্সফরমারের চেয়ে বেশি।

আমরা ক্ষমতাকে আরএনএন-এর বর্তমান অবস্থার আকার হিসাবে সংজ্ঞায়িত করি। ট্রান্সফরমারের জন্য, ক্ষমতার আকার হল O(d), যেখানে d হল আকার; লিনিয়ার অ্যাটেনশনের জন্য, ক্ষমতার আকার হল d²/h। যেহেতু d, h-এর চেয়ে অনেক বড়, তাই ক্ষমতা বড়।

শেষ পর্যন্ত, আমরা আরও যাচাই করেছি যে হাইব্রিড মডেলটি বিশুদ্ধ ট্রান্সফরমারের চেয়ে ভাল।

4M দৈর্ঘ্যের সিকোয়েন্স উইন্ডো কীভাবে অর্জিত হয়?

লাইটনিংয়ের জন্য, প্রশিক্ষণের দৈর্ঘ্য নির্বিচারে হতে পারে। যতক্ষণ না কম্পিউটিং ক্ষমতা সম্পূর্ণরূপে ব্যবহার করা হয়, 8K, 32K, বা 128K প্রশিক্ষণের গতি একই থাকে এবং TGS (টোকেন প্রতি GPU প্রতি সেকেন্ড) একই থাকে।

কারণ ট্রান্সফরমার হল n² কম্পিউটেশনাল জটিলতা, সিকোয়েন্স যত দীর্ঘ হবে, কম্পিউটেশনাল জটিলতা তত দ্রুত বাড়বে এবং লেটেন্সি দ্বিঘাত বক্ররেখায় বাড়বে। 1M দৈর্ঘ্যে, সফটম্যাক্স অ্যাটেনশনের লেটেন্সি লাইটনিং অ্যাটেনশনের তুলনায় 2,700 গুণ বেশি।

ভবিষ্যতে অসীম প্রসঙ্গ উইন্ডো অর্জনের জন্য কোন প্রযুক্তিগত চ্যালেঞ্জগুলি সমাধান করা দরকার?

আমাদের বর্তমান হাইব্রিড আর্কিটেকচারে, এখনও 1/8 সফটম্যাক্স অ্যাটেনশন রয়েছে। এটি 1M দৈর্ঘ্যে একটি বাধা। এই 1/8 দ্বারা আনা লেটেন্সি বাকি 7/8 লিনিয়ার অ্যাটেনশনের চেয়ে অনেক বেশি।

আমরা যদি দীর্ঘ পাঠ্য অপ্টিমাইজ করতে চাই, তবে আমাদের অবশ্যই সফটম্যাক্স অ্যাটেনশন অংশটি অপ্টিমাইজ করার কথা বিবেচনা করতে হবে। আমরা এটিকে দ্রুত এবং হালকা করার জন্য স্পার্স অ্যাটেনশন পদ্ধতি থেকে শিখতে পারি।

এছাড়াও, আমরা সফটম্যাক্স এবং লিনিয়ার অ্যাটেনশনের মিশ্রণের অনুপাতটিকে আরও চরম করার কথাও বিবেচনা করছি, আর 1/8 নয়, সম্ভবত 1/16 বা 1/32। সবচেয়ে চরম সমাধান হল পুরো মডেলে শুধুমাত্র একটি স্তরের সফটম্যাক্স রাখা, তবে সুরক্ষার জন্য, আমরা এটি গ্রহণ করিনি, মূলত পুনরুদ্ধার ক্ষমতার উপর প্রভাবের কথা বিবেচনা করে।

মডেলের জন্য পুনরুদ্ধার ক্ষমতা এত গুরুত্বপূর্ণ কেন?

পুনরুদ্ধার হল ইন-কনটেক্সট লার্নিংয়ের ভিত্তি এবং একটি প্রয়োজনীয় শর্ত।

ইন-কনটেক্সট লার্নিং করার জন্য আপনাকে অবশ্যই প্রেক্ষাপটের তথ্য মনে রাখতে হবে, এবং ইন-কনটেক্সট লার্নিং হল বর্তমান বৃহৎ মডেলগুলির সমস্ত উন্নত ক্ষমতার ভিত্তি, যেমন CoT (Chain of Thought), বিশেষ করে দীর্ঘ CoT, যা সবই পুনরুদ্ধার ক্ষমতার উপর নির্ভর করে।

নির্ণায়ক নতুন আর্কিটেকচার

আপনি কি শিল্পে FFN এবং অ্যাটেনশনের সর্বশেষ স্থাপত্য উন্নতির দিকে মনোযোগ দিয়েছেন?

FFN-এর উন্নতি হল Moe। আমি বাইটের আল্ট্রা মেমের দিকেও মনোযোগ দিয়েছি, তবে আমি মনে করি এটি একটি ক্ষতিকর জিনিস, একটি ক্ষতিকর কম্প্রেশন। ভবিষ্যতে এটিকে স্কেল করা হলে সমস্যা হতে পারে, তবে আমরা স্কেল করিনি, তাই আমি কেবল বলতে পারি যে সমস্যা হতে পারে।

কারণ FFN মূলত এইগুলোই। Moe এলাকায় আমাদের উন্নতি আগের বড় বিশেষজ্ঞ থেকে বর্তমান ছোট বিশেষজ্ঞ মোডে পরিবর্তন করা, এটিকে আরও স্পার্স করা এবং তারপরে কিছু ত্বরণ করা ছাড়া আর কিছুই নয়, যার জন্য আরও গবেষণার প্রয়োজন।

আপনি যদি এটিকে আরও অপ্টিমাইজ করতে চান, কারণ FFN হল ম্যাট্রিক্স গুণ, অপ্টিমাইজেশন শুধুমাত্র Nvidia দ্বারা CUDA স্তরে করা যেতে পারে, ম্যাট্রিক্স গুণের কিছু নিম্ন-স্তরের অপ্টিমাইজেশন করা যেতে পারে।

আপনি কি শিল্পে অ্যাটেনশন আর্কিটেকচারের উন্নতির দিকে মনোযোগ দিয়েছেন?

অ্যাটেনশনের উন্নতি মূলত লিনিয়ার। আমরা ভবিষ্যতে আরও শক্তিশালী লিনিয়ার তৈরি করার কথা বিবেচনা করছি, এবং বর্তমান ভিত্তির উপর লিনিয়ার অ্যাটেনশনকে আরও ত্বরান্বিত করার কথা ভাবছি।

উন্নতির অনেক উপায় রয়েছে, একটি হল ক্ষয় পরিবর্তন করা এবং অন্যটি হল ভিতরে কিছু ছোট কৌশল পরিবর্তন করা। আপনি আমাদের নতুন পেপারের জন্য অপেক্ষা করতে পারেন।

প্রসঙ্গ দৈর্ঘ্য এবং অনুমানের ব্যয়ের বর্তমান অনুপাত কি তুলনামূলকভাবে উন্নত?

একবার এটি সিকোয়েন্সের দৈর্ঘ্য দীর্ঘ করার সাথে জড়িত হলে, আমাদের একটি খুব স্পষ্ট কম্পিউটিং পাওয়ার খরচের সুবিধা রয়েছে। এটি যত দীর্ঘ হবে, খরচের সুবিধা তত বেশি স্পষ্ট হবে, তা অনুমান বা প্রশিক্ষণ যাই হোক না কেন।

উদাহরণস্বরূপ, 1M-এ, লিনিয়ার অ্যাটেনশন দ্বারা ব্যবহৃত কম্পিউটিং পাওয়ার ফুল অ্যাটেনশনের 1/2700। এর তুলনায়, যেহেতু আমাদের এখনও 1/8 ফুল অ্যাটেনশন রয়েছে, তাই এটি মূলত ট্রান্সফরমার আর্কিটেকচারের 1/8, কারণ লিনিয়ার অ্যাটেনশনকে মূলত ব্যয় হিসাবে গণনা করা হয় না।

যদি গণনার খরচ এত কম হয়, তবে এটি কি গণনার সীমাবদ্ধতা অর্জন করতে পারে?

এখন এটি সত্যিই একটি মেমরি অ্যাক্সেস সীমাবদ্ধতা। ডিকোডিং একটি মেমরি অ্যাক্সেস সীমাবদ্ধতা, গণনার সীমাবদ্ধতা নয়। কারণ লাইটনিং খুব দ্রুত, এটি এতটাই দ্রুত যে মেমরি অ্যাক্সেসকে গণনার মতো কম সংস্থান দখল করতে দেয়। এর প্রধান কারণ হল প্রকৃত অ্যাপ্লিকেশনগুলিতে সিকোয়েন্সের দৈর্ঘ্য যথেষ্ট দীর্ঘ নয়।

ভবিষ্যতে কীভাবে এটিকে গণনার সীমাবদ্ধতা তৈরি করা যায় তা মেমরি অ্যাক্সেসকে কীভাবে অপ্টিমাইজ করা যায় তার উপর নির্ভর করে। এগুলি এমন জিনিস যা ইঞ্জিনিয়ারিং বিভাগকে দায়িত্ব নিতে হবে।

যদি লিনিয়ার আর্কিটেকচার পরবর্তী প্রজন্মের মূলধারার আর্কিটেকচার হয়ে ওঠে, তবে কোন হার্ডওয়্যার অভিযোজন উন্নতি এর জন্য আরও উপযুক্ত হবে?

এখানে একটি খুব কঠিন বিষয় হল আমাদের সিকোয়েন্সের দৈর্ঘ্য বিবেচনা করতে হবে। যদি আপনার সিকোয়েন্সের দৈর্ঘ্য 8K বা 32K-এর উপর দৃষ্টি নিবদ্ধ করে, তবে অ্যাটেনশন শুধুমাত্র দশ শতাংশের বেশি সামান্য অংশ দখল করে এবং অবশিষ্ট আশি শতাংশ হল FFN অংশ।

এমনকি আপনি যদি অ্যাটেনশনকে চরম পর্যায়ে অপ্টিমাইজ করেন, 0-এ, আপনি শুধুমাত্র দশ শতাংশের বেশি লেটেন্সি অপ্টিমাইজ করেছেন। তবে আপনি যদি সিকোয়েন্সের দৈর্ঘ্য দীর্ঘ করেন তবে অ্যাটেনশনের অনুপাত বড় হতে থাকবে। এটি ফুল অ্যাটেনশনের সাথে তুলনা করা হয়, তবে লিনিয়ার অ্যাটেনশনের জন্য, এর অনুপাত অপরিবর্তিত থাকে।

কারণ FFN-ও লিনিয়ার এবং লিনিয়ার অ্যাটেনশনও লিনিয়ার, এর অনুপাত প্রায় 10%, যা প্রায় অপরিবর্তিত, এমনকি 1M-এর ক্ষেত্রেও।

তবে এটি যদি ফুল অ্যাটেনশন হয় তবে অ্যাটেনশন গণনা 99% দখল করতে পারে এবং নিম্নলিখিত FFN শুধুমাত্র 1% দখল করে। তাই লিনিয়ার অ্যাটেনশনের শুধুমাত্র দীর্ঘ পাঠ্যে সুবিধা রয়েছে।

যদি লিনিয়ার আর্কিটেকচার মূলধারায় পরিণত হয়, তবে লক্ষ্য হতে পারে স্বল্প-শক্তির হার্ডওয়্যার, শুধুমাত্র শক্তির ব্যবহার হ্রাস করা। স্পাইকিং নিউরাল নেটওয়ার্ক (SNN) চিপসহ আরও উপযুক্ত হতে পারে এবং কিছু লোক আসলে এটি করছে।

এজিআই-এর পথের দিকে তাকিয়ে

মডেল ওপেন-সোর্স প্রভাবের জন্য আপনার প্রত্যাশা কী?

প্রথমটি হল প্রচারের প্রভাব। আমি ব্যক্তিগতভাবে মনে করি কিছু পেশী দেখানোর পাশাপাশি, ওপেন সোর্সের সবচেয়ে গুরুত্বপূর্ণ বিষয় হল ভবিষ্যতে সবাই এটিকে কীভাবে ব্যবহার করতে পারে তা দেখা। আমি মনে করি ছোট মডেল ওপেন সোর্স ভবিষ্যতে আমরা বিবেচনা করতে পারি।

এবং সবার জন্য ফাইন টিউন করার জন্য কিছু অবকাঠামো কীভাবে তৈরি করা যায় তাও বিবেচনা করা দরকার। ওপেন সোর্স ভবিষ্যতের জন্য আমাদের জন্য একটি দীর্ঘমেয়াদী বিষয় এবং ফ্ল্যাগশিপ মডেলগুলি ওপেন সোর্স করা অব্যাহত রাখা উচিত।

ভবিষ্যতে হাইব্রিড নয় এমন একটি বিশুদ্ধ-রক্তের আর্কিটেকচার কি কাজ করতে পারে?

বর্তমানে, এমন কোনও পদ্ধতি নেই যা হাইব্রিডের চেয়ে ভাল করতে পারে, বিশেষ করে গতির দিক থেকে। সফটম্যাক্স অ্যাটেনশনের একটি ছোট অংশ যোগ করলে, যখন সিকোয়েন্সের দৈর্ঘ্য বিশেষভাবে দীর্ঘ হয় না, তখন গতির সুবিধা খুব স্পষ্ট হয়, বিশেষ করে ফ্ল্যাশ অ্যাটেনশনের আবির্ভাবের পরে।

বিশুদ্ধ-রক্তের আর্কিটেকচারের উপর গবেষণা এখনও চলছে, তবে এটি খুব কঠিন এবং আর কোনও সহজলভ্য ফল নেই। আমাদের কিছু প্রযুক্তিগত সমাধান রয়েছে, তবে বাস্তবায়ন সহজ নয় এবং শেষ পর্যন্ত আমাদের কত দীর্ঘ সিকোয়েন্সের দৈর্ঘ্য অর্জন করতে হবে তার উপর নির্ভর করে।

আরেকটি প্রশ্ন হল, অতি-দীর্ঘ পাঠ্যের জন্য কি কোনও শক্তিশালী চাহিদা রয়েছে? যদিও ক্লড-এর মতো মডেলগুলি 200K প্রেক্ষাপটে পৌঁছেছে, ব্যবহারকারীরা বর্তমান দৈর্ঘ্যে খুব সন্তুষ্ট বলে মনে হয়। এজেন্ট অ্যাপ্লিকেশন ভবিষ্যতে অতি-দীর্ঘ সিকোয়েন্সের চাহিদা আনতে পারে, তবে এখনও কোনও পরিপক্ক বেঞ্চমার্ক নেই।

তবে আমি মনে করি এই সমস্যাটি ভবিষ্যতের গেমগুলির জন্য উন্নত পারফরম্যান্স গ্রাফিক্স কার্ড বিকাশের মতো, যদিও এখন এর প্রয়োজন নেই, এটি ভবিষ্যতের জন্য প্রযুক্তি।

উদাহরণস্বরূপ, গভীর গবেষণার জন্য মডেলটিকে কয়েক ডজন ওয়েবসাইটের বিষয়বস্তু পড়তে হয় এবং প্রক্রিয়াকরণের সময় কয়েক মিনিটের মধ্যে হয়, যা দীর্ঘ পাঠ্যের জন্য একটি অ্যাপ্লিকেশন দিক হতে পারে।

CoT-এর পরে পরবর্তী বড় জিনিসটি কী হতে পারে বলে আপনি মনে করেন?

আমরা এই বিষয়ে ভেবেছি। প্রথমত, বর্তমান যুক্তি মডেল তুলনামূলকভাবে জনপ্রিয় এবং এই বছর মূল স্রোতটি এখনও যুক্তির অংশ হবে। এর পরে, বিশুদ্ধ ভাষা মডেলের ভবিষ্যতে কোনও বিশেষ বড় পরিবর্তন আসবে বলে আমাদের পক্ষে চিন্তা করা কঠিন।

আমি অন্যান্য শিক্ষকদের সাথেও কথা বলেছি, এবং তাদের অনুভূতি হল সবাই মডেলের ব্যয় পুনরায় হ্রাস করবে, যাতে যুক্তির গতি দ্রুত এবং দ্রুততর হয় এবং এর দাম কম থেকে কম হয় এবং প্রভাব বজায় রেখে ব্যয় হ্রাস করা হয়।

কারণ সিলিং দ্রুত কাছে আসছে, বেশিরভাগ ক্ষেত্রে বৃহৎ মডেলগুলির ক্ষমতার ফাঁকগুলি পরীক্ষা করে পূরণ করা হয়। তবে যদি আরও বড় প্রযুক্তিগত সাফল্য আসে তবে সেগুলি স্বল্প মেয়াদে তুলনামূলকভাবে বিরল হতে পারে এবং আমরা এখনও সেগুলি দেখিনি।

মিনিম্যাক্স লিনিয়ার অ্যাটেনশন অনুসন্ধান করার পরে, অনুসন্ধানের পরবর্তী দিকটি কী হতে পারে?

পরবর্তী জিনিসটি মাল্টিমোডালের আর্কিটেকচার অনুসন্ধান করা হতে পারে, বিশেষভাবে আমরা এই নেটিভ জেনারেশন এবং আন্ডারস্ট্যান্ডিং ইউনিফাইড লার্জ মডেল আর্কিটেকচারটি করতে চাই কিনা।

এজিআই শেষ গেম হিসাবে, O(n²) বা O(n) কম্পিউটেশনাল জটিলতার সাথে কোন মডেলটি আরও ভাল উত্তর হবে?

অবশ্যই, এটি O(n)। নৃবিজ্ঞানীকরণের দৃষ্টিকোণ থেকে, মানুষের অবশ্যই O(n) জটিলতা থাকতে হবে। উদাহরণস্বরূপ, যদি কোনও ব্যক্তির জটিলতা O(n²) হয় তবে আমি আপনার সাথে যে গতিতে কথা বলি তা ধীরে ধীরে ধীর হয়ে যাবে।

কারণ ট্রান্সফরমারের জন্য, এর অনুমানের জটিলতা হল O(n²) কম্পিউটেশনাল জটিলতা, অর্থাৎ প্রথম টোকেন এবং 100তম টোকেন বের করার লেটেন্সি আলাদা।

আমরা মানুষ এমন কিছু কল্পনা করতে পারি না, কারণ মানুষ জন্মের পর থেকে আর কখনও পুনরায় চালু হয়নি এবং ক্রমাগত জিনিস বের করে চলেছে, তাই মানুষের গণনার জটিলতা স্থির।

মানুষ কি বুদ্ধিমত্তার জন্য প্রয়োজনীয়ভাবে অনুকূল সমাধান?

আমরা এই মুহূর্তে শুধুমাত্র তাই ভাবতে পারি। জৈবনিক বুদ্ধিমত্তার রুট অনুসরণ করা কিছু লোকও রয়েছে, তবে আমরা সেই দিকগুলিতে খুব বেশি মনোযোগ দিইনি।

এজিআই শেষ গেম হিসাবে, মডেল উন্নতির কোন ক্ষেত্রগুলি সবচেয়ে গুরুত্বপূর্ণ?

ভাষা মডেলিংয়ের পাশাপাশি শেখার পদ্ধতির সমস্যাও রয়েছে। আপনি কীভাবে শিখবেন এবং পরিবেশ থেকে শিখবেন, পরিবেশের সাথে মিথস্ক্রিয়া থেকে শেখা খুব গুরুত্বপূর্ণ। সর্বোপরি, বর্তমান মাল্টিমোডাল আন্ডারস্ট্যান্ডিং এখনও ডেটার দিক থেকে খুব অভাব রয়েছে।

এবং এমনকি মেশিনের খুব কম-শট লার্নিং বর্তমানে লেবেলযুক্ত, তবে মানুষের শেখা অচিহ্নিত। সুতরাং কীভাবে স্ব-নির্মিত কাঠামোর অধীনে সবকিছুকে একীভূত করা যায় তাও একটি সমস্যা।