QwenLong-L1: Дългосрочно разсъждение за големи езикови модели

Предизвикателството за разсъждение в дълъг формат в ИИ

Последните постижения в големите модели за разсъждение (LRM), особено тези, използващи техники за обучение с подсилване (RL), доведоха до значителни подобрения в техните възможности за решаване на проблеми. Изследванията показват, че LRM, обучени с RL фина настройка, проявяват когнитивни умения, наподобяващи човешкото “бавно мислене”, което им позволява да развият сложни стратегии за справяне със сложни задачи. Това включва целенасочен и аналитичен подход, при който моделът щателно оценява информация, обмисля различни възможности и в крайна сметка стига до добре обосновано решение.

Постигнатият напредък в производителността на LRM се наблюдава предимно, когато моделите работят върху сравнително кратки текстове, обикновено около 4000 токена. Истинският тест обаче се крие в разширяването на тези възможности за разсъждение до много по-дълги контексти, като например 120 000 токена или повече. Това представлява огромно предизвикателство, тъй като разсъжденията в дълъг формат изискват цялостно разбиране на целия контекст и способност за извършване на многостъпков анализ. Разработчиците на QwenLong-L1 подчертават, че това ограничение представлява сериозна пречка за реални приложения, които изискват взаимодействие с външни знания, като например задълбочени изследвания, където LRM трябва да събират и обработват информация от среди, изискващи много знания.

За да се справи с това предизвикателство, изследователите го формализират в концепцията за “дългосрочно разсъждение RL”. За разлика от краткосрочното разсъждение, което често разчита на съществуващи знания, съхранявани в модела, дългосрочното разсъждение RL изисква точно извличане и заземяване на съответната информация от дълги входове. Това означава, че моделът трябва да може да пресява огромни количества текст, да идентифицира най-важните подробности и да ги свързва със задачата. Едва след успешното включване на тази информация моделът може да генерира последователни и логически вериги на разсъждения.

Обучението на модели за постигане на това ниво на владеене чрез RL е сложно начинание, често водещо до неефективно обучение и нестабилни процеси на оптимизация. Моделите може да се затруднят да се сближат към оптимални решения или да загубят способността си да изследват различни пътища на разсъждение, което възпрепятства цялостната им производителност.

QwenLong-L1: Многостепенно решение

QwenLong-L1 предлага цялостен, многостепенен подход, предназначен да оборудва LRM със способността безпроблемно да преминават от владеене на кратки текстове към стабилно обобщаване в дълги контексти. Тази рамка подобрява съществуващите LRM с кратък контекст чрез внимателно структуриран процес, включващ няколко ключови елемента:

  • Загряваща контролирана фина настройка (SFT): Тази начална фаза включва обучение на модела върху подбран набор от данни от примери за разсъждения в дълъг контекст. Целта на SFT е да установи стабилна основа, върху която моделът може да изгради своите умения за разсъждение в дълъг контекст. Като излагат модела на разнообразен набор от дълги текстове и съответните задачи за разсъждение, етапът на SFT позволява на модела точно да обосновава информация от дълги входове, да развива основни възможности за разбиране на контекста, да генерира логически вериги на разсъждения и да извлича смислени отговори.

  • Поетапен RL, ръководен от учебна програма: Този етап използва систематичен, стъпка по стъпка подход за обучение на модела чрез множество фази, като постепенно увеличава дължината на входните документи. Този подход, ръководен от учебна програма, помага на модела стабилно да адаптира своите стратегии за разсъждение от по-кратки към постепенно по-дълги контексти, като смекчава нестабилността, често срещана, когато моделите са внезапно обучени върху много дълги текстове. Чрез постепенно увеличаване на сложността на данните за обучение, моделът може ефективно да се научи да обработва по-дълги контексти, без да бъде претоварен от огромния обем информация.

  • Ретроспективно вземане на проби, отчитащо трудността: Този последен етап на обучение включва предизвикателни примери от предходните фази на обучение, като гарантира, че моделът продължава да се учи от най-трудните проблеми. Чрез приоритизиране на тези трудни случаи, моделът се насърчава да изследва по-разнообразни и сложни пътища на разсъждение, като в крайна сметка укрепва способността си да се справя с широк спектър от задачи за разсъждение в дълъг контекст. Тази ретроспективна техника за вземане на проби помага на модела да усъвършенства своите умения за разсъждение и да избегне засядане в локални оптимуми.

Системата за възнаграждение

В допълнение към своята структурирана методология на обучение, QwenLong-L1 използва усъвършенствана система за възнаграждение, която комбинира базирана на правила проверка с подход “LLM като съдия”. Докато обучението за задачи за разсъждение в кратък контекст често разчита на строги базирани на правила награди (например, правилен отговор в математически проблем), QwenLong-L1 използва хибриден механизъм за възнаграждение, който е по-гъвкав и адаптивен към нюансите на разсъждението в дълъг контекст.

Базираната на правила проверка гарантира прецизност, като проверява за стриктно придържане към критериите за коректност. Този компонент на системата за възнаграждение осигурява ясна и обективна мярка за производителността на модела, като гарантира, че той генерира точни и надеждни отговори.

Моделът “LLM като съдия” сравнява семантичността на генерирания отговор с основната истина, което позволява по-голяма гъвкавост и по-добро обработване на различните начини, по които правилните отговори могат да бъдат изразени, когато се работи с дълги, нюансирани документи. Този компонент на системата за възнаграждение признава, че може да има множество валидни начини да се отговори на въпрос въз основа на дълъг контекст, и възнаграждава модела за генериране на отговори, които са семантично подобни на основната истина, дори ако не са идентични. Това насърчава модела да генерира по-креативни и нюансирани отговори.

Оценка на производителността на QwenLong-L1

За да оцени ефективността на QwenLong-L1, екипът на Alibaba проведе задълбочени оценки, използвайки отговори на въпроси (DocQA) като основна задача. Този сценарий е особено подходящ за корпоративни приложения, където от ИИ често се изисква да разбира плътни документи, за да отговори на сложни въпроси. Задачите DocQA включват предоставяне на модел на документ и въпрос и искане от него да идентифицира отговора на въпроса в документа. Това изисква моделът да разбира въпроса, документа и връзката между двете.

Експерименталните резултати в седем дългосрочни DocQA бенчмарка демонстрираха впечатляващите възможности на QwenLong-L1. Моделът QWENLONG-L1-32B, базиран на DeepSeek-R1-Distill-Qwen-32B, постигна производителност, сравнима с Claude-3.7 Sonnet Thinking на Anthropic и надмина модели като o3-mini на OpenAI и Qwen3-235B-A22B. Освен това по-малкият модел QWENLONG-L1-14B надмина Gemini 2.0 Flash Thinking на Google и Qwen3-32B. Тези резултати подчертават ефективността на QwenLong-L1 в даването на възможност на LLM ефективно да разсъждават върху дълги и сложни документи.

Една ключова констатация, която е релевантна за реални приложения, е, че обучението по RL води до развитието на специализирани поведения за дългосрочно разсъждение в рамките на модела. Моделите, обучени с QwenLong-L1, показват подобрени способности в области като:

  • Заземяване: Свързване на отговори към конкретни части от документ. Това демонстрира способността на модела да идентифицира най-подходящата информация в дълъг текст и да го свърже с въпроса, който се задава. Ефективното заземяване е от решаващо значение за гарантиране, че отговорите на модела са точни и добре подкрепени от доказателствата в документа.

  • Поставяне на подцели: Разделяне на сложни въпроси на по-малки, по-управляеми подвъпроси. Това позволява на модела да подходи към сложни задачи за разсъждение по по-структуриран и организиран начин. Чрез разбиване на задачата на по-малки стъпки, моделът може по-лесно да идентифицира информацията, от която се нуждае, за да отговори на въпроса, и да генерира последователна и логична верига на разсъждения.

  • Проследяване назад: Разпознаване и коригиране на самонаправени грешки по време на процеса на разсъждение. Това демонстрира способността на модела да се самонаблюдава и да идентифицира потенциални грешки в процеса си на разсъждение. Чрез проследяване назад и коригиране на тези грешки, моделът може да гарантира, че крайният му отговор е точен и надежден.

  • Проверка: Двойна проверка на отговорите им, за да се гарантира точност и пълнота. Това демонстрира ангажимента на модела да предоставя точна и надеждна информация. Чрез двойна проверка на отговорите си, моделът може да идентифицира и коригира всички останали грешки, като гарантира, че крайният отговор е с най-високо качество.

Например, основен модел може да бъде отклонен от маловажни подробности във финансов документ или да заседне в цикъл на свръханализиране на несвързана информация. Въпреки това, обученият модел QwenLong-L1 демонстрира способност да се занимава с ефективна саморефлексия, успешно да филтрира тези детайли, отклоняващи вниманието, да се върне от неправилни пътища и да стигне до правилния отговор. Това подчертава ползите от рамката за обучение QwenLong-L1 за подобряване на устойчивостта и точността на дългосрочните разсъждения.

Потенциални приложения

Техники като QwenLong-L1 имат потенциала значително да разширят полезността на ИИ в предприятието. Някои потенциални приложения включват:

  • Легални технологии: Анализиране на хиляди страници правни документи, за да се идентифицират ключови клаузи, прецеденти и потенциални рискове. Това може да помогне на адвокатите да преглеждат по-ефикасно и ефективно правните документи, спестявайки им време и пари.
  • Финанси: Провеждане на задълбочени изследвания на годишни отчети и финансови документи, за да се оцени рискът и да се идентифицират възможности за инвестиране. Това може да помогне на финансовите анализатори да вземат по-информирани инвестиционни решения.
  • Обслужване на клиенти: Анализиране на дълги истории на взаимодействие с клиенти, за да се осигури по-информирана и персонализирана поддръжка. Това може да помогне на представителите на обслужването на клиенти да разберат по-добре нуждите на клиентите и да предоставят по-ефективни решения.

Като дават възможност на ИИ ефективно да разсъждава върху дълги и сложни документи, QwenLong-L1 и подобни техники могат да отключат широк спектър от нови възможности за корпоративни приложения, стимулирайки иновациите и подобрявайки ефективността в различни индустрии. Изследователите пуснаха кода за рецептата QwenLong-L1 и тежестите за обучените модели.