DeepSeek-R1 w pakiecie 32B? Analiza QwQ Alibaby
Czy uczenie się przez wzmacnianie, wsparte dodatkową weryfikacją, może znacząco podnieść możliwości dużych modeli językowych (LLM)? Zespół Qwen Alibaby poszukuje odpowiedzi, tworząc QwQ – model 'rozumowania' o 32 miliardach parametrów, który, jak twierdzi Alibaba, przewyższa DeepSeek R1 w określonych benchmarkach.