Триумф RL: Phi-4 Reasoning Plus от Microsoft
Microsoft's Phi-4 Reasoning Plus демонстрирует мощь обучения с подкреплением (RL), превосходя модели большего размера в кодировании, математике и науке благодаря высококачественным данным и стратегической оптимизации.