NVIDIA FFN Fusion: Ефективност за LLM
NVIDIA представя FFN Fusion – техника за паралелизиране на FFN слоеве в LLM, преодолявайки последователните ограничения. Това намалява латентността и разходите при инференция, демонстрирано с Ultra-253B-Base, без компромис с производителността.