Tag: AIGC

대규모 언어 모델 추론 효율성 향상: MFA의 KV 캐시 감소 전략

대규모 언어 모델(LLM) 추론 시 메모리 병목 현상을 해결하는 새로운 어텐션 메커니즘 MFA(Multi-matrix Factorization Attention) 및 MFA-KR(MFA-Key-Reuse)을 소개합니다. 이 메커니즘은 KV 캐시 사용량을 93.7%까지 줄이면서도 기존 MHA 성능을 유지하거나 능가하며, 복잡성을 줄이고 다양한 Pos-embedding 방법과 호환됩니다. MFA는 어텐션 헤드 수와 차원을 늘려 모델 용량을 극대화하고, 저랭크 분해 전략을 통해 파라미터 효율성을 유지하며, 단일 키-값 헤드 디자인으로 메모리 소비를 최소화합니다. 실험 결과 MFA는 기존 MHA와 유사한 확장성을 보이며, 대규모 모델에서 87.5%의 메모리 절감 효과를 달성했습니다.

대규모 언어 모델 추론 효율성 향상: MFA의 KV 캐시 감소 전략

ESM3 단백질 연구의 혁신 500만 년 진화 시뮬레이션과 무료 API

Evolutionaryscale의 ESM3는 980억 개의 파라미터를 가진 획기적인 생물학적 모델로, 단백질 연구에 혁신을 가져왔습니다. 이 모델은 단백질의 3차원 구조와 기능을 이산 알파벳으로 변환하여 동시에 처리하며, 5조 년에 달하는 자연 진화를 시뮬레이션합니다. 최근에는 무료 API가 공개되어 전 세계 과학자들의 단백질 예측 연구를 가속화하고 있으며, Yann LeCun을 비롯한 전문가들의 찬사를 받고 있습니다.

ESM3 단백질 연구의 혁신 500만 년 진화 시뮬레이션과 무료 API