EAGLE — метод, позволяющий ускорить генерацию ответов от LLM Можно ли генерировать ответ от LLM на двух RTX 3060 быстрее

EAGLE — метод, позволяющий ускорить генерацию ответов от LLM Можно ли генерировать ответ от LLM на двух RTX 3060 быстрее, чем на A100 (которая дороже в 16 раз)? Да, это возможно с алгоритмом EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), точность ответов при этом сохраняется. EAGLE позволяет экстраполировать вектора контекстных признаков второго верхнего слоя LLM, что значительно повышает эффективность генерации. EAGLE в 2 раза быстрее Lookahead (13B), и в 1.6 раз быстрее, чем Medusa (13B). И да, EAGLE можно комбинировать с другими методами ускорения, такими как vLLM, DeepSpeed, Mamba, FlashAttention, квантование и аппаратная оптимизация. Hugging Face GitHub

1 view