Knowledge Distillation for BERT

Современные языковые модели становятся всё глубже и сложнее, в них насчитываются миллионы параметров (BERT — 340, GPT-2 — 1500, ELMo — 94), что плохо сказывается на времени и стоимости обучения, а также на внедрение их в смартфоны, edge-устройства и т.п. Поэтому возникают задачи по оптимизации таких моделей, с целью более широкого их применения. С другой стороны, есть работы, которые утверждают, что BERT содержит излишне много параметров, а значит его можно уменьшить без потери качества. На этом семинаре м

11 views