Knowledge Distillation for BERT

Современные языковые модели становятся всё глубже и сложнее, в них насчитываются миллионы параметров (BERT — 340, GPT-2 — 1500, ELMo — 94), что пло...
Back to Top