Knowledge Distillation for BERT

Современные языковые модели становятся всё глубже и сложнее, в них насчитываются миллионы параметров (BERT — 340, GPT-2 — 1500, ELMo — 94), что пло...

14 views

60

11

Back to Top