Имплементация Трансформера from scratch (на PyTorch)
Код из видео:
Больше материалов по NLP: Ml16EbQoepcwMGNi
00:00 - gelu, эмбеддинги, layer norm
00:39 - self attention
02:36 - residual connection, layer norm
04:03 - encoder
04:20 - pooling
04:45 - модель трансформер (BERT)