Language-Agnostic Representation Learning of Source Code from Structure and Context

Векторизация кода используется во множестве задач, связанных с анализом кода: в задачах суммаризации по векторному представлению фрагмента кода генерируют документацию, в задачах поиска клонов дубликаты ищут по близости векторов, и т.д. Поэтому развитие моделей векторизации (encoder) логично и количество работ на эту тему с каждым годом увеличивается. При этом зачастую авторы пытаются обучить модели сразу под несколько прикладных задач или для нескольких языков программирования. Яркими представителями таких моделей являются CodeBERT или GREAT. Однако желание использовать несколько языков программирования и иметь модель сразу под несколько задач крайне сложно масштабируется в существующих реалиях. На этом собрании журнального клуба мы рассмотрим статью , в которой авторы пробуют решить эту проблему, объединяя идеи больших текстовых моделей на основе трансформеров и использование структурной информации из AST. Докладчик: Егор Спирин.

15 views