Создание эмбеддингов зависимостей и их использование в рекоммендательной системе

Зависимости проекта — это очень специфичный и любопытный источник информации. С одной стороны, по сравнению с самим кодом проекта они представляются очень маленькими, с другой стороны, они несут в себе чрезвычайно много инофрмации о проекте — подчас одного взгляда на них достаточно, чтобы сказать, о чём проект. С этой точки зрения зависимости можно рассматривать как “скелет“ проекта — и, следовательно, на их основании можно сравнивать проекты и делать о них выводы. В нашей работе мы решили исследовать создание эмбеддингов зависимостей и создали прототип рекомендательной системы на их основании. Мы собрали датасет из 7,132 фалов , представляющих собой списки зависимостей проектов на языке Python, а также собрали их версии за предыдущие 10 лет. На основании этих данных мы создали матрицу совместной встречаемости библиотек и проектов и с помощью сингулярного разложения превратили её в эмбеддинги проектов и зависимостей. Мы провели кластеризацию векторов зависимостей и исследовали

16 views