Navigating knowledge scape: learning higher-order structures from data | Любовь Тупикина

Мы поговорим о математических задачах, которые возникают при обработке больших данных. В частности, о задаче вложения пространств высокой размерности в пространства низкой размерности. Если действовать стандартными методами, при вложении данных часто можно столкнуться с серьезными проблемами, например, глобальная структура таких данных не представится точно, и что еще важнее — метрики низкоразмерного пространства выбираются «по умолчанию». Нас будет интересовать вопрос, какую модель вложения использовать в этих ситуациях [1,5], и вообще, когда этот вопрос для данных можно решить. Мы исследуем т. н. латентное пространство (latent space) методов вложения, используя комбинацию двух подходов: вложения гиперграфов и техник уменьшения размерности [1,2,3]. В качестве одного из приложений нашего подхода мы рассмотрим данные текстов статей на , чтобы понять, как ландшафт знаний можно охарактеризовать с помощью представления данных высшей арности (гиперграфов) [1,3]. Мы также обсудим открытые проблемы, такие как вопрос о том, как такое представление данных в виде гиперграфа может быть связано с объяснимостью архитектуры моделей встраивания типа BERT и/или автокодировщиков [4]. Мы также затронем некоторые темы из Лектория: лекции по математическим основам машинного обучения и некоторые базовые понятия топологии . [1] C. Singh, L. Tupikina, M. Starnini, M. Santolini “Charting mobility patterns in the scientific knowledge landscape” () EPJ data science (2024) [2] C. Singh, E. Barme, R. Ward, L. Tupikina, M. Santolini “Quantifying the rise and fall of scientific fields“ ( Plos One 17(6): (2022) [3] A. Bretto “Hypergraphs theory: An Introduction“ (~saito/data/tensor/) Springer, 2192-4732 (2013) [4] M. Grootendorst “BERTopic: Neural topic modeling with a class-based TF-IDF procedure“ () [5] C. Fefferman, S. V. Ivanov, M. Lassas, H. Narayanan “Fitting a manifold to data in the presence of large noise“ ()

42 views

3199

1221