Яндекс Образование Интенсив GPT Week. Лекция 3: Подготовка данных для обучения претрейна

🎯 Загружено автоматически через бота: 🚫 Оригинал видео: 📺 Данное видео принадлежит каналу «Яндекс Образование » (@Education_Yandex). Оно представлено в нашем сообществе исключительно в информационных, научных, образовательных или культурных целях. Наше сообщество не утверждает никаких прав на данное видео. Пожалуйста, поддержите автора, посетив его оригинальный канал. ✉️ Если у вас есть претензии к авторским правам на данное видео, пожалуйста, свяжитесь с нами по почте support@, и мы немедленно удалим его. 📃 Оригинальное описание: Спикер: Леша Зотов, руководитель группы качества данных YandexGPT Статьи, на которые есть отсылки в лекции или которые использовались при подготовке материала: Training Compute-Optimal Large Language Models (Hoffman et al., 2022) Scaling Data-Constrained Language Models (Muennighoff et al., 2023) The RefinedWeb Dataset for Falcon LLM Nougat: Neural Optical Understanding for Academic Documents Scaling Language Models: Methods, Analysis & Insights from Training Gopher OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text ~animeshm/algoml/ Объяснение Minhash LSH алгоритма D4: Improving LLM Pretraining via Document De-Duplication and Diversification Textbooks Are All You Need In-Context Pretraining: Language Modeling Beyond Document Boundaries DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

1 view