Оформление пайплайна в NLP проекте, Виталий Радченко / PyDaCon
22 июня Group прошел совместный митап с организаторами конференции PyCon Russia.
Вас ждут 2 секции: доклады по Python, состав которого был сформирован на основе общего списка докладов к PyCon Russia и PyData-трек от PyData Moscow meetup.
«Оформление пайплайна в NLP проекте»
Виталий Радченко, Data Scientist, YouScan
Сейчас многие компании решают разные NLP-задачи (классификация, чат-боты, кластеризация, вопросное-ответные системы и др.) и с накоплением опыта стали вырабатываться наиболее эффективные пайплайны.
В докладе мы будем ориентироваться на лучшие мировые практики (AllenNLP) и свой собственный опыт. Расскажем, как нужно структурировать ваш пайплайн и особенности каждой его составляющей: как правильно оформлять входящие данные, итераторы по датасету, каким должен быть словарь, подготовка данных и др. Будут приведены примеры с реальных задач и показано, как это помогает в воспроизводимости и легкости дальнейшего использования.
Программа мероприятия:
Keynote:
– «Как использовать JupyterHub на 100% на примере ML-школы DataGym и компании Lamoda»
Петр Ермаков, Senior Data Scientist в Lamoda и Data Coach в DataGym
Больше 2х лет назад я рассказывал о использовании jupyter на 100%.
Но что, если вы не один? Как ужиться на одной машине 20 студентам, изучающим ML, или RND команде из 15? Готовые рецепты, рекомендации и собранные грабли.
Python-трек:
— «SQL-боттлнеки: поиск и устранение узких мест при масштабировании»
Михаил Новиков, ведущий разработчик, Fasttrack ()
Вы начинаете новый проект. Устанавливаете веб-фреймворк, ORM-фреймворк, пишете модели, делаете запросы к БД. Всё идет хорошо. Потом к вам приходит 100 000 пользователей — и проект падает под нагрузкой. Ваши действия?
Такая ситуация была у нас полгода назад. Я расскажу, как мы нашли из нее выход, покажу наши подходы к поиску узких мест, сервисы, которые в этом помогают. И поясню, почему ванильный ORM — это зло.
— «Сравнение технологий aiopg & asyncpg»
Алексей Фирсов, ведущий разработчик aio-libs/aiopg
Разберем, как работают две совершенно разные технологии aiopg & asyncpg — посмотрим, как они устроены. Что важно, мы не будем сравнивать скорость.
PyData-трек:
– «Оформление пайплайна в NLP проекте»
Виталий Радченко, Data Scientist, YouScan
Сейчас многие компании решают разные NLP-задачи (классификация, чат-боты, кластеризация, вопросное-ответные системы и др.) и с накоплением опыта стали вырабатываться наиболее эффективные пайплайны.
В докладе мы будем ориентироваться на лучшие мировые практики (AllenNLP) и свой собственный опыт. Расскажем, как нужно структурировать ваш пайплайн и особенности каждой его составляющей: как правильно оформлять входящие данные, итераторы по датасету, каким должен быть словарь, подготовка данных и др. Будут приведены примеры с реальных задач и показано, как это помогает в воспроизводимости и легкости дальнейшего использования.
– «Локализация контента и элементов интерфейса»
Алина Красавина, Ведущий разработчик , Group
Рассказ о том, как устроена локализация на сервер-сайде . Небольшая трогательная история о боли контент-менеджеров и преодолении разработчиков бэка на Django.
– «Стекаем и Блендим. Разбор популярных библиотек Python»
Дмитрий Буслов, Старший архитектор бизнес-решений, SAP CIS
В докладе мы расскажем про наиболее популярные библиотеки для формирования ансамблей. Начнем с простых ensemble в Sklearn-e, далее вручную соберем простейший стекинг в пару строчек кода, а после рассмотрим наиболее популярные библиотеки: Vecstack, Heamy, Pystacknet, Mlxtend, Mlens.
ПРОДОЛЖЕНИЕ - В ПЕРВОМ КОММЕНТАРИИ.
___
ТЕХНОСТРИМ - образовательный канал для IT специалистов.
___
ПОДПИСЫВАЙСЯ, ЕСЛИ ТЕБЕ ИНТЕРЕСНО УЗНАТЬ:
✔ как наши преподаватели – топовые специалисты Group руководят разработкой в таких проектах, как Почта, ВКонтакте, Облако, , Одноклассники, и решают сложные задачи каждый день
✔ реальные примеры из практики с анализом их достоинств и недостатков
✔ современные технологии, которые применяются в проектах-лидера Рунета
✔ о митапах, мастер-классах, вебинарах и других мероприятиях, которые проводятся на базе вузов и Group.
Нажмите здесь для подписки ‣
Все наши лекции проходят в ведущих вузах страны: МГУ, МГТУ, МФТИ, МИФИ, СПбПУ.
___
ТЫ СТУДЕНТ?
Вступай в наши образовательные проекты и участвуй в чемпионатах. Лучшие студенты получают возможность стажировки в Group. Отбор - каждые полгода!
Технопарк при МГТУ им. Баумана ‣
Техносфера при МГУ им. Ломоносова ‣
Технотрек при МФТИ ‣
Техноатом при МИФИ ‣
Технополис при СПбПУ ‣
Чемпионаты для программистов ‣
Group для образования ‣
10 views
188
48
1 year ago 00:10:13 59
Игровые интерфейсы - Часть первая. Вводная лекция курса
3 years ago 00:32:50 1
Оформление пайплайна в NLP проекте, Виталий Радченко / PyDaCon