Илья Гусев - Синтетические датасеты как способ сокращения неравенства
1. RuTurboAlpaca: русскоязычный датасет на основе инструкций, сгенерированных ChatGPT, а также обучение LoRA LLaMA на нём.
2. Saiga: русскоязычный диалоговый датасет, сгенерированный ChatGPT и разговорная модель на его основе.
3. GPT Role-play Realm: двуязычный датасет, включающий 400 персонажей и более 8000 диалогов, сгенерированных GPT и Kandinsky 2.1.
4. Оценка моделей через SbS и популярные бенчмарки.
Data Fest 2023:
Трек “Instruct Models“:
Наши соц.сети:
Telegram:
Вконтакте: