Илья Гусев - Синтетические датасеты как способ сокращения неравенства

1. RuTurboAlpaca: русскоязычный датасет на основе инструкций, сгенерированных ChatGPT, а также обучение LoRA LLaMA на нём. 2. Saiga: русскоязычный диалоговый датасет, сгенерированный ChatGPT и разговорная модель на его основе. 3. GPT Role-play Realm: двуязычный датасет, включающий 400 персонажей и более 8000 диалогов, сгенерированных GPT и Kandinsky 2.1. 4. Оценка моделей через SbS и популярные бенчмарки. Data Fest 2023: Трек “Instruct Models“: Наши соц.сети: Telegram: Вконтакте:
Back to Top