Reading Club #3. DINO-VITS: Data-Efficient Zero-Shot TTS with Self-Supervised Speaker Verification Loss for Noise Robustness
Гостем нового выпуска стал Максим Борисов — ML-Engineer в Huawei, магистрант AI Talent Hub.
Мы обсудили вопрос робастности в моделях клонирования голоса. Как обучать модель синтеза на шумных данных и копировать голос с шумного референса.
Презентация Максима —
Модель —
Магистратура AI Talent Hub —