File size: 2,446 Bytes
58003b9
 
 
 
 
 
 
ee84cbb
e0f90b9
 
 
 
 
58003b9
 
e0f90b9
d88d3dc
58003b9
 
 
 
 
e23eafa
58003b9
 
 
 
 
 
 
 
e23eafa
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
---
license: cc-by-nc-4.0
tags:
- tts
- russian
- fine-tuned
- f5-tts
- voice-clone
language:
- ru
base_model:
- SWivid/F5-TTS
pipeline_tag: text-to-speech
---

**F5-TTS_RUSSIAN** - дообученная версия оригинальной модели **[F5-TTS](https://huggingface.co/SWivid/F5-TTS)**, адаптированная для синтеза русской речи.  
Модель обучалась на 5 000 часах с сочетанием русской и английской речи и поддерживает управление ударением в словах.

## Ключевые особенности

* **Ударения**: для изменения ударения поставьте символ `+` перед ударной гласной (`молок+о → молокó`).  
  Для автоматической расстановки ударений можно использовать модель **[RUAccent](https://github.com/Den4ikAI/ruaccent)**. 
* **Демо**: демо работы модели (F5-TTS_RUSSIAN/F5TTS_v1_Base) и сравнение с XTTS и FishSpeech — <https://misha24-10.github.io/Misha24-10/>

## Обучающие данные (5000+ часов)
| Источник                              | Часов |
|--------------------------------------|-------|
| Кастомный русский датасет            | 4 000 |
| Common Voice RU                      |   239 |
| Common Voice EN                      |   240 |
| Sova (RuDevices + RuAudiobooks)      |   400 |
| LibriHeavy (частично)                |   180 |



# Доступные модели

* F5-TTS_RUSSIAN/F5TTS_v1_Base — первая версия модели, использованная для генерации демо-записей.

* F5-TTS_RUSSIAN/F5TTS_v1_Base_accent_tune — дообученная версия с полной разметкой ударений (100% предложений в обучающем датасете). Рекомендуется использовать символы ударения для лучшего качества синтеза.

* F5-TTS_RUSSIAN/F5TTS_v1_Base_v2 —  дообученная версия (+16 эпох). Добавлена фильтрация данных (удалено ~5% записей с артефактами, soft-clean), с полной разметка ударений в тексте.