Update README.md
Browse files
README.md
CHANGED
|
@@ -15,7 +15,7 @@ tags:
|
|
| 15 |
Архитектура включает **Multi-head Latent Attention (MLA)** и **Multi-Token Prediction (MTP)**, за счет чего модель оптимизирована для высокой пропускной способности (throughput) при инференсе.
|
| 16 |
Для высокопроизводительного инференса доступна версия модели в fp8 - [GigaChat3-702B-A36B-preview](https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview).
|
| 17 |
|
| 18 |
-
Больше подробностей в хабр статье
|
| 19 |
|
| 20 |
## Архитектура модели
|
| 21 |
|
|
|
|
| 15 |
Архитектура включает **Multi-head Latent Attention (MLA)** и **Multi-Token Prediction (MTP)**, за счет чего модель оптимизирована для высокой пропускной способности (throughput) при инференсе.
|
| 16 |
Для высокопроизводительного инференса доступна версия модели в fp8 - [GigaChat3-702B-A36B-preview](https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview).
|
| 17 |
|
| 18 |
+
Больше подробностей [в хабр статье](https://habr.com/en/companies/sberdevices/articles/968904/).
|
| 19 |
|
| 20 |
## Архитектура модели
|
| 21 |
|