Update README.md
Browse files
README.md
CHANGED
|
@@ -10,16 +10,12 @@ pipeline_tag: text-to-image
|
|
| 10 |
|
| 11 |
> **概述**:**MMPL** 是在 **Wan2.1-14B-T2V** 基座上,使用 **50k 私有高质量视频数据** 进行微调得到的“规划式(Planning)”文本到视频生成模型。我们**不修改任何原始架构**,仅通过高质量规划式指令与监督,显著提升主体/背景一致性、运动平滑与文本-视觉对齐的人评表现。
|
| 12 |
|
| 13 |
-
---
|
| 14 |
-
|
| 15 |
## 🔍 模型介绍
|
| 16 |
|
| 17 |
- **基座模型**:Wan2.1-14B-T2V
|
| 18 |
- **微调数据**:50k 条私有高质量视频-文本指令样本
|
| 19 |
- **训练目标**:在保持原架构不变的前提下,提升主体一致性、背景一致性、运动平滑与人评可控性
|
| 20 |
|
| 21 |
-
---
|
| 22 |
-
|
| 23 |
## 🏗️ 模型架构
|
| 24 |
|
| 25 |
MMPL **完全沿用** Wan2.1-14B-T2V 的原始网络结构与推理范式:
|
|
@@ -29,8 +25,6 @@ MMPL **完全沿用** Wan2.1-14B-T2V 的原始网络结构与推理范式:
|
|
| 29 |
- **时空分辨率与采样调度**:与基座配置一致
|
| 30 |
- **不改动任何子模块**(头数、通道数、FFN 维度、位置编码等),仅在参数上微调。
|
| 31 |
|
| 32 |
-
---
|
| 33 |
-
|
| 34 |
## 📊 评测结果
|
| 35 |
|
| 36 |
> 下表为 MMPL 与常见方法的对比。**粗体**表示该列最优。
|
|
|
|
| 10 |
|
| 11 |
> **概述**:**MMPL** 是在 **Wan2.1-14B-T2V** 基座上,使用 **50k 私有高质量视频数据** 进行微调得到的“规划式(Planning)”文本到视频生成模型。我们**不修改任何原始架构**,仅通过高质量规划式指令与监督,显著提升主体/背景一致性、运动平滑与文本-视觉对齐的人评表现。
|
| 12 |
|
|
|
|
|
|
|
| 13 |
## 🔍 模型介绍
|
| 14 |
|
| 15 |
- **基座模型**:Wan2.1-14B-T2V
|
| 16 |
- **微调数据**:50k 条私有高质量视频-文本指令样本
|
| 17 |
- **训练目标**:在保持原架构不变的前提下,提升主体一致性、背景一致性、运动平滑与人评可控性
|
| 18 |
|
|
|
|
|
|
|
| 19 |
## 🏗️ 模型架构
|
| 20 |
|
| 21 |
MMPL **完全沿用** Wan2.1-14B-T2V 的原始网络结构与推理范式:
|
|
|
|
| 25 |
- **时空分辨率与采样调度**:与基座配置一致
|
| 26 |
- **不改动任何子模块**(头数、通道数、FFN 维度、位置编码等),仅在参数上微调。
|
| 27 |
|
|
|
|
|
|
|
| 28 |
## 📊 评测结果
|
| 29 |
|
| 30 |
> 下表为 MMPL 与常见方法的对比。**粗体**表示该列最优。
|