kangdawei
/

MMR-DR_GRPO-lambda-0.8

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

MMR-DR_GRPO-lambda-0.8 / reward_data

Commit History

Training in progress, step 500

576de5e
verified

kangdawei commited on Oct 27, 2025

Training in progress, step 250

4c41482
verified

kangdawei commited on Oct 27, 2025

Training in progress, step 200

c2892b6
verified

kangdawei commited on Oct 27, 2025

Training in progress, step 150

36b6839
verified

kangdawei commited on Oct 25, 2025

Training in progress, step 100

7bb1e7b
verified

kangdawei commited on Oct 25, 2025