kangdawei
/

MMR-DR_GRPO-lambda-0.7

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

MMR-DR_GRPO-lambda-0.7 / reward_data

Commit History

Training in progress, step 500

77d5590
verified

kangdawei commited on Oct 27, 2025

Training in progress, step 450

74fe1a9
verified

kangdawei commited on Oct 26, 2025

Training in progress, step 400

da07518
verified

kangdawei commited on Oct 25, 2025

Training in progress, step 350

ac290e1
verified

kangdawei commited on Oct 25, 2025

Training in progress, step 300

4539c5e
verified

kangdawei commited on Oct 25, 2025

Training in progress, step 250

0154e51
verified

kangdawei commited on Oct 25, 2025

Training in progress, step 200

2b43231
verified

kangdawei commited on Oct 25, 2025

Training in progress, step 150

b680f9a
verified

kangdawei commited on Oct 25, 2025

Training in progress, step 100

9992e46
verified

kangdawei commited on Oct 25, 2025