kangdawei
/

MMR-DR_GRPO-lambda-0.6

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

MMR-DR_GRPO-lambda-0.6 / reward_data

377 MB

1 contributor

History: 9 commits

kangdawei's picture

Training in progress, step 500

8cd5121 verified 2 months ago

all_rewards.csv

377 MB
xet

Training in progress, step 500 2 months ago