kangdawei
/

MMR-GRPO-lambda-0.6

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

MMR-GRPO-lambda-0.6 / reward_data

302 MB

1 contributor

History: 7 commits

kangdawei's picture

Training in progress, step 500

4f585b0 verified 2 months ago

all_rewards.csv

302 MB
xet

Training in progress, step 500 2 months ago