kangdawei
/

MMR-DR_GRPO-lambda-0.8

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

MMR-DR_GRPO-lambda-0.8 / reward_data

180 MB

1 contributor

History: 5 commits

kangdawei's picture

Training in progress, step 500

576de5e verified 2 months ago

all_rewards.csv

180 MB
xet

Training in progress, step 500 2 months ago