kangdawei
/

MMR-DR_GRPO-lambda-0.5

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

MMR-DR_GRPO-lambda-0.5 / reward_data

407 MB

1 contributor

History: 9 commits

kangdawei's picture

Training in progress, step 500

1fe3afb verified 2 months ago

all_rewards.csv

407 MB
xet

Training in progress, step 500 2 months ago