kangdawei
/

MMR-GRPO-lambda-0.6

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

MMR-GRPO-lambda-0.6 / reward_data

Commit History

Training in progress, step 500

4f585b0
verified

kangdawei commited on Oct 24

Training in progress, step 400

64465dc
verified

kangdawei commited on Oct 24

Training in progress, step 350

9622222
verified

kangdawei commited on Oct 24

Training in progress, step 300

9c81d7c
verified

kangdawei commited on Oct 24

Training in progress, step 200

44e0d9a
verified

kangdawei commited on Oct 24

Training in progress, step 150

8c26593
verified

kangdawei commited on Oct 24

Training in progress, step 100

1aad68e
verified

kangdawei commited on Oct 24