GOVINDFROM
/

MindGamesColonelBlutto

Reinforcement Learning

graph-neural-networks

preference-learning

llm-distillation

Model card Files Files and versions

MindGamesColonelBlutto

Commit History

Update README.md

4217294
verified

GOVINDFROM commited on 17 days ago

Upload model card

2136269
verified

GOVINDFROM commited on 19 days ago

Upload eval_scripted_after_ppo.json

00011f2
verified

GOVINDFROM commited on 19 days ago

Upload master_config.json

626f164
verified

GOVINDFROM commited on 19 days ago

Upload DPO model

83fc425
verified

GOVINDFROM commited on 19 days ago

Upload SFT model

cc64328
verified

GOVINDFROM commited on 19 days ago

Upload policy_after_ppo.pt

c975a9b
verified

GOVINDFROM commited on 19 days ago

Upload policy_after_distill.pt

5d16feb
verified

GOVINDFROM commited on 19 days ago

Upload policy_final.pt

1e22a9d
verified

GOVINDFROM commited on 19 days ago

initial commit

3378b09
verified

GOVINDFROM commited on 19 days ago