Mila Reasoning

university

https://Mila.quebec

AI & ML interests

None defined yet.

Recent Activity

abhranil14 submitted a paper 2 days ago

Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks

arianhosseini authored a paper 4 months ago

Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

arianhosseini authored a paper 4 months ago

The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarization

View all activity

ReasoningMila 's models 10

ReasoningMila/math_train_gold_qs_all_64_synthetic_soln_480k

Updated Mar 17, 2025

ReasoningMila/hendricks_math_7500_train_synthetic_corr_soln

Updated Mar 16, 2025

ReasoningMila/polIter_qwen2.5_math_1.5B_inst_ppo_MATH_ckpt__iter_0047__epoch_2.00_step_1504

Updated Feb 10, 2025

ReasoningMila/math_synthetic_raw

Updated Feb 7, 2025

ReasoningMila/polIter_qwen2.5_math_inst_1.5B_genppo_MATH_ckpt_iter_0008_epoch_2.00_step_0448

Updated Feb 6, 2025

ReasoningMila/polIter_qwen2.5_math_inst_1.5B_genppo_MATH_ckpt_iter_0008_epoch_2.00_step_0512

Updated Jan 31, 2025

ReasoningMila/ver_gen_partial_ft_model_meta-llama_Llama-32-1B_checkpoint-5634

Text Generation • 1B • Updated Jan 12, 2025 • 5

ReasoningMila/ver_partial_ft_model_meta-llama_Llama-32-3B_checkpoint-4224

Text Generation • 3B • Updated Jan 8, 2025 • 7

ReasoningMila/ver_partial_ft_model_meta-llama_Llama-32-1B_checkpoint-4224

Text Generation • 1B • Updated Jan 6, 2025 • 8

ReasoningMila/math_partial_ft_model_meta-llama_Llama-32-3B_checkpoint-681

Text Generation • 3B • Updated Dec 22, 2024 • 5