{"Model": "OpenAI/GPT-5 (high)", "Category": "Closed-source Reasoning", "Overall": 65.9, "Physics": 49.3, "Chemistry": 70.6, "Finance": 63.7, "Consulting": 80.0, "Extraction": 64.4, "Reasoning": 66.2, "Style": 65.3, "Response Characters": 5451.0, "Input Tokens": 23758.0, "Output Tokens": 14583.0, "Cost": 112.34}
{"Model": "OpenAI/GPT-5-mini (high)", "Category": "Closed-source Reasoning", "Overall": 60.3, "Physics": 50.8, "Chemistry": 63.6, "Finance": 51.6, "Consulting": 75.4, "Extraction": 56.7, "Reasoning": 60.1, "Style": 68.2, "Response Characters": 9018.0, "Input Tokens": 26859.0, "Output Tokens": 18038.0, "Cost": 27.39}
{"Model": "OpenAI/GPT-5-nano (high)", "Category": "Closed-source Reasoning", "Overall": 50.1, "Physics": 42.2, "Chemistry": 44.6, "Finance": 44.6, "Consulting": 69.0, "Extraction": 46.6, "Reasoning": 48.3, "Style": 58.9, "Response Characters": 9796.0, "Input Tokens": 28549.0, "Output Tokens": 25189.0, "Cost": 7.36}
{"Model": "OpenAI/o3", "Category": "Closed-source Reasoning", "Overall": 61.4, "Physics": 46.1, "Chemistry": 61.8, "Finance": 60.9, "Consulting": 76.8, "Extraction": 60.4, "Reasoning": 61.8, "Style": 63.0, "Response Characters": 4158.0, "Input Tokens": 18445.0, "Output Tokens": 4709.0, "Cost": 47.72}
{"Model": "OpenAI/o4-mini", "Category": "Closed-source Reasoning", "Overall": 58.2, "Physics": 45.5, "Chemistry": 58.5, "Finance": 54.7, "Consulting": 74.4, "Extraction": 55.8, "Reasoning": 58.3, "Style": 61.0, "Response Characters": 3886.0, "Input Tokens": 31679.0, "Output Tokens": 4763.0, "Cost": 35.71}
{"Model": "Google/Gemini-2.5-Pro", "Category": "Closed-source Reasoning", "Overall": 60.3, "Physics": 46.8, "Chemistry": 66.3, "Finance": 54.0, "Consulting": 74.2, "Extraction": 61.4, "Reasoning": 59.3, "Style": 66.8, "Response Characters": 7449.0, "Input Tokens": 6086.0, "Output Tokens": 7950.0, "Cost": 55.75}
{"Model": "Google/Gemini-2.5-Flash (Thinking)", "Category": "Closed-source Reasoning", "Overall": 57.6, "Physics": 45.0, "Chemistry": 61.8, "Finance": 53.5, "Consulting": 69.9, "Extraction": 58.0, "Reasoning": 57.6, "Style": 61.1, "Response Characters": 12047.0, "Input Tokens": 6086.0, "Output Tokens": 12030.0, "Cost": 20.42}
{"Model": "Google/Gemini-2.5-Flash-Lite (Thinking)", "Category": "Closed-source Reasoning", "Overall": 49.4, "Physics": 31.7, "Chemistry": 53.1, "Finance": 44.6, "Consulting": 68.0, "Extraction": 48.3, "Reasoning": 48.8, "Style": 54.0, "Response Characters": 10058.0, "Input Tokens": 6086.0, "Output Tokens": 18584.0, "Cost": 5.15}
{"Model": "xAI/grok-4-0709", "Category": "Closed-source Reasoning", "Overall": 53.4, "Physics": 33.6, "Chemistry": 62.2, "Finance": 44.3, "Consulting": 73.4, "Extraction": 51.9, "Reasoning": 51.6, "Style": 64.1, "Response Characters": 5380.0, "Input Tokens": 13481.0, "Output Tokens": 9885.0, "Cost": 122.78}
{"Model": "Anthropic/claude-sonnet-4 (Thinking)", "Category": "Closed-source Reasoning", "Overall": 55.8, "Physics": 43.9, "Chemistry": 57.1, "Finance": 50.8, "Consulting": 71.4, "Extraction": 53.8, "Reasoning": 54.0, "Style": 61.8, "Response Characters": 3866.0, "Input Tokens": 51044.0, "Output Tokens": 6916.0, "Cost": 164.39}
{"Model": "OpenAI/gpt-oss-120b (high)", "Category": "Open-weight Reasoning", "Overall": 54.9, "Physics": 49.1, "Chemistry": 55.3, "Finance": 45.5, "Consulting": 69.4, "Extraction": 48.7, "Reasoning": 55.5, "Style": 59.0, "Response Characters": 7442.0, "Input Tokens": 11606.0, "Output Tokens": 4572.0, "Cost": 1.35}
{"Model": "OpenAI/gpt-oss-20b (high)", "Category": "Open-weight Reasoning", "Overall": 48.4, "Physics": 41.4, "Chemistry": 46.5, "Finance": 39.8, "Consulting": 66.0, "Extraction": 40.9, "Reasoning": 48.2, "Style": 56.2, "Response Characters": 5331.0, "Input Tokens": 11600.0, "Output Tokens": 4705.0, "Cost": 0.75}
{"Model": "DeepSeek-AI/DeepSeek-V3.1 (Thinking)", "Category": "Open-weight Reasoning", "Overall": 53.8, "Physics": 44.8, "Chemistry": 59.8, "Finance": 43.3, "Consulting": 67.4, "Extraction": 51.1, "Reasoning": 53.0, "Style": 60.5, "Response Characters": 5239.0, "Input Tokens": 11258.0, "Output Tokens": 7486.0, "Cost": 5.27}
{"Model": "Qwen/Qwen3-235B-A22B-Thinking-2507", "Category": "Open-weight Reasoning", "Overall": 54.0, "Physics": 45.1, "Chemistry": 61.4, "Finance": 42.3, "Consulting": 67.3, "Extraction": 51.4, "Reasoning": 51.6, "Style": 61.9, "Response Characters": 6046.0, "Input Tokens": 12442.0, "Output Tokens": 9256.0, "Cost": 2.47}
{"Model": "Qwen/Qwen3-30B-A3B-Thinking-2507", "Category": "Open-weight Reasoning", "Overall": 44.6, "Physics": 34.4, "Chemistry": 45.4, "Finance": 36.8, "Consulting": 61.8, "Extraction": 40.4, "Reasoning": 42.3, "Style": 63.9, "Response Characters": 4757.0, "Input Tokens": 12339.0, "Output Tokens": 9027.0, "Cost": 2.16}
{"Model": "OpenAI/GPT-4.1", "Category": "Closed-source Instruct", "Overall": 56.8, "Physics": 44.7, "Chemistry": 55.2, "Finance": 54.0, "Consulting": 73.2, "Extraction": 56.7, "Reasoning": 56.7, "Style": 58.4, "Response Characters": 6451.0, "Input Tokens": 18427.0, "Output Tokens": 2152.0, "Cost": 34.6}
{"Model": "OpenAI/GPT-4.1-mini", "Category": "Closed-source Instruct", "Overall": 53.7, "Physics": 45.1, "Chemistry": 53.0, "Finance": 49.1, "Consulting": 67.5, "Extraction": 50.3, "Reasoning": 53.2, "Style": 52.8, "Response Characters": 6921.0, "Input Tokens": 29469.0, "Output Tokens": 2218.0, "Cost": 9.82}
{"Model": "OpenAI/GPT-4.1-nano", "Category": "Closed-source Instruct", "Overall": 39.3, "Physics": 24.8, "Chemistry": 40.8, "Finance": 33.4, "Consulting": 58.2, "Extraction": 34.9, "Reasoning": 38.4, "Style": 53.5, "Response Characters": 6359.0, "Input Tokens": 35561.0, "Output Tokens": 1966.0, "Cost": 2.78}
{"Model": "Google/Gemini-2.5-Flash", "Category": "Closed-source Instruct", "Overall": 56.8, "Physics": 44.6, "Chemistry": 59.4, "Finance": 54.3, "Consulting": 68.8, "Extraction": 57.1, "Reasoning": 56.1, "Style": 53.2, "Response Characters": 21612.0, "Input Tokens": 6086.0, "Output Tokens": 5936.0, "Cost": 10.67}
{"Model": "Google/Gemini-2.5-Flash-Lite", "Category": "Closed-source Instruct", "Overall": 46.6, "Physics": 29.8, "Chemistry": 49.0, "Finance": 44.0, "Consulting": 63.7, "Extraction": 47.4, "Reasoning": 45.0, "Style": 48.6, "Response Characters": 24167.0, "Input Tokens": 6086.0, "Output Tokens": 7787.0, "Cost": 2.33}
{"Model": "Anthropic/claude-sonnet-4", "Category": "Closed-source Instruct", "Overall": 53.5, "Physics": 40.7, "Chemistry": 54.2, "Finance": 49.5, "Consulting": 69.6, "Extraction": 55.3, "Reasoning": 51.1, "Style": 54.2, "Response Characters": 4068.0, "Input Tokens": 51016.0, "Output Tokens": 1398.0, "Cost": 111.37}
{"Model": "Anthropic/claude-3.5-haiku", "Category": "Closed-source Instruct", "Overall": 27.6, "Physics": 12.0, "Chemistry": 24.7, "Finance": 27.7, "Consulting": 46.3, "Extraction": 31.2, "Reasoning": 24.7, "Style": 49.4, "Response Characters": 1784.0, "Input Tokens": 34475.0, "Output Tokens": 576.0, "Cost": 19.13}
{"Model": "Qwen/Qwen3-235B-A22B-Instruct-2507", "Category": "Open-weight Instruct", "Overall": 54.2, "Physics": 45.6, "Chemistry": 55.8, "Finance": 45.7, "Consulting": 69.6, "Extraction": 51.0, "Reasoning": 52.9, "Style": 66.2, "Response Characters": 11400.0, "Input Tokens": 12450.0, "Output Tokens": 4244.0, "Cost": 1.47}
{"Model": "Qwen/Qwen3-30B-A3B-Instruct-2507", "Category": "Open-weight Instruct", "Overall": 49.3, "Physics": 41.6, "Chemistry": 47.9, "Finance": 42.3, "Consulting": 65.5, "Extraction": 44.5, "Reasoning": 48.0, "Style": 59.1, "Response Characters": 11167.0, "Input Tokens": 12490.0, "Output Tokens": 4021.0, "Cost": 0.95}
{"Model": "MoonshotAI/Kimi-K2-Instruct-0905", "Category": "Open-weight Instruct", "Overall": 51.3, "Physics": 40.4, "Chemistry": 50.2, "Finance": 48.8, "Consulting": 65.9, "Extraction": 51.2, "Reasoning": 50.0, "Style": 63.4, "Response Characters": 4817.0, "Input Tokens": 11462.0, "Output Tokens": 1562.0, "Cost": 3.36}
{"Model": "DeepSeek-AI/DeepSeek-V3.1", "Category": "Open-weight Instruct", "Overall": 53.5, "Physics": 45.8, "Chemistry": 55.9, "Finance": 45.2, "Consulting": 67.1, "Extraction": 50.8, "Reasoning": 52.7, "Style": 59.1, "Response Characters": 7792.0, "Input Tokens": 11231.0, "Output Tokens": 2407.0, "Cost": 2.67}
{"Model": "Meta/llama-4-maverick", "Category": "Open-weight Instruct", "Overall": 39.4, "Physics": 35.2, "Chemistry": 35.8, "Finance": 34.2, "Consulting": 52.5, "Extraction": 39.3, "Reasoning": 36.5, "Style": 46.2, "Response Characters": 4223.0, "Input Tokens": 14604.0, "Output Tokens": 1191.0, "Cost": 1.86}
{"Model": "meta/llama-4-scout", "Category": "Open-weight Instruct", "Overall": 35.4, "Physics": 23.4, "Chemistry": 34.6, "Finance": 33.4, "Consulting": 50.3, "Extraction": 35.1, "Reasoning": 33.3, "Style": 42.3, "Response Characters": 3612.0, "Input Tokens": 16675.0, "Output Tokens": 1039.0, "Cost": 1.05}