Spaces:

nvidia
/

ProfBench

Running

App Files Files Community

zhilinw commited on Oct 30

Commit

da1271f

verified ·

1 Parent(s): b556a2a

update response_generation.jsonl

Browse files

Files changed (1) hide show

report_generation.jsonl +1 -1

report_generation.jsonl CHANGED Viewed

@@ -2,7 +2,7 @@
 {"Model": "OpenAI/GPT-5-mini (high)", "Category": "Closed-source Reasoning", "Overall": 41.6, "Physics": 40.0, "Chemistry": 59.5, "Finance": 11.8, "Consulting": 55.1, "Extraction": 32.7, "Reasoning": 42.1, "Style": 65.9, "Response Characters": 7870, "Input Tokens": 956, "Output Tokens": 15280, "Cost": 4.93}
 {"Model": "OpenAI/GPT-5-nano (high)", "Category": "Closed-source Reasoning", "Overall": 36.9, "Physics": 29.1, "Chemistry": 37.9, "Finance": 23.6, "Consulting": 56.9, "Extraction": 26.5, "Reasoning": 35.6, "Style": 58.0, "Response Characters": 8915, "Input Tokens": 467, "Output Tokens": 23008, "Cost": 1.48}
 {"Model": "OpenAI/o3", "Category": "Closed-source Reasoning", "Overall": 52.4, "Physics": 38.6, "Chemistry": 57.2, "Finance": 44.1, "Consulting": 69.8, "Extraction": 43.0, "Reasoning": 54.1, "Style": 59.2, "Response Characters": 4226, "Input Tokens": 467, "Output Tokens": 5569, "Cost": 7.28}
-{"Model": "OpenAI/o4-mini", "Category": "Closed-source Reasoning", "Overall": 47.5, "Physics": 34.6, "Chemistry": 50.1, "Finance": 38.1, "Consulting": 67.2, "Extraction": 37.2, "Reasoning": 47.7, "Style": 60.4, "Response Characters": 3046, "Input Tokens": 467, "Output Tokens": 4335, "Cost": 0.77}
 {"Model": "Google/Gemini-2.5-Pro", "Category": "Closed-source Reasoning", "Overall": 52.1, "Physics": 40.4, "Chemistry": 63.8, "Finance": 36.7, "Consulting": 67.5, "Extraction": 45.9, "Reasoning": 53.1, "Style": 62.6, "Response Characters": 8492, "Input Tokens": 480, "Output Tokens": 9102, "Cost": 14.66}
 {"Model": "Google/Gemini-2.5-Flash (Thinking)", "Category": "Closed-source Reasoning", "Overall": 49.2, "Physics": 35.9, "Chemistry": 63.9, "Finance": 33.2, "Consulting": 63.8, "Extraction": 43.6, "Reasoning": 51.4, "Style": 57.3, "Response Characters": 18559, "Input Tokens": 480, "Output Tokens": 12943, "Cost": 5.2}
 {"Model": "Google/Gemini-2.5-Flash-Lite (Thinking)", "Category": "Closed-source Reasoning", "Overall": 44.3, "Physics": 32.3, "Chemistry": 52.7, "Finance": 31.3, "Consulting": 61.0, "Extraction": 35.8, "Reasoning": 43.3, "Style": 56.7, "Response Characters": 12153, "Input Tokens": 480, "Output Tokens": 17302, "Cost": 1.12}

 {"Model": "OpenAI/GPT-5-mini (high)", "Category": "Closed-source Reasoning", "Overall": 41.6, "Physics": 40.0, "Chemistry": 59.5, "Finance": 11.8, "Consulting": 55.1, "Extraction": 32.7, "Reasoning": 42.1, "Style": 65.9, "Response Characters": 7870, "Input Tokens": 956, "Output Tokens": 15280, "Cost": 4.93}
 {"Model": "OpenAI/GPT-5-nano (high)", "Category": "Closed-source Reasoning", "Overall": 36.9, "Physics": 29.1, "Chemistry": 37.9, "Finance": 23.6, "Consulting": 56.9, "Extraction": 26.5, "Reasoning": 35.6, "Style": 58.0, "Response Characters": 8915, "Input Tokens": 467, "Output Tokens": 23008, "Cost": 1.48}
 {"Model": "OpenAI/o3", "Category": "Closed-source Reasoning", "Overall": 52.4, "Physics": 38.6, "Chemistry": 57.2, "Finance": 44.1, "Consulting": 69.8, "Extraction": 43.0, "Reasoning": 54.1, "Style": 59.2, "Response Characters": 4226, "Input Tokens": 467, "Output Tokens": 5569, "Cost": 7.28}
+{"Model": "OpenAI/o4-mini", "Category": "Closed-source Reasoning", "Overall": 47.5, "Physics": 34.6, "Chemistry": 50.1, "Finance": 38.1, "Consulting": 67.2, "Extraction": 37.2, "Reasoning": 47.7, "Style": 60.4, "Response Characters": 3046, "Input Tokens": 467, "Output Tokens": 4335, "Cost": 3.13}
 {"Model": "Google/Gemini-2.5-Pro", "Category": "Closed-source Reasoning", "Overall": 52.1, "Physics": 40.4, "Chemistry": 63.8, "Finance": 36.7, "Consulting": 67.5, "Extraction": 45.9, "Reasoning": 53.1, "Style": 62.6, "Response Characters": 8492, "Input Tokens": 480, "Output Tokens": 9102, "Cost": 14.66}
 {"Model": "Google/Gemini-2.5-Flash (Thinking)", "Category": "Closed-source Reasoning", "Overall": 49.2, "Physics": 35.9, "Chemistry": 63.9, "Finance": 33.2, "Consulting": 63.8, "Extraction": 43.6, "Reasoning": 51.4, "Style": 57.3, "Response Characters": 18559, "Input Tokens": 480, "Output Tokens": 12943, "Cost": 5.2}
 {"Model": "Google/Gemini-2.5-Flash-Lite (Thinking)", "Category": "Closed-source Reasoning", "Overall": 44.3, "Physics": 32.3, "Chemistry": 52.7, "Finance": 31.3, "Consulting": 61.0, "Extraction": 35.8, "Reasoning": 43.3, "Style": 56.7, "Response Characters": 12153, "Input Tokens": 480, "Output Tokens": 17302, "Cost": 1.12}