Spaces:

eduagarcia
/

open_pt_llm_leaderboard

Running on CPU Upgrade

App Files Files Community

eduagarcia commited on Feb 16, 2024

Commit

f976f1c

1 Parent(s): 5639a81

Add NPM field

Browse files

Files changed (2) hide show

src/display/utils.py +14 -5
src/leaderboard/read_evals.py +2 -2

src/display/utils.py CHANGED Viewed

@@ -51,7 +51,7 @@ for task in Tasks:
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
 auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
-auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", True)])
 auto_eval_column_dict.append(["merged", ColumnContent, ColumnContent("Merged", "bool", False)])
 auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
 auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
@@ -107,11 +107,15 @@ baseline_row = {
 }
 baseline_list = []
 for task in Tasks:
     baseline_row[task.value.col_name] = task.value.baseline
-    if task.value.baseline is not None and (isinstance(task.value.baseline, float) or isinstance(task.value.baseline, int)):
-        baseline_list.append(task.value.baseline)
 baseline_row[AutoEvalColumn.average.name] = round(sum(baseline_list) / len(baseline_list), 2)
 #if GET_ORIGINAL_HF_LEADERBOARD_EVAL_RESULTS:
 baseline_row["🤗 Leaderboard Average"] = None
@@ -151,11 +155,16 @@ human_baseline_row = {
 }
 baseline_list = []
 for task in Tasks:
     human_baseline_row[task.value.col_name] = task.value.human_baseline
-    if task.value.human_baseline is not None and (isinstance(task.value.baseline, float) or isinstance(task.value.baseline, int)):
-        baseline_list.append(task.value.human_baseline)
 human_baseline_row[AutoEvalColumn.average.name] = round(sum(baseline_list) / len(baseline_list), 2)
 #if GET_ORIGINAL_HF_LEADERBOARD_EVAL_RESULTS:
 human_baseline_row["🤗 Leaderboard Average"] = None

 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
 auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
+auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
 auto_eval_column_dict.append(["merged", ColumnContent, ColumnContent("Merged", "bool", False)])
 auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
 auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
 }
 baseline_list = []
+npm = []
 for task in Tasks:
     baseline_row[task.value.col_name] = task.value.baseline
+    res = task.value.baseline
+    if res is not None and (isinstance(res, float) or isinstance(res, int)):
+        baseline_list.append(res)
+        npm.append((res - task.value.baseline) / (100 - task.value.baseline))
 baseline_row[AutoEvalColumn.average.name] = round(sum(baseline_list) / len(baseline_list), 2)
+baseline_row[AutoEvalColumn.npm.name] = round(sum(npm) / len(npm), 2)
 #if GET_ORIGINAL_HF_LEADERBOARD_EVAL_RESULTS:
 baseline_row["🤗 Leaderboard Average"] = None
 }
 baseline_list = []
+npm = []
 for task in Tasks:
     human_baseline_row[task.value.col_name] = task.value.human_baseline
+    res = task.value.human_baseline
+    if res is None or not (isinstance(res, float) or isinstance(res, int)):
+        res = 95.0
+    baseline_list.append(res)
+    npm.append((res - task.value.baseline) / (100 - task.value.baseline))
 human_baseline_row[AutoEvalColumn.average.name] = round(sum(baseline_list) / len(baseline_list), 2)
+human_baseline_row[AutoEvalColumn.npm.name] = round(sum(npm) / len(npm), 2)
 #if GET_ORIGINAL_HF_LEADERBOARD_EVAL_RESULTS:
 human_baseline_row["🤗 Leaderboard Average"] = None

src/leaderboard/read_evals.py CHANGED Viewed

@@ -166,8 +166,8 @@ class EvalResult:
                 continue
             average.append(res)
             npm.append((res-task.value.baseline)*100.0 / (100.0-task.value.baseline))
-        average = sum(average)/len(average)
-        npm = sum(npm)/len(npm)
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,

                 continue
             average.append(res)
             npm.append((res-task.value.baseline)*100.0 / (100.0-task.value.baseline))
+        average = round(sum(average)/len(average), 2)
+        npm = round(sum(npm)/len(npm), 2)
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,