model_trace

Runtime error

Ahmed Ahmed commited on Jul 25

Commit

25de5ef

1 Parent(s): c1fc4e2

consolidate

Files changed (2) hide show

src/display/utils.py CHANGED Viewed

@@ -28,9 +28,8 @@ auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "ma
 #Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
-    # Add ⬆️ for metrics where higher is better, ⬇️ for metrics where lower is better
-    arrow = "⬇️" if task.value.benchmark == "perplexity" else "⬆️"
-    auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(f"{task.value.col_name} {arrow}", "number", True)])
 # Model information
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])

 #Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
+    # All perplexity scores show with ⬇️ since lower is better
+    auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(f"{task.value.col_name} ⬇️", "number", True)])
 # Model information
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])

src/leaderboard/read_evals.py CHANGED Viewed

@@ -100,6 +100,10 @@ class EvalResult:
             AutoEvalColumn.revision.name: self.revision,
             AutoEvalColumn.average.name: average,
             AutoEvalColumn.still_on_hub.name: self.still_on_hub,
         }
         for task in Tasks:
@@ -107,9 +111,9 @@ class EvalResult:
             if benchmark in self.results:
                 score = self.results[benchmark]
                 # Store original perplexity score (lower is better)
-                data_dict[task.value.col_name] = score
             else:
-                data_dict[task.value.col_name] = None
         return data_dict

             AutoEvalColumn.revision.name: self.revision,
             AutoEvalColumn.average.name: average,
             AutoEvalColumn.still_on_hub.name: self.still_on_hub,
+            # Add missing columns with default values
+            AutoEvalColumn.license.name: "Unknown",  # Default license
+            AutoEvalColumn.params.name: 0,  # Default params
+            AutoEvalColumn.likes.name: 0,  # Default likes
         }
         for task in Tasks:
             if benchmark in self.results:
                 score = self.results[benchmark]
                 # Store original perplexity score (lower is better)
+                data_dict[f"{task.value.col_name} ⬇️"] = score
             else:
+                data_dict[f"{task.value.col_name} ⬇️"] = None
         return data_dict