SAGE-Bench

Sleeping

App Files Files Community

SAGE OSS Evaluator commited on Sep 9

Commit

326dd8e

1 Parent(s): b3a5ff6

update

Browse files

Files changed (4) hide show

README.md +1 -1
app.py +5 -35
src/oss/oss_leaderboard_manager.py +8 -4
src/populate.py +38 -41

README.md CHANGED Viewed

@@ -9,7 +9,7 @@ pinned: true
 license: apache-2.0
 short_description: SAGE Scientific Reasoning Benchmark Leaderboard
 sdk_version: 5.43.1
-hf_oauth: true           # ← 新增：启用OAuth
 tags:
 - leaderboard
 - science

 license: apache-2.0
 short_description: SAGE Scientific Reasoning Benchmark Leaderboard
 sdk_version: 5.43.1
+hf_oauth: true
 tags:
 - leaderboard
 - science

app.py CHANGED Viewed

@@ -173,43 +173,13 @@ def get_leaderboard_dataframe():
         return pd.DataFrame()
     try:
-        sage_results = process_sage_results_for_leaderboard()
-        print(f"📊 Loaded {len(sage_results)} SAGE results")
-        if not sage_results:
             print("❌ No SAGE results found")
             return pd.DataFrame()
-        # Convert to leaderboard format
-        leaderboard_data = []
-        for result in sage_results:
-            # Extract model name from submission_id
-            if result.submission_id.startswith("initial_"):
-                model_name = result.submission_id.split("_", 2)[-1].replace("_", " ")
-            else:
-                model_name = result.submission_id
-            # Create model hyperlink (for now just display name)
-            model_display = f"**{model_name}**"
-            row = {
-                "Model": model_display,
-                "Organization": result.organization,
-                "Overall (%)": result.results.get("sage_overall", 0),
-                "Mathematics (%)": result.results.get("sage_math", 0),
-                "Physics (%)": result.results.get("sage_physics", 0),
-                "Chemistry (%)": result.results.get("sage_chemistry", 0),
-                "Biology (%)": result.results.get("sage_biology", 0),
-                "Earth Science (%)": result.results.get("sage_earth_science", 0),
-                "Astronomy (%)": result.results.get("sage_astronomy", 0),
-                "Submission Date": result.submitted_time
-            }
-            leaderboard_data.append(row)
-        df = pd.DataFrame(leaderboard_data)
-        if not df.empty:
-            df = df.sort_values(by=["Overall (%)"], ascending=False)
         print(f"✅ Generated dataframe with {len(df)} rows")
         return df
@@ -230,7 +200,7 @@ leaderboard_df = get_leaderboard_dataframe()
 print(f"📈 Leaderboard initialized with {len(leaderboard_df)} rows")
 # Define column types for the dataframe
-COLUMN_TYPES = ["markdown", "str", "number", "number", "number", "number", "number", "number", "number", "str"]
 # Create Gradio interface
@@ -269,7 +239,7 @@ with demo:
         datatype=COLUMN_TYPES,
         interactive=False,
         wrap=True,
-        column_widths=["25%", "15%", "8%", "8%", "8%", "8%", "8%", "8%", "8%", "12%"]
     )
     # Refresh button

         return pd.DataFrame()
     try:
+        # Use the updated get_sage_leaderboard_df function
+        df = get_sage_leaderboard_df()
+        if df.empty:
             print("❌ No SAGE results found")
             return pd.DataFrame()
         print(f"✅ Generated dataframe with {len(df)} rows")
         return df
 print(f"📈 Leaderboard initialized with {len(leaderboard_df)} rows")
 # Define column types for the dataframe
+COLUMN_TYPES = ["str", "markdown", "str", "str", "number", "number", "number", "str"]
 # Create Gradio interface
         datatype=COLUMN_TYPES,
         interactive=False,
         wrap=True,
+        column_widths=["8%", "25%", "15%", "10%", "12%", "12%", "12%", "12%"]
     )
     # Refresh button

src/oss/oss_leaderboard_manager.py CHANGED Viewed

@@ -168,9 +168,9 @@ class OSSLeaderboardManager:
                 print(f"➕ 添加新的排行榜条目: {result_data.get('organization')}")
                 leaderboard_data.append(result_data)
-            # 按总分排序
             leaderboard_data.sort(
-                key=lambda x: x.get("results", {}).get("sage_overall", 0),
                 reverse=True
             )
@@ -207,8 +207,12 @@ class OSSLeaderboardManager:
             # 获取最高分
             top_scores = {}
             if leaderboard_data:
-                top_entry = leaderboard_data[0]  # 已按分数排序
-                top_scores = top_entry.get("results", {})
             return {
                 "total_entries": total_entries,

                 print(f"➕ 添加新的排行榜条目: {result_data.get('organization')}")
                 leaderboard_data.append(result_data)
+            # 按准确率排序
             leaderboard_data.sort(
+                key=lambda x: x.get("accuracy", 0),
                 reverse=True
             )
             # 获取最高分
             top_scores = {}
             if leaderboard_data:
+                top_entry = leaderboard_data[0]  # 已按准确率排序
+                top_scores = {
+                    "accuracy": top_entry.get("accuracy", 0),
+                    "mg_pass_2": top_entry.get("mg_pass_2", 0),
+                    "mg_pass_4": top_entry.get("mg_pass_4", 0)
+                }
             return {
                 "total_entries": total_entries,

src/populate.py CHANGED Viewed

@@ -24,52 +24,39 @@ try:
         submission_id: str
         organization: str
         email: str
-        results: Dict[str, float]
-        num_predictions: int
         submitted_time: str
         status: str = "EVALUATED"
         def to_dict(self):
             """Converts the SAGE Result to a dict compatible with our dataframe display"""
-            # Use overall score if available, otherwise calculate average
-            if "sage_overall" in self.results:
-                average = self.results["sage_overall"]
-            else:
-                domain_scores = [v for v in self.results.values() if v is not None and isinstance(v, (int, float))]
-                average = sum(domain_scores) / len(domain_scores) if domain_scores else 0.0
-            # Extract model name from submission_id for initial results
-            if self.submission_id.startswith("initial_"):
                 model_name = self.submission_id.split("_", 2)[-1].replace("_", " ")
-                display_name = f"**{model_name}**"
-                model_symbol = "🤖"
             else:
-                display_name = f"[{self.organization}]({self.email})"
-                model_symbol = "🏢"
-            from src.display.utils import AutoEvalColumn, Tasks
             data_dict = {
                 "eval_name": self.submission_id,
-                AutoEvalColumn.model.name: display_name,
-                AutoEvalColumn.model_type_symbol.name: model_symbol,
-                AutoEvalColumn.model_type.name: "SAGE Benchmark",
-                AutoEvalColumn.precision.name: self.organization,
-                AutoEvalColumn.weight_type.name: "Evaluated",
-                AutoEvalColumn.architecture.name: "Multi-domain",
-                AutoEvalColumn.average.name: round(average, 2),
-                AutoEvalColumn.license.name: "N/A",
-                AutoEvalColumn.likes.name: 0,
-                AutoEvalColumn.params.name: 0,
-                AutoEvalColumn.still_on_hub.name: True,
-                AutoEvalColumn.revision.name: self.submitted_time,
             }
-            # Add domain-specific scores
-            for task in Tasks:
-                domain_key = task.value.benchmark
-                data_dict[task.value.col_name] = self.results.get(domain_key, 0.0)
             return data_dict
     def load_initial_sage_results_from_oss() -> List[SAGEResult]:
@@ -90,13 +77,17 @@ try:
                 for i, entry in enumerate(initial_data):
                     sage_result = SAGEResult(
                         submission_id=f"oss_{i:02d}_{entry['model_name'].replace(' ', '_').replace('-', '_')}",
-                        organization=f"{entry['organization']} ({entry.get('tokens', 'N/A')})",
                         email=entry.get('contact_email', f"contact@{entry['organization'].lower().replace(' ', '')}.com"),
-                        results=entry["results"],
-                        num_predictions=1000,
                         submitted_time=entry["submitted_time"],
                         status="EVALUATED"
                     )
                     sage_results.append(sage_result)
             else:
                 print("⚠️ OSS中未找到排行榜数据")
@@ -118,7 +109,7 @@ except ImportError as e:
     process_sage_results_for_leaderboard = None
-def get_sage_leaderboard_df(cols: list, benchmark_cols: list) -> pd.DataFrame:
     """Creates a dataframe from SAGE evaluation results"""
     if process_sage_results_for_leaderboard is None:
         return pd.DataFrame()
@@ -131,9 +122,15 @@ def get_sage_leaderboard_df(cols: list, benchmark_cols: list) -> pd.DataFrame:
         return pd.DataFrame()
     df = pd.DataFrame.from_records(all_data_json)
-    df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
-    df = df[cols].round(decimals=2)
-    # filter out if any of the benchmarks have not been produced
-    df = df[has_no_nan_values(df, benchmark_cols)]
     return df

         submission_id: str
         organization: str
         email: str
+        tokens: str
+        accuracy: float
+        mg_pass_2: float
+        mg_pass_4: float
         submitted_time: str
         status: str = "EVALUATED"
         def to_dict(self):
             """Converts the SAGE Result to a dict compatible with our dataframe display"""
+            # Extract model name from submission_id or use model_name directly
+            if hasattr(self, 'model_name'):
+                model_name = self.model_name
+            elif self.submission_id.startswith("oss_"):
+                # Extract model name from submission_id
                 model_name = self.submission_id.split("_", 2)[-1].replace("_", " ")
             else:
+                model_name = self.submission_id
+            # Create display name
+            display_name = f"**{model_name}**"
+            model_symbol = "🤖"
             data_dict = {
                 "eval_name": self.submission_id,
+                "Model": display_name,
+                "Organization": self.organization,
+                "Tokens": self.tokens,
+                "Accuracy (%)": round(self.accuracy, 2),
+                "mG-Pass@2 (%)": round(self.mg_pass_2, 2),
+                "mG-Pass@4 (%)": round(self.mg_pass_4, 2),
+                "Submission Date": self.submitted_time,
             }
             return data_dict
     def load_initial_sage_results_from_oss() -> List[SAGEResult]:
                 for i, entry in enumerate(initial_data):
                     sage_result = SAGEResult(
                         submission_id=f"oss_{i:02d}_{entry['model_name'].replace(' ', '_').replace('-', '_')}",
+                        organization=entry['organization'],
                         email=entry.get('contact_email', f"contact@{entry['organization'].lower().replace(' ', '')}.com"),
+                        tokens=entry.get('tokens', 'N/A'),
+                        accuracy=entry.get('accuracy', 0.0),
+                        mg_pass_2=entry.get('mg_pass_2', 0.0),
+                        mg_pass_4=entry.get('mg_pass_4', 0.0),
                         submitted_time=entry["submitted_time"],
                         status="EVALUATED"
                     )
+                    # Add model_name as additional attribute for display
+                    sage_result.model_name = entry['model_name']
                     sage_results.append(sage_result)
             else:
                 print("⚠️ OSS中未找到排行榜数据")
     process_sage_results_for_leaderboard = None
+def get_sage_leaderboard_df() -> pd.DataFrame:
     """Creates a dataframe from SAGE evaluation results"""
     if process_sage_results_for_leaderboard is None:
         return pd.DataFrame()
         return pd.DataFrame()
     df = pd.DataFrame.from_records(all_data_json)
+    # Sort by accuracy (descending)
+    if "Accuracy (%)" in df.columns:
+        df = df.sort_values(by=["Accuracy (%)"], ascending=False)
+    # Round numeric columns
+    numeric_cols = ["Accuracy (%)", "mG-Pass@2 (%)", "mG-Pass@4 (%)"]
+    for col in numeric_cols:
+        if col in df.columns:
+            df[col] = df[col].round(2)
     return df