Spaces:

fair-forward
/

languagebench

Running

davidpomerenke commited on Aug 29

Commit

b39df3c

verified ·

1 Parent(s): d380f79

Upload from GitHub Actions: minor chashing change

Files changed (2) hide show

evals/main.py CHANGED Viewed

@@ -14,16 +14,21 @@ async def evaluate():
     single_model = os.environ.get("SINGLE_MODEL")            # Optional: run only one specific model
     test_mode = os.environ.get("TEST", "").lower() in ("1", "true", "yes")  # Optional: skip results loading/saving
-    models_df = pd.DataFrame(models)
-    languages_df = pd.DataFrame(languages)
     top_languages = languages.head(max_languages)
-    # Filter to single model if specified
     if single_model:
         models_df = models_df[models_df["id"] == single_model]
         if len(models_df) == 0:
             print(f"Error: Model '{single_model}' not found. Available models:")
-            for model_id in pd.DataFrame(models)["id"]:
                 print(f"  {model_id}")
             return pd.DataFrame()
@@ -110,9 +115,9 @@ async def evaluate():
                 results_df = results_df.sort_values(by=["model", "bcp_47", "task", "metric"])
                 results_df.to_json("results.json", **args)
-                # Save model and language info
-                models_df.to_json("models.json", **args)
-                languages_df.to_json("languages.json", **args)
             else:
                 print("TEST MODE: Skipping results saving")

     single_model = os.environ.get("SINGLE_MODEL")            # Optional: run only one specific model
     test_mode = os.environ.get("TEST", "").lower() in ("1", "true", "yes")  # Optional: skip results loading/saving
+    # Keep original DataFrames for saving metadata
+    original_models_df = pd.DataFrame(models)
+    original_languages_df = pd.DataFrame(languages)
+    # Create working copies for single evaluation runs
+    models_df = original_models_df.copy()
+    languages_df = original_languages_df.copy()
     top_languages = languages.head(max_languages)
+    # Filter to single model if specified (only affects evaluation, not saving)
     if single_model:
         models_df = models_df[models_df["id"] == single_model]
         if len(models_df) == 0:
             print(f"Error: Model '{single_model}' not found. Available models:")
+            for model_id in original_models_df["id"]:
                 print(f"  {model_id}")
             return pd.DataFrame()
                 results_df = results_df.sort_values(by=["model", "bcp_47", "task", "metric"])
                 results_df.to_json("results.json", **args)
+                # Save model and language info (always save complete metadata, not filtered)
+                original_models_df.to_json("models.json", **args)
+                original_languages_df.to_json("languages.json", **args)
             else:
                 print("TEST MODE: Skipping results saving")

evals/models.py CHANGED Viewed

@@ -345,7 +345,7 @@ def get_cost(row):
         return None
-#@cache
 def load_models(date: date):
     popular_models = (
         get_historical_popular_models(date.today())[:20]

         return None
+@cache
 def load_models(date: date):
     popular_models = (
         get_historical_popular_models(date.today())[:20]