Spaces:

openeurollm
/

LLM-leaderboard

Running

App Files Files Community

geoalgo commited on Oct 13

Commit

653989f

1 Parent(s): ca25c6f

update leaderboard

Browse files

Files changed (2) hide show

main.py +40 -12
results_instruction_tuning.csv.zip +2 -2

main.py CHANGED Viewed

@@ -13,21 +13,47 @@ df_core.drop("#Tokens", axis=1, inplace=True)
 df_core.drop("AVG", axis=1, inplace=True)
 benchmarks_core = df_core.columns[1:]
 df_core["Average ⬆️"] = df_core.loc[:, benchmarks_core].mean(axis=1)
 df_instruction_tuning = pd.read_csv("results_instruction_tuning.csv.zip")
-df_instruction_tuning = df_instruction_tuning.pivot_table(
     index="model_B", columns="benchmark", values="preference"
 )
-df_instruction_tuning.index.rename("Model", inplace=True)
-df_instruction_tuning.reset_index(drop=False, inplace=True)
-df_instruction_tuning.columns = [x.capitalize() for x in df_instruction_tuning.columns]
 # first column is model
-df_instruction_tuning["Average"] = df_instruction_tuning.loc[
-    :, df_instruction_tuning.columns[1:]
 ].mean(axis=1)
 # df_instruction_tuning.drop("benchmark", axis=1, inplace=True)
 with gr.Blocks() as demo:
     gr.Markdown(
@@ -59,10 +85,12 @@ with gr.Blocks() as demo:
             """
             )
             Leaderboard(
-                value=df_instruction_tuning.round(2),
                 select_columns=SelectColumns(
                     default_selection=[
-                        col for col in df_instruction_tuning.columns if not "-eu" in col
                     ],
                     cant_deselect=["Model"],
                     label="Select Columns to Display:",
@@ -77,13 +105,13 @@ with gr.Blocks() as demo:
         with gr.Tab("Instruction-tuning multi-lingual 🎯🇪🇺"):
             gr.Markdown(
                 """
-            Winrate against Llama-3.1-8B-Instruct using Llama-3.1-70B-Instruct as the LLM-judge.
             """
             )
             Leaderboard(
-                value=df_instruction_tuning.round(2),
                 select_columns=SelectColumns(
-                    default_selection=list(df_instruction_tuning.columns),
                     cant_deselect=["Model"],
                     label="Select Columns to Display:",
                 ),

 df_core.drop("AVG", axis=1, inplace=True)
 benchmarks_core = df_core.columns[1:]
 df_core["Average ⬆️"] = df_core.loc[:, benchmarks_core].mean(axis=1)
+df_core.sort_values(by="Average ⬆️", ascending=False, inplace=True)
 df_instruction_tuning = pd.read_csv("results_instruction_tuning.csv.zip")
+df_instruction_tuning_pivot = df_instruction_tuning.pivot_table(
     index="model_B", columns="benchmark", values="preference"
 )
+df_instruction_tuning_pivot.index.rename("Model", inplace=True)
+df_instruction_tuning_pivot.reset_index(drop=False, inplace=True)
+df_instruction_tuning_pivot.columns = [
+    x.capitalize() for x in df_instruction_tuning_pivot.columns
+]
 # first column is model
+df_instruction_tuning_pivot["Average ⬆️"] = df_instruction_tuning_pivot.loc[
+    :, df_instruction_tuning_pivot.columns[1:]
 ].mean(axis=1)
 # df_instruction_tuning.drop("benchmark", axis=1, inplace=True)
+df_instruction_tuning_pivot.sort_values(by="Average ⬆️", ascending=False, inplace=True)
+df_mah_pivot = df_instruction_tuning[
+    df_instruction_tuning.benchmark == "m-arena-hard-EU"
+].copy()
+df_mah_pivot["lang"] = df_instruction_tuning.instruction_index.apply(
+    lambda s: s.split("-")[-1]
+)
+df_mah_pivot = df_mah_pivot.pivot_table(
+    index="model_B", columns="lang", values="preference"
+)
+df_mah_pivot["Average ⬆️"] = df_mah_pivot.mean(axis=1)
+df_mah_pivot.sort_values(by="Average ⬆️", ascending=False, inplace=True)
+df_mah_pivot.index.rename("Model", inplace=True)
+df_mah_pivot.reset_index(drop=False, inplace=True)
+cols = [
+    #'Llama-3.1-8B',
+    "Llama-3.1-Tulu-3-8B-SFT",
+    "Llama-3.2-3B-Instruct",
+    "Llama-3.1-Tulu-3-8B-DPO",
+    "Apertus-8B-Instruct-2509",
+]
 with gr.Blocks() as demo:
     gr.Markdown(
             """
             )
             Leaderboard(
+                value=df_instruction_tuning_pivot.round(2),
                 select_columns=SelectColumns(
                     default_selection=[
+                        col
+                        for col in df_instruction_tuning_pivot.columns
+                        if not "-eu" in col
                     ],
                     cant_deselect=["Model"],
                     label="Select Columns to Display:",
         with gr.Tab("Instruction-tuning multi-lingual 🎯🇪🇺"):
             gr.Markdown(
                 """
+            Winrate on m-Arena-Hard instructions against Llama-3.1-8B-Instruct using Llama-3.1-70B-Instruct as the LLM-judge.
             """
             )
             Leaderboard(
+                value=df_mah_pivot.round(2),
                 select_columns=SelectColumns(
+                    default_selection=list(df_mah_pivot.columns),
                     cant_deselect=["Model"],
                     label="Select Columns to Display:",
                 ),

results_instruction_tuning.csv.zip CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f76e51ad41bb386359abb58e10ea274cdd5189dfd468f5bb58850c61fb8c16f0
-size 209306

 version https://git-lfs.github.com/spec/v1
+oid sha256:484a54e6946b58cdb8a76dd0bd0f48618905d8dd139b60de52f744c27eaf170d
+size 258876