leaderboard

Running on CPU Upgrade

App Files Files Community

nan commited on May 14, 2024

Commit

77ded94

verified ·

1 Parent(s): 3bab3e9

feat-add-toggle-button-for-revision-col-0514 (#3)

Browse files

- feat: add the toggle checkbox (ea7f641055b8b1920e6b13455ec5d3f48cef3a64)
- feat: add toggle checkbox for qa (fff686a88e3ddf8a1c85a594b174dfa51b97725f)
- feat: add toggle checkbox for long-doc (4ab9cec62b148e8ef70ac23e8205477d47d34a14)

Files changed (2) hide show

app.py +60 -33
src/utils.py +19 -10

app.py CHANGED Viewed

@@ -11,7 +11,7 @@ from src.about import (
 from src.benchmarks import DOMAIN_COLS_QA, LANG_COLS_QA, DOMAIN_COLS_LONG_DOC, LANG_COLS_LONG_DOC, METRIC_LIST, \
     DEFAULT_METRIC
 from src.display.css_html_js import custom_css
-from src.display.utils import COL_NAME_IS_ANONYMOUS
 from src.envs import API, EVAL_RESULTS_PATH, REPO_ID, RESULTS_REPO, TOKEN
 from src.read_evals import get_raw_eval_results, get_leaderboard_df
 from src.utils import update_table, update_metric, update_table_long_doc, upload_file, get_default_cols, submit_results
@@ -45,11 +45,13 @@ leaderboard_df_qa = original_df_qa.copy()
 shown_columns_qa, types_qa = get_default_cols(
     'qa', leaderboard_df_qa.columns, add_fix_cols=True)
 leaderboard_df_qa = leaderboard_df_qa[~leaderboard_df_qa[COL_NAME_IS_ANONYMOUS]][shown_columns_qa]
 leaderboard_df_long_doc = original_df_long_doc.copy()
 shown_columns_long_doc, types_long_doc = get_default_cols(
     'long-doc', leaderboard_df_long_doc.columns, add_fix_cols=True)
 leaderboard_df_long_doc = leaderboard_df_long_doc[~leaderboard_df_long_doc[COL_NAME_IS_ANONYMOUS]][shown_columns_long_doc]
 def update_metric_qa(
@@ -58,9 +60,10 @@ def update_metric_qa(
         langs: list,
         reranking_model: list,
         query: str,
-        show_anonymous: bool
 ):
-    return update_metric(raw_data, 'qa', metric, domains, langs, reranking_model, query, show_anonymous)
 def update_metric_long_doc(
@@ -69,9 +72,10 @@ def update_metric_long_doc(
         langs: list,
         reranking_model: list,
         query: str,
-        show_anonymous: bool
 ):
-    return update_metric(raw_data, "long-doc", metric, domains, langs, reranking_model, query, show_anonymous)
 def update_table_without_ranking(
@@ -80,9 +84,10 @@ def update_table_without_ranking(
         langs,
         reranking_query,
         query,
-        show_anonymous
 ):
-    return update_table(hidden_df, domains, langs, reranking_query, query, show_anonymous, reset_ranking=False)
 def update_table_without_ranking_long_doc(
@@ -91,9 +96,10 @@ def update_table_without_ranking_long_doc(
         langs,
         reranking_query,
         query,
-        show_anonymous
 ):
-    return update_table_long_doc(hidden_df, domains, langs, reranking_query, query, show_anonymous, reset_ranking=False)
 demo = gr.Blocks(css=custom_css)
@@ -157,6 +163,12 @@ with demo:
                             value=False,
                             info="The anonymous submissions might have invalid model information."
                         )
             leaderboard_table = gr.components.Dataframe(
                 value=leaderboard_df_qa,
@@ -187,18 +199,21 @@ with demo:
                 leaderboard_table,
             )
-            selected_rerankings.change(
-                update_table_without_ranking,
-                [
-                    hidden_leaderboard_table_for_search,
-                    selected_domains,
-                    selected_langs,
-                    selected_rerankings,
-                    search_bar,
-                    show_anonymous,
-                ],
-                leaderboard_table,
-            )
             # Set column-wise listener
             for selector in [
@@ -288,6 +303,12 @@ with demo:
                             value=False,
                             info="The anonymous submissions might have invalid model information."
                         )
             leaderboard_table_long_doc = gr.components.Dataframe(
                 value=leaderboard_df_long_doc,
@@ -314,22 +335,26 @@ with demo:
                     selected_rerankings,
                     search_bar,
                     show_anonymous,
                 ],
                 leaderboard_table_long_doc,
             )
-            selected_rerankings.change(
-                update_table_without_ranking_long_doc,
-                [
-                    hidden_leaderboard_table_for_search,
-                    selected_domains,
-                    selected_langs,
-                    selected_rerankings,
-                    search_bar,
-                    show_anonymous,
-                ],
-                leaderboard_table_long_doc,
-            )
             # Set column-wise listener
             for selector in [
@@ -344,6 +369,7 @@ with demo:
                         selected_rerankings,
                         search_bar,
                         show_anonymous,
                     ],
                     leaderboard_table_long_doc,
                     queue=True,
@@ -359,6 +385,7 @@ with demo:
                     selected_rerankings,
                     search_bar,
                     show_anonymous,
                 ],
                 leaderboard_table_long_doc,
                 queue=True

 from src.benchmarks import DOMAIN_COLS_QA, LANG_COLS_QA, DOMAIN_COLS_LONG_DOC, LANG_COLS_LONG_DOC, METRIC_LIST, \
     DEFAULT_METRIC
 from src.display.css_html_js import custom_css
+from src.display.utils import COL_NAME_IS_ANONYMOUS, COL_NAME_REVISION, COL_NAME_TIMESTAMP
 from src.envs import API, EVAL_RESULTS_PATH, REPO_ID, RESULTS_REPO, TOKEN
 from src.read_evals import get_raw_eval_results, get_leaderboard_df
 from src.utils import update_table, update_metric, update_table_long_doc, upload_file, get_default_cols, submit_results
 shown_columns_qa, types_qa = get_default_cols(
     'qa', leaderboard_df_qa.columns, add_fix_cols=True)
 leaderboard_df_qa = leaderboard_df_qa[~leaderboard_df_qa[COL_NAME_IS_ANONYMOUS]][shown_columns_qa]
+leaderboard_df_qa.drop([COL_NAME_REVISION, COL_NAME_TIMESTAMP], axis=1, inplace=True)
 leaderboard_df_long_doc = original_df_long_doc.copy()
 shown_columns_long_doc, types_long_doc = get_default_cols(
     'long-doc', leaderboard_df_long_doc.columns, add_fix_cols=True)
 leaderboard_df_long_doc = leaderboard_df_long_doc[~leaderboard_df_long_doc[COL_NAME_IS_ANONYMOUS]][shown_columns_long_doc]
+leaderboard_df_long_doc.drop([COL_NAME_REVISION, COL_NAME_TIMESTAMP], axis=1, inplace=True)
 def update_metric_qa(
         langs: list,
         reranking_model: list,
         query: str,
+        show_anonymous: bool,
+        show_revision_and_timestamp,
 ):
+    return update_metric(raw_data, 'qa', metric, domains, langs, reranking_model, query, show_anonymous, show_revision_and_timestamp)
 def update_metric_long_doc(
         langs: list,
         reranking_model: list,
         query: str,
+        show_anonymous: bool,
+        show_revision_and_timestamp,
 ):
+    return update_metric(raw_data, "long-doc", metric, domains, langs, reranking_model, query, show_anonymous, show_revision_and_timestamp)
 def update_table_without_ranking(
         langs,
         reranking_query,
         query,
+        show_anonymous,
+        show_revision_and_timestamp,
 ):
+    return update_table(hidden_df, domains, langs, reranking_query, query, show_anonymous, reset_ranking=False, show_revision_and_timestamp=show_revision_and_timestamp)
 def update_table_without_ranking_long_doc(
         langs,
         reranking_query,
         query,
+        show_anonymous,
+        show_revision_and_timestamp,
 ):
+    return update_table_long_doc(hidden_df, domains, langs, reranking_query, query, show_anonymous, reset_ranking=False, show_revision_and_timestamp=show_revision_and_timestamp)
 demo = gr.Blocks(css=custom_css)
                             value=False,
                             info="The anonymous submissions might have invalid model information."
                         )
+                    with gr.Row():
+                        show_revision_and_timestamp = gr.Checkbox(
+                            label="Show submission details",
+                            value=False,
+                            info="Show the revision and timestamp information of submissions"
+                        )
             leaderboard_table = gr.components.Dataframe(
                 value=leaderboard_df_qa,
                 leaderboard_table,
             )
+            for selector in [show_revision_and_timestamp, selected_rerankings]:
+                selector.change(
+                    update_table_without_ranking,
+                    [
+                        hidden_leaderboard_table_for_search,
+                        selected_domains,
+                        selected_langs,
+                        selected_rerankings,
+                        search_bar,
+                        show_anonymous,
+                        show_revision_and_timestamp
+                    ],
+                    leaderboard_table,
+                    queue=True
+                )
             # Set column-wise listener
             for selector in [
                             value=False,
                             info="The anonymous submissions might have invalid model information."
                         )
+                    with gr.Row():
+                        show_revision_and_timestamp = gr.Checkbox(
+                            label="Show submission details",
+                            value=False,
+                            info="Show the revision and timestamp information of submissions"
+                        )
             leaderboard_table_long_doc = gr.components.Dataframe(
                 value=leaderboard_df_long_doc,
                     selected_rerankings,
                     search_bar,
                     show_anonymous,
+                    show_revision_and_timestamp
                 ],
                 leaderboard_table_long_doc,
             )
+            for selector in [show_revision_and_timestamp, selected_rerankings]:
+                selector.change(
+                    update_table_without_ranking_long_doc,
+                    [
+                        hidden_leaderboard_table_for_search,
+                        selected_domains,
+                        selected_langs,
+                        selected_rerankings,
+                        search_bar,
+                        show_anonymous,
+                        show_revision_and_timestamp
+                    ],
+                    leaderboard_table_long_doc,
+                    queue=True,
+                )
             # Set column-wise listener
             for selector in [
                         selected_rerankings,
                         search_bar,
                         show_anonymous,
+                        show_revision_and_timestamp
                     ],
                     leaderboard_table_long_doc,
                     queue=True,
                     selected_rerankings,
                     search_bar,
                     show_anonymous,
+                    show_revision_and_timestamp
                 ],
                 leaderboard_table_long_doc,
                 queue=True

src/utils.py CHANGED Viewed

@@ -9,7 +9,7 @@ import pandas as pd
 from src.benchmarks import BENCHMARK_COLS_QA, BENCHMARK_COLS_LONG_DOC, BenchmarksQA, BenchmarksLongDoc
 from src.display.formatting import styled_message, styled_error
 from src.display.utils import COLS_QA, TYPES_QA, COLS_LONG_DOC, TYPES_LONG_DOC, COL_NAME_RANK, COL_NAME_AVG, \
-    COL_NAME_RERANKING_MODEL, COL_NAME_RETRIEVAL_MODEL, COL_NAME_IS_ANONYMOUS, get_default_auto_eval_column_dict
 from src.envs import API, SEARCH_RESULTS_REPO
 from src.read_evals import FullEvalResult, get_leaderboard_df, calculate_mean
@@ -130,14 +130,18 @@ def _update_table(
         reranking_query: list,
         query: str,
         show_anonymous: bool,
-        reset_ranking: bool = True
 ):
     filtered_df = hidden_df.copy()
     if not show_anonymous:
         filtered_df = filtered_df[~filtered_df[COL_NAME_IS_ANONYMOUS]]
     filtered_df = filter_models(filtered_df, reranking_query)
     filtered_df = filter_queries(query, filtered_df)
-    return select_columns(filtered_df, domains, langs, task, reset_ranking)
 def update_table(
@@ -147,10 +151,11 @@ def update_table(
         reranking_query: list,
         query: str,
         show_anonymous: bool,
-        reset_ranking: bool = True
 ):
     return _update_table(
-        "qa", hidden_df, domains, langs, reranking_query, query, show_anonymous, reset_ranking)
 def update_table_long_doc(
@@ -160,10 +165,11 @@ def update_table_long_doc(
         reranking_query: list,
         query: str,
         show_anonymous: bool,
-        reset_ranking: bool = True
 ):
     return _update_table(
-        "long-doc", hidden_df, domains, langs, reranking_query, query, show_anonymous, reset_ranking)
 def update_metric(
@@ -174,7 +180,8 @@ def update_metric(
         langs: list,
         reranking_model: list,
         query: str,
-        show_anonymous: bool = False
 ) -> pd.DataFrame:
     if task == 'qa':
         leaderboard_df = get_leaderboard_df(raw_data, task=task, metric=metric)
@@ -184,7 +191,8 @@ def update_metric(
             langs,
             reranking_model,
             query,
-            show_anonymous
         )
     elif task == "long-doc":
         leaderboard_df = get_leaderboard_df(raw_data, task=task, metric=metric)
@@ -194,7 +202,8 @@ def update_metric(
             langs,
             reranking_model,
             query,
-            show_anonymous
         )

 from src.benchmarks import BENCHMARK_COLS_QA, BENCHMARK_COLS_LONG_DOC, BenchmarksQA, BenchmarksLongDoc
 from src.display.formatting import styled_message, styled_error
 from src.display.utils import COLS_QA, TYPES_QA, COLS_LONG_DOC, TYPES_LONG_DOC, COL_NAME_RANK, COL_NAME_AVG, \
+    COL_NAME_RERANKING_MODEL, COL_NAME_RETRIEVAL_MODEL, COL_NAME_IS_ANONYMOUS, COL_NAME_TIMESTAMP, COL_NAME_REVISION, get_default_auto_eval_column_dict
 from src.envs import API, SEARCH_RESULTS_REPO
 from src.read_evals import FullEvalResult, get_leaderboard_df, calculate_mean
         reranking_query: list,
         query: str,
         show_anonymous: bool,
+        reset_ranking: bool = True,
+        show_revision_and_timestamp: bool = False
 ):
     filtered_df = hidden_df.copy()
     if not show_anonymous:
         filtered_df = filtered_df[~filtered_df[COL_NAME_IS_ANONYMOUS]]
     filtered_df = filter_models(filtered_df, reranking_query)
     filtered_df = filter_queries(query, filtered_df)
+    filtered_df = select_columns(filtered_df, domains, langs, task, reset_ranking)
+    if not show_revision_and_timestamp:
+        filtered_df.drop([COL_NAME_REVISION, COL_NAME_TIMESTAMP], axis=1, inplace=True)
+    return filtered_df
 def update_table(
         reranking_query: list,
         query: str,
         show_anonymous: bool,
+        reset_ranking: bool = True,
+        show_revision_and_timestamp: bool = False
 ):
     return _update_table(
+        "qa", hidden_df, domains, langs, reranking_query, query, show_anonymous, reset_ranking, show_revision_and_timestamp)
 def update_table_long_doc(
         reranking_query: list,
         query: str,
         show_anonymous: bool,
+        reset_ranking: bool = True,
+        show_revision_and_timestamp: bool = False
 ):
     return _update_table(
+        "long-doc", hidden_df, domains, langs, reranking_query, query, show_anonymous, reset_ranking, show_revision_and_timestamp)
 def update_metric(
         langs: list,
         reranking_model: list,
         query: str,
+        show_anonymous: bool = False,
+        show_revision_and_timestamp: bool = False,
 ) -> pd.DataFrame:
     if task == 'qa':
         leaderboard_df = get_leaderboard_df(raw_data, task=task, metric=metric)
             langs,
             reranking_model,
             query,
+            show_anonymous,
+            show_revision_and_timestamp
         )
     elif task == "long-doc":
         leaderboard_df = get_leaderboard_df(raw_data, task=task, metric=metric)
             langs,
             reranking_model,
             query,
+            show_anonymous,
+            show_revision_and_timestamp
         )