Spaces:

Hack90
/

virus_explorer

Sleeping

App Files Files Community

Hack90 commited on Aug 14, 2024

Commit

cacb9ec

verified ·

1 Parent(s): fdebd4a

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -5

app.py CHANGED Viewed

@@ -23,6 +23,11 @@ mpl.rcParams.update(mpl.rcParamsDefault)
 df = pd.read_parquet('virus_ds.parquet')
 virus = df['Organism_Name'].unique()
 virus = {v: v for v in virus}
 loss_typesss = pd.read_csv("training_data_5.csv")['loss_type'].unique().tolist()
 model_typesss = pd.read_csv("training_data_5.csv")['model_type'].unique().tolist()
 param_typesss = pd.read_csv("training_data_5.csv")['param_type'].unique().tolist()
@@ -76,17 +81,20 @@ with ui.navset_card_tab(id="tab"):
         ui.panel_title("How does sequence distribution vary across sequence length?")
         with ui.layout_columns():
             with ui.card():
-                ui.input_selectize("virus_selector_1", "Select your viruses:", virus, multiple=True, selected=None)
             with ui.card():
                 ui.input_slider(
-                    "basepair","Select basepair",0, 1000, 15
                 )
         @render.plot()
         def plot_distro():
-            df = pd.read_parquet("virus_ds.parquet")
-            df = df[df["Organism_Name"].isin(input.virus_selector_1())]
-            grouped = df.groupby("Organism_Name")["Sequence"].apply(list)
             return plot_distrobutions(grouped, grouped.index, input.basepair())
     with ui.nav_panel("Viral Microstructure"):

 df = pd.read_parquet('virus_ds.parquet')
 virus = df['Organism_Name'].unique()
 virus = {v: v for v in virus}
+df_new = pd.read_parquet("virus.parquet")
+df_new = df_new.groupby('organism_name').apply(lambda x: x.head(100) if len(x) > 10 else None).reset_index(drop=True)
+filter_species = df_new.organism_name.value_counts().reset_index()[df_new.organism_name.value_counts().reset_index()['count'] > 40 ]['organism_name'][1:].tolist()
+del df_new
+virus_new = {v: v for v in filter_species}
 loss_typesss = pd.read_csv("training_data_5.csv")['loss_type'].unique().tolist()
 model_typesss = pd.read_csv("training_data_5.csv")['model_type'].unique().tolist()
 param_typesss = pd.read_csv("training_data_5.csv")['param_type'].unique().tolist()
         ui.panel_title("How does sequence distribution vary across sequence length?")
         with ui.layout_columns():
             with ui.card():
+                ui.input_selectize("virus_selector_1", "Select your viruses:", virus_new, multiple=True, selected=None)
             with ui.card():
                 ui.input_slider(
+                    "basepair","Select basepair",0, 10000, 15
                 )
         @render.plot()
         def plot_distro():
+            df = pd.read_parquet("virus.parquet")
+            df = df.groupby('organism_name').apply(lambda x: x.head(100) if len(x) > 10 else None).reset_index(drop=True)
+            filter_species = df.organism_name.value_counts().reset_index()[df.organism_name.value_counts().reset_index()['count'] > 40 ]['organism_name'][1:].tolist()
+            df = df[df["organism_name"].isin(input.virus_selector_1())]
+            grouped = df.groupby("organism_name")["sequence"].apply(list)
             return plot_distrobutions(grouped, grouped.index, input.basepair())
     with ui.nav_panel("Viral Microstructure"):