Spaces:

EngBioNUS
/

BitConverter

Sleeping

App Files Files Community

wenjun99 commited on 5 days ago

Commit

df3d2a3

verified ·

1 Parent(s): a38ee9b

Update src/app.py

Browse files

Files changed (1) hide show

src/app.py +60 -14

src/app.py CHANGED Viewed

@@ -374,38 +374,84 @@ with tab3:
             st.markdown("### 1️⃣ Raw Data Distribution")
             st.caption("Visualize editing values across all positions and samples — before any binary labelling.")
-            log_toggle = st.checkbox("Apply log1p transformation to values", value=False, key="log_toggle")
             # Melt data to long format: (sample, position_index, value)
-            melted = pos_data.melt(var_name="Position", value_name="Value")
             melted["Position_idx"] = melted["Position"].apply(
                 lambda x: int(re.search(r"(\d+)", str(x)).group(1)) if re.search(r"(\d+)", str(x)) else 0
             )
-            if log_toggle:
-                melted["Value"] = np.log1p(melted["Value"])
-                value_label = "Editing Value (log1p)"
-            else:
-                value_label = "Editing Value"
             # =====================================================
             # PLOT 2: Histogram — all values
             # =====================================================
             st.markdown("#### 📊 Histogram — All Values")
-            n_bins = st.slider("Number of bins:", min_value=20, max_value=200, value=80, key="hist_bins")
             fig2, ax2 = plt.subplots(figsize=(10, 4))
             ax2.hist(melted["Value"].values, bins=n_bins, color="#4F46E5", edgecolor="white", linewidth=0.3)
             ax2.set_xlabel(value_label)
             ax2.set_ylabel("Count")
-            transform_label = "log1p" if log_toggle else "linear"
-            ax2.set_title(f"Raw Values Distribution ({transform_label})")
-            # Fine x-axis ticks: every 0.2 for log1p, every 5 for linear
             val_max = melted["Value"].max()
-            if log_toggle:
-                ax2.set_xticks(np.arange(0, val_max + 0.2, 0.2))
             else:
-                ax2.set_xticks(np.arange(0, val_max + 5, 5))
             ax2.tick_params(axis='x', labelsize=8, rotation=45)
             ax2.grid(axis='y', alpha=0.3)
             fig2.tight_layout()

             st.markdown("### 1️⃣ Raw Data Distribution")
             st.caption("Visualize editing values across all positions and samples — before any binary labelling.")
+            transform_option = st.selectbox(
+                "Value transformation:",
+                ["Raw (linear)", "log1p", "log1p → log1p", "log1p → pos. norm."],
+                index=0,
+                key="transform_select",
+                help=(
+                    "**Raw** — No transformation.\n\n"
+                    "**log1p** — `log(1 + x)`. Compresses high values, spreads low range.\n\n"
+                    "**log1p → log1p** — Double log1p. Even stronger compression.\n\n"
+                    "**log1p → pos. norm.** — log1p then robust per-position normalization "
+                    "(median / IQR scaling per position column)."
+                )
+            )
+            # --- Apply transforms ---
+            def robust_pos_normalize_log1p(data: pd.DataFrame) -> pd.DataFrame:
+                """log1p then robust per-position normalization (median + IQR)."""
+                logged = np.log1p(data)
+                result = logged.copy()
+                for col in result.columns:
+                    med = result[col].median()
+                    q75, q25 = result[col].quantile(0.75), result[col].quantile(0.25)
+                    iqr = q75 - q25
+                    if iqr > 0:
+                        result[col] = (result[col] - med) / iqr
+                    else:
+                        result[col] = result[col] - med
+                return result
+            if transform_option == "log1p":
+                transformed = np.log1p(pos_data)
+                value_label = "Editing Value (log1p)"
+                transform_tag = "log1p"
+            elif transform_option == "log1p → log1p":
+                transformed = np.log1p(np.log1p(pos_data))
+                value_label = "Editing Value (log1p → log1p)"
+                transform_tag = "log1p_log1p"
+            elif transform_option == "log1p → pos. norm.":
+                transformed = robust_pos_normalize_log1p(pos_data)
+                value_label = "Editing Value (log1p → pos. norm.)"
+                transform_tag = "log1p_posnorm"
+            else:
+                transformed = pos_data
+                value_label = "Editing Value"
+                transform_tag = "raw"
             # Melt data to long format: (sample, position_index, value)
+            melted = transformed.melt(var_name="Position", value_name="Value")
             melted["Position_idx"] = melted["Position"].apply(
                 lambda x: int(re.search(r"(\d+)", str(x)).group(1)) if re.search(r"(\d+)", str(x)) else 0
             )
             # =====================================================
             # PLOT 2: Histogram — all values
             # =====================================================
             st.markdown("#### 📊 Histogram — All Values")
+            n_bins = st.number_input("Number of bins:", min_value=10, max_value=300, value=80, step=10, key="hist_bins")
             fig2, ax2 = plt.subplots(figsize=(10, 4))
             ax2.hist(melted["Value"].values, bins=n_bins, color="#4F46E5", edgecolor="white", linewidth=0.3)
             ax2.set_xlabel(value_label)
             ax2.set_ylabel("Count")
+            ax2.set_title(f"Raw Values Distribution ({transform_tag})")
+            # Fine x-axis ticks adapted to transform range
+            val_min = melted["Value"].min()
             val_max = melted["Value"].max()
+            val_range = val_max - val_min
+            if val_range <= 2:
+                tick_step = 0.1
+            elif val_range <= 6:
+                tick_step = 0.2
+            elif val_range <= 20:
+                tick_step = 1
             else:
+                tick_step = 5
+            ax2.set_xticks(np.arange(np.floor(val_min / tick_step) * tick_step,
+                                     val_max + tick_step, tick_step))
             ax2.tick_params(axis='x', labelsize=8, rotation=45)
             ax2.grid(axis='y', alpha=0.3)
             fig2.tight_layout()