Spaces:

jordand
/

echo-tts-preview

Running on Zero

App Files Files Community

jordand commited on 6 days ago

Commit

e099082

verified ·

1 Parent(s): b3f53dd

add simple version

Browse files

Files changed (1) hide show

app.py +834 -480

app.py CHANGED Viewed

@@ -538,6 +538,154 @@ def generate_audio(
     )
 # UI Helper Functions
 def load_speaker_metadata(speaker_id):
@@ -1709,512 +1857,718 @@ def init_and_compile():
         # On Zero GPU, don't try to compile
         return session_id, gr.update(), gr.update()
-with gr.Blocks(title="Echo-TTS", css=LINK_CSS, js=JS_CODE) as demo:
-    gr.Markdown("# Echo-TTS")
-    gr.Markdown("*Jordan Darefsky, 2025. See technical details [here](https://jordandarefsky.com/blog/2025/echo/)*")
-    # License notice for Fish Speech autoencoder
-    gr.Markdown("**License Notice:** All audio outputs are subject to non-commercial use [CC-BY-NC-SA-4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/).")
-    # Silentcipher watermarking notice
-    if USE_SILENTCIPHER:
-        gr.Markdown(f"*Audio output is watermarked with [silentcipher](https://github.com/sony/silentcipher) using message `{SILENTCIPHER_MESSAGE}`*")
-    # Instructions for Simple Mode
-    with gr.Accordion("📖 Quick Start Instructions", open=True):
-        gr.Markdown("""
-        ### Simple Mode (Recommended for Beginners)
-        1. **Pick or upload a voice** - Choose from the voicebank or upload your own audio (up to 2 minutes)
-        2. **Choose a text prompt preset or enter your own prompt** - What you want the voice to say (the presets are a good guide for format/style)
-        3. **Select a Sampling preset (optional) ** - The default preset "Independent (High Speaker CFG)" is usually good to start
-        4. **Click Generate Audio** - Wait for the model to generate your audio
-        <div class="tip-box">
-        💡 **Tip:** If the generated voice doesn't match the reference speaker at all, enable "Speaker KV Attention Scaling" and click Generate Audio again.
-        </div>
-        ### Advanced Mode
-        Switch to Advanced mode for full control over all generation parameters including CFG scales, sampling steps, truncation, and more.
-        ### Other tips
-        High CFG settings are recommended but may lead to oversaturation; APG might help with this. Flat settings tend to reduce "impulse" artifacts but might result in worse (blunted/compressed/artifact-y) laughter, breathing, etc. generation.
-        Echo will try to fit the entire text-prompt into (<=) 30 seconds of audio. If your prompt is very long, the generated speech may be too quick (this is not an issue for shorter text-prompts). For disfluent, single-speaker speech, we recommend trying the reference text beginning with "[S1] ... explore how we can design" as a starting point.
-        """)
-    # Session state for per-user file management
     session_id_state = gr.State(None)
-    # Hidden state variables to store paths and selection
-    selected_speaker_state = gr.Textbox(visible=False, value="")
-    speaker_st_path_state = gr.Textbox(visible=False, value="")
-    speaker_audio_path_state = gr.Textbox(visible=False, value="")
-    gr.Markdown("# Voice Selection")
-    # Dataset selector
-    dataset_selector = gr.Radio(
-        choices=["Custom Audio Panel", "EARS", "VCTK", "Expresso", "HF-Custom"],
-        value="Custom Audio Panel",
-        label="Select Dataset",
-        info="Choose which voicebank to use"
-    )
-    dataset_license_info = gr.Markdown(
-        "",
-        visible=False
-    )
-    # Custom Audio Panel UI (visible by default, takes full width)
-    with gr.Row(visible=True) as custom_audio_row:
-        # Optional: Audio prompt library table (only shown if AUDIO_PROMPT_FOLDER is configured)
-        if AUDIO_PROMPT_FOLDER is not None and AUDIO_PROMPT_FOLDER.exists():
-            with gr.Column(scale=1, min_width=200):
-                gr.Markdown("#### Audio Library (favorite examples from voicebank datasets)")
-                audio_prompt_table = gr.Dataframe(
-                    value=get_audio_prompt_files(),
-                    headers=["Filename"],
-                    datatype=["str"],
-                    row_count=(10, "dynamic"),
-                    col_count=(1, "fixed"),
                     interactive=False,
-                    label="Click to select (or upload your own audio file directly on the right)"
                 )
-        with gr.Column(scale=2):
-            custom_audio_input = gr.Audio(
-                sources=["upload", "microphone"],
-                type="filepath",
-                label="Speaker Reference Audio (only first two minutes will be used; leave empty for zero speaker conditioning)",
-                max_length=600  # Maximum duration in seconds (10 minutes)
-            )
-    with gr.Row(visible=False) as voicebank_row:
-        # Voice selection UI for all voicebank datasets
-        # EARS UI (visible by default when voicebank_row is shown)
-        with gr.Column(scale=2, visible=True) as ears_column:
-            gr.Markdown("### 1. Speakers (EARS)")
-            selected_speaker_display = gr.Textbox(
-                value="",
-                label="",
-                show_label=False,
-                interactive=False,
-                visible=False,
-                lines=2,
-                max_lines=2
-            )
-            speaker_search = gr.Textbox(
-                placeholder="Search speakers (by ID, gender, age, ethnicity, language)...",
-                label="",
-                show_label=False,
-                container=False
-            )
-            speakers_table = gr.Dataframe(
-                value=get_speakers_table(),
-                headers=["ID", "G", "Age", "Ethnicity", "Native Lang"],
-                datatype=["str", "str", "str", "str", "str"],
-                row_count=(8, "dynamic"),
-                col_count=(5, "fixed"),
-                interactive=False,
-                label="Click any cell to select",
-                column_widths=["10%", "8%", "15%", "30%", "37%"]
-            )
-        # VCTK UI (hidden by default)
-        with gr.Column(scale=2, visible=False) as vctk_column:
-            gr.Markdown("### 1. Speakers (VCTK)")
-            vctk_speaker_display = gr.Textbox(
-                value="",
-                label="",
-                show_label=False,
-                interactive=False,
-                visible=False,
-                lines=2,
-                max_lines=2
-            )
-            vctk_speaker_search = gr.Textbox(
-                placeholder="Search speakers (by ID, gender, age, details)...",
-                label="",
-                show_label=False,
-                container=False
-            )
-            vctk_speakers_table = gr.Dataframe(
-                value=get_vctk_speakers_table(),
-                headers=["ID", "G", "Age", "Details", "Length"],
-                datatype=["str", "str", "str", "str", "str"],
-                row_count=(8, "dynamic"),
-                col_count=(5, "fixed"),
-                interactive=False,
-                label="Click any cell to select",
-                column_widths=["10%", "8%", "12%", "50%", "20%"]
-            )
-        # Expresso UI (hidden by default)
-        with gr.Column(scale=2, visible=False) as expresso_column:
-            gr.Markdown("### 1. Voices (Expresso)")
-            expresso_speaker_display = gr.Textbox(
-                value="",
-                label="",
-                show_label=False,
-                interactive=False,
-                visible=False,
-                lines=2,
-                max_lines=2
-            )
-            expresso_speaker_search = gr.Textbox(
-                placeholder="Search voices (by ID, type, speakers, style)...",
-                label="",
-                show_label=False,
-                container=False
-            )
-            expresso_speakers_table = gr.Dataframe(
-                value=get_expresso_speakers_table(),
-                headers=["ID", "Type", "Speakers", "Style", "Length"],
-                datatype=["str", "str", "str", "str", "str"],
-                row_count=(8, "dynamic"),
-                col_count=(5, "fixed"),
-                interactive=False,
-                label="Click any cell to select",
-                column_widths=["35%", "15%", "15%", "15%", "20%"]
-            )
-        # HF-Custom UI (hidden by default)
-        with gr.Column(scale=2, visible=False) as hf_custom_column:
-            gr.Markdown("### 1. Voices (HF-Custom)")
-            hf_custom_speaker_display = gr.Textbox(
-                value="",
-                label="",
-                show_label=False,
-                interactive=False,
-                visible=False,
-                lines=2,
-                max_lines=2
-            )
-            hf_custom_speaker_search = gr.Textbox(
-                placeholder="Search voices (by name, dataset, description)...",
-                label="",
-                show_label=False,
-                container=False
-            )
-            hf_custom_speakers_table = gr.Dataframe(
-                value=get_hf_custom_speakers_table(),
-                headers=["Name", "Dataset", "Description", "Length"],
-                datatype=["str", "str", "str", "str"],
-                row_count=(8, "dynamic"),
-                col_count=(4, "fixed"),
-                interactive=False,
-                label="Click any cell to select",
-                column_widths=["15%", "15%", "50%", "20%"]
-            )
-        with gr.Column(scale=1, visible=True) as voice_type_column:
-            gr.Markdown("### 2. Voice Type")
-            selected_voice_display = gr.Textbox(
-                value="",
-                label="",
-                show_label=False,
-                interactive=False,
-                visible=False,
-                lines=2,
-                max_lines=2
-            )
-            freeform_table = gr.Dataframe(
-                value=[],
-                headers=["Type", "Length"],
-                datatype=["str", "str"],
-                row_count=(1, "fixed"),
-                col_count=(2, "fixed"),
-                interactive=False,
-                label="Freeform voice",
-                visible=True,
-                column_widths=["60%", "40%"]
-            )
-            gr.Markdown("**Emotions:**")
-            emotions_table = gr.Dataframe(
-                value=[],
-                headers=["Emotion", "Length"],
-                datatype=["str", "str"],
-                row_count=(8, "dynamic"),
-                col_count=(2, "fixed"),
-                interactive=False,
-                visible=True,
-                column_widths=["60%", "40%"]
-            )
-        with gr.Column(scale=1):
-            gr.Markdown("### 3. Audio Preview")
-            audio_preview = gr.Audio(label="Voice Sample", type="filepath", interactive=False)
-    gr.HTML('<hr class="section-separator">')
-    gr.Markdown("# Text Prompt")
-    with gr.Accordion("Text Presets", open=True):
-        text_presets_table = gr.Dataframe(
-            value=load_text_presets(),
-            headers=["Category", "Words", "Preset Text"],
-            datatype=["str", "str", "str"],
-            row_count=(3, "dynamic"),
-            col_count=(3, "fixed"),
-            interactive=False,
-            column_widths=["12%", "6%", "82%"]
-        )
-    text_prompt = gr.Textbox(
-        label="Text Prompt",
-        placeholder="[S1] Enter your text prompt here...",
-        lines=4
-    )
-    gr.HTML('<hr class="section-separator">')
-    gr.Markdown("# Generation")
-    # Mode selector: Simple or Advanced (outside the accordion, centered and prominent)
-    with gr.Row():
-        with gr.Column(scale=1):
-            pass  # Empty column for spacing
-        with gr.Column(scale=2):
-            mode_selector = gr.Radio(
-                choices=["Simple Mode", "Advanced Mode"],
-                value="Simple Mode",
-                label="",
-                info=None,
-                elem_id="component-mode-selector"
-            )
-        with gr.Column(scale=1):
-            pass  # Empty column for spacing
-    with gr.Accordion("⚙️ Generation Parameters", open=True):
-        with gr.Row():
-            presets = load_sampler_presets()
-            preset_keys = list(presets.keys())
-            first_preset = preset_keys[0] if preset_keys else "Custom"
-            preset_dropdown = gr.Dropdown(
-                choices=["Custom"] + preset_keys,
-                value=first_preset,  # Default to first preset instead of Custom
-                label="Sampler Preset",
-                info="Load preset configurations",
-                scale=2
             )
-            rng_seed = gr.Number(
-                label="RNG Seed",
-                value=0,
-                info="Random seed for starting noise",
-                precision=0,
-                scale=1
             )
-            # Simple mode: Speaker KV checkbox on same row (visible by default)
-            with gr.Column(scale=1, visible=True) as simple_mode_row:
-                speaker_kv_simple_checkbox = gr.Checkbox(
-                    label="\"Force Speaker\" (Enable Speaker KV Attention Scaling)",
-                    value=False,
-                    info="Enable if generation does not match reference voice (otherwise leave off)"
-                )
-            # Advanced mode: Compile and custom shapes checkboxes (hidden by default)
-            with gr.Column(scale=1, visible=False) as advanced_mode_compile_column:
-                compile_checkbox = gr.Checkbox(
-                    label="Compile Model",
-                    value=True,  # Default to True in simple mode
-                    interactive=not IS_ZEROGPU,
-                    info="Compile disabled on Zero GPU" if IS_ZEROGPU else "~20-30% faster after initial compilation"
-                )
-                compile_status = gr.Markdown(
-                    value="⚠️ Compile disabled on Zero GPU" if IS_ZEROGPU else "",
-                    visible=IS_ZEROGPU
-                )
-                use_custom_shapes_checkbox = gr.Checkbox(
-                    label="Use Custom Shapes (Advanced)",
-                    value=False,
-                    info="Override default sequence lengths for text, speaker, and sample"
-                )
-        # Advanced mode controls (hidden by default)
-        with gr.Column(visible=False) as advanced_mode_column:
-            with gr.Row(visible=False) as custom_shapes_row:
-                max_text_byte_length = gr.Textbox(
-                    label="Max Text Byte Length (padded)",
-                    value="768",
-                    info="Maximum text utf-8 byte sequence length (blank -> no padding)",
-                    scale=1
-                )
-                max_speaker_latent_length = gr.Textbox(
-                    label="Max Speaker Latent Length (padded)",
-                    value="2560",
-                    info="Maximum (unpatched)speaker latent length (blank -> no padding), default 2560 = ~30s",
-                    scale=1
-                )
-                sample_latent_len = gr.Textbox(
-                    label="Sample Latent Length",
-                    value="640",
-                    info="Maximum sample latent length (EXPERIMENTAL!!! ONLY TRAINED WITH 640 BUT SOMEHOW WORKS WITH < 640 TO GENERATE PREFIXES)",
-                    scale=1
                 )
             with gr.Row():
-                # Left column: Core Sampling Parameters
                 with gr.Column(scale=1):
-                    with gr.Group():
-                        gr.HTML("""
-                        <div class="preset-inline">
-                          <span class="title">Core Sampling Parameters</span><span class="dim">(</span>
-                          <a href="javascript:void(0)" class="preset-link" data-fire="core_default">default</a>
-                          <span class="dim">)</span>
-                        </div>
-                        """)
-                        core_preset_default = gr.Button("", elem_id="core_default", elem_classes=["proxy-btn"])
-                        num_steps = gr.Number(label="Number of Steps", value=40, info="Number of sampling steps (consider 20 - 80) (capped at 80)", precision=0, minimum=1, step=5, maximum=80)
-                        cfg_mode = gr.Radio(
-                            choices=[
-                                "independent",
-                                "apg-independent",
-                                "alternating",
-                                "joint-unconditional"
-                            ],
-                            value="independent",
-                            label="CFG Mode",
-                            info="Independent (3 NFE), Adaptive Projected Guidance (3 NFE, see https://arxiv.org/abs/2410.02416), Alternating (2 NFE), Joint-Unconditional (2 NFE)"
                         )
-                    with gr.Group():
-                        gr.HTML("""
-                        <div class="preset-inline">
-                          <span class="title">CFG Guidance</span><span class="dim">(</span>
-                          <a href="javascript:void(0)" class="preset-link" data-fire="cfg_default">default</a>
-                          <span class="dim">,</span>
-                          <a href="javascript:void(0)" class="preset-link" data-fire="cfg_higher">higher speaker</a>
-                          <span class="dim">,</span>
-                          <a href="javascript:void(0)" class="preset-link" data-fire="cfg_large">large guidances(works with apg)</a>
-                          <span class="dim">)</span>
-                        </div>
-                        """)
-                        cfg_preset_default = gr.Button("", elem_id="cfg_default", elem_classes=["proxy-btn"])
-                        cfg_preset_higher_speaker = gr.Button("", elem_id="cfg_higher", elem_classes=["proxy-btn"])
-                        cfg_preset_large_guidances = gr.Button("", elem_id="cfg_large", elem_classes=["proxy-btn"])
-                        with gr.Row():
-                            cfg_scale_text = gr.Number(label="Text CFG Scale", value=3.0, info="Guidance strength for text", minimum=0, step=0.5)
-                            cfg_scale_speaker = gr.Number(label="Speaker CFG Scale", value=5.0, info="Guidance strength for speaker", minimum=0, step=0.5)
-                        with gr.Row():
-                            cfg_min_t = gr.Number(label="CFG Min t", value=0.5, info="(0-1), CFG applied when t >= val", minimum=0, maximum=1, step=0.05)
-                            cfg_max_t = gr.Number(label="CFG Max t", value=1.0, info="(0-1), CFG applied when t <= val", minimum=0, maximum=1, step=0.05)
-                # Right column: Speaker KV, Truncation + APG
-                with gr.Column(scale=1):
-                    with gr.Group():
-                        gr.HTML("""
-                        <div class="preset-inline">
-                          <span class="title">Speaker KV Attention Scaling</span><span class="dim">(</span>
-                          <a href="javascript:void(0)" class="preset-link" data-fire="spk_kv_enable">enable if generation does not match reference</a>
-                          <span class="dim">,</span>
-                          <a href="javascript:void(0)" class="preset-link" data-fire="spk_kv_off">off</a>
-                          <span class="dim">)</span>
-                        </div>
-                        """)
-                        spk_kv_preset_enable = gr.Button("", elem_id="spk_kv_enable", elem_classes=["proxy-btn"])
-                        spk_kv_preset_off = gr.Button("", elem_id="spk_kv_off", elem_classes=["proxy-btn"])
-                        speaker_k_enable = gr.Checkbox(label="Enable Speaker KV Scaling", value=False, info="Scale speaker attention key-values; useful when the model-generated audio does not at all match the reference audio (i.e. ignores speaker-reference)")
-                        with gr.Row(visible=False) as speaker_k_row:
-                            speaker_k_scale = gr.Number(label="KV Scale", value=1.5, info="Scale factor", minimum=0, step=0.1)
-                            speaker_k_min_t = gr.Number(label="KV Min t", value=0.9, info="(0-1), scale applied from steps t=1. to val", minimum=0, maximum=1, step=0.05)
-                            speaker_k_max_layers = gr.Number(label="Max Layers", value=24, info="(0-24), scale applied in first N layers", precision=0, minimum=0, maximum=24)
-                    with gr.Group():
-                        gr.HTML("""
-                        <div class="preset-inline">
-                          <span class="title">Truncation &amp; Temporal Rescaling</span><span class="dim">(</span>
-                          <a href="javascript:void(0)" class="preset-link" data-fire="trunc_flat">flat</a>
-                          <span class="dim">,</span>
-                          <a href="javascript:void(0)" class="preset-link" data-fire="trunc_sharp">sharp</a>
-                          <span class="dim">,</span>
-                          <a href="javascript:void(0)" class="preset-link" data-fire="trunc_baseline">baseline(sharp)</a>
-                          <span class="dim">)</span>
-                        </div>
-                        """)
-                        trunc_preset_flat = gr.Button("", elem_id="trunc_flat", elem_classes=["proxy-btn"])
-                        trunc_preset_sharp = gr.Button("", elem_id="trunc_sharp", elem_classes=["proxy-btn"])
-                        trunc_preset_baseline = gr.Button("", elem_id="trunc_baseline", elem_classes=["proxy-btn"])
-                        with gr.Row():
-                            truncation_factor = gr.Number(label="Truncation Factor", value=0.8, info="Multiply initial noise (<1 helps artifacts)", minimum=0, step=0.05)
-                            rescale_k = gr.Number(label="Rescale k", value=1.2, info="<1=sharpen, >1=flatten, 1=off", minimum=0, step=0.05)
-                            rescale_sigma = gr.Number(label="Rescale σ", value=3.0, info="Sigma parameter", minimum=0, step=0.1)
-                    with gr.Group(visible=False) as apg_row:
-                        gr.HTML("""
-                        <div class="preset-inline">
-                          <span class="title">APG Parameters</span><span class="dim">(</span>
-                          <a href="javascript:void(0)" class="preset-link" data-fire="apg_default">default</a>
-                          <span class="dim">,</span>
-                          <a href="javascript:void(0)" class="preset-link" data-fire="apg_no_momentum">no momentum</a>
-                          <span class="dim">,</span>
-                          <a href="javascript:void(0)" class="preset-link" data-fire="apg_norms">norms</a>
-                          <span class="dim">,</span>
-                          <a href="javascript:void(0)" class="preset-link" data-fire="apg_no_eta">no eta</a>
-                          <span class="dim">)</span>
-                        </div>
-                        """)
-                        apg_preset_default = gr.Button("", elem_id="apg_default", elem_classes=["proxy-btn"])
-                        apg_preset_no_momentum = gr.Button("", elem_id="apg_no_momentum", elem_classes=["proxy-btn"])
-                        apg_preset_norms = gr.Button("", elem_id="apg_norms", elem_classes=["proxy-btn"])
-                        apg_preset_no_eta = gr.Button("", elem_id="apg_no_eta", elem_classes=["proxy-btn"])
-                        with gr.Row():
-                            apg_eta_text = gr.Number(label="APG η (text)", value=0.5, info="Eta for text projection (0-1, higher -> more like CFG)", minimum=0, maximum=1, step=0.25)
-                            apg_eta_speaker = gr.Number(label="APG η (speaker)", value=0.5, info="Eta for speaker projection (0-1, higher -> more like CFG)", minimum=0, maximum=1, step=0.25)
-                        with gr.Row() as apg_row2:
-                            apg_momentum_text = gr.Number(label="APG Momentum (text)", value=-0.25, info="Text momentum (can try 0., -.25, -0.5, -0.75...)", step=0.25)
-                            apg_momentum_speaker = gr.Number(label="APG Momentum (speaker)", value=-0.25, info="Speaker momentum (can try 0., -.25, -0.5, -0.75...)", step=0.25)
-                        with gr.Row():
-                            apg_norm_text = gr.Textbox(label="APG Norm (text)", value="", info="Text norm clip (leave blank to disable, can try 7.5, 15.0)")
-                            apg_norm_speaker = gr.Textbox(label="APG Norm (speaker)", value="", info="Speaker norm clip (leave blank to disable, can try 7.5, 15.0)")
-            # End of advanced_mode_column
-    with gr.Row(equal_height=True):
-        audio_format = gr.Radio(
-            choices=["wav", "mp3"],
-            value="wav",
-            label="Format",
-            scale=1,
-            min_width=90
-        )
-        generate_btn = gr.Button("Generate Audio", variant="primary", size="lg", scale=10)
-        with gr.Column(scale=1):
-            show_original_audio = gr.Checkbox(
-                label="Re-display original audio (full 2-minute cropped mono)",
-                value=False
-            )
-            reconstruct_first_30_seconds = gr.Checkbox(
-                label="Show Autoencoder Reconstruction (only first 30s of reference)",
-                value=False
-            )
-    gr.HTML('<hr class="section-separator">')
-    with gr.Accordion("Generated Audio", open=True, visible=True) as generated_section:
-        generation_time_display = gr.Markdown("", visible=False)
-        with gr.Group(elem_classes=["generated-audio-player"]):
-            generated_audio = gr.Audio(label="Generated Audio", visible=True)
-        text_prompt_display = gr.Markdown("", visible=False)
-        gr.Markdown("---")
-        reference_audio_header = gr.Markdown("#### Reference Audio", visible=False)
-        with gr.Accordion("Original Audio (2 min Cropped Mono)", open=False, visible=False) as original_accordion:
-            original_audio = gr.Audio(label="Original Reference Audio (2 min)", visible=True)
-        with gr.Accordion("Autoencoder Reconstruction of First 30s of Reference", open=False, visible=False) as reference_accordion:
-            reference_audio = gr.Audio(label="Decoded Reference Audio (30s)", visible=True)
     # Event handlers
     # Custom Audio Panel - handle audio change to update speaker_audio_path_state
     custom_audio_input.change(
         lambda audio: gr.update(value=audio if audio else ""),

     )
+@spaces.GPU
+def generate_audio_simple(
+    text_prompt: str,
+    speaker_audio_path: str,
+    preset_name: str,
+    rng_seed: int,
+    num_steps: int,
+    speaker_kv_enable: bool,
+    speaker_kv_scale: float,
+    session_id: str,
+) -> Tuple[Any, Any]:
+    """Simplified audio generation with preset-based parameters for the Simple View."""
+    # Load models on first use (required for Zero GPU)
+    load_models()
+    # Use compiled model if available, otherwise uncompiled
+    global model, model_compiled
+    active_model = model_compiled if model_compiled is not None else model
+    # Cleanup old temp files
+    cleanup_temp_audio(TEMP_AUDIO_DIR, session_id)
+    # Check if speaker is provided
+    use_zero_speaker = not speaker_audio_path or speaker_audio_path == ""
+    if use_zero_speaker:
+        speaker_audio_path = None
+    start_time = time.time()
+    # Load preset values
+    presets = load_sampler_presets()
+    preset = presets.get(preset_name, {})
+    # Helper to convert string values to float
+    def to_float(val, default):
+        try:
+            return float(val) if val is not None else default
+        except (ValueError, TypeError):
+            return default
+    # Apply preset values (or use defaults)
+    num_steps_int = min(max(int(num_steps), 1), 80)
+    rng_seed_int = int(rng_seed) if rng_seed is not None else 0
+    cfg_scale_text_val = to_float(preset.get("cfg_scale_text"), 3.0)
+    cfg_scale_speaker_val = to_float(preset.get("cfg_scale_speaker"), 8.0)
+    cfg_min_t_val = to_float(preset.get("cfg_min_t"), 0.5)
+    cfg_max_t_val = to_float(preset.get("cfg_max_t"), 1.0)
+    truncation_factor_val = to_float(preset.get("truncation_factor"), 1.0)
+    rescale_k_raw = to_float(preset.get("rescale_k"), 1.0)
+    rescale_k_val = rescale_k_raw if rescale_k_raw != 1.0 else None  # 1.0 means off
+    rescale_sigma_val = to_float(preset.get("rescale_sigma"), 3.0)
+    guidance_mode = GuidanceMode.INDEPENDENT  # Simple view always uses independent
+    # Speaker KV parameters (user override takes precedence)
+    if speaker_kv_enable:
+        speaker_k_scale_val = float(speaker_kv_scale) if speaker_kv_scale else 1.5
+        speaker_k_min_t_val = 0.9
+        speaker_k_max_layers_val = 24
+    else:
+        speaker_k_scale_val = None
+        speaker_k_min_t_val = None
+        speaker_k_max_layers_val = None
+    # Default shapes
+    pad_to_max_text_seq_len = 768
+    pad_to_max_speaker_latent_len = 2560
+    sample_latent_len_val = 640
+    # Create sample function with parameters
+    sample_fn = partial(
+        sample_euler_cfg_any,
+        num_steps=num_steps_int,
+        guidance_mode=guidance_mode,
+        cfg_scale_text=cfg_scale_text_val,
+        cfg_scale_speaker=cfg_scale_speaker_val,
+        cfg_min_t=cfg_min_t_val,
+        cfg_max_t=cfg_max_t_val,
+        truncation_factor=truncation_factor_val,
+        rescale_k=rescale_k_val,
+        rescale_sigma=rescale_sigma_val,
+        speaker_k_scale=speaker_k_scale_val,
+        speaker_k_min_t=speaker_k_min_t_val,
+        speaker_k_max_layers=speaker_k_max_layers_val,
+        apg_eta_text=None,
+        apg_eta_speaker=None,
+        apg_momentum_text=None,
+        apg_momentum_speaker=None,
+        apg_norm_text=None,
+        apg_norm_speaker=None,
+        block_size=sample_latent_len_val
+    )
+    # Load speaker audio if provided
+    if speaker_audio_path is not None:
+        speaker_audio = load_audio(speaker_audio_path).cuda()
+    else:
+        speaker_audio = None
+    # Generate audio
+    audio_out = sample_pipeline(
+        model=active_model,
+        fish_ae=fish_ae,
+        pca_state=pca_state,
+        sample_fn=sample_fn,
+        text_prompt=text_prompt,
+        speaker_audio=speaker_audio,
+        rng_seed=rng_seed_int,
+        pad_to_max_text_seq_len=pad_to_max_text_seq_len,
+        pad_to_max_speaker_latent_len=pad_to_max_speaker_latent_len,
+    )
+    # Apply silentcipher watermarking if enabled
+    audio_to_save = audio_out[0].cpu()
+    if USE_SILENTCIPHER and silentcipher_model is not None:
+        try:
+            audio_numpy = audio_to_save.squeeze(0).numpy()
+            encoded_audio, sdr = silentcipher_model.encode_wav(
+                audio_numpy,
+                44100,
+                SILENTCIPHER_MESSAGE,
+                message_sdr=SILENTCIPHER_SDR
+            )
+            audio_to_save = torch.tensor(encoded_audio).unsqueeze(0)
+        except Exception as e:
+            print(f"Warning: Watermarking failed: {e}")
+            print("Saving audio without watermark...")
+    # Save generated audio as WAV (unique filename per session)
+    stem = make_stem("generated_simple", session_id)
+    output_path = save_audio_with_format(
+        audio_to_save,
+        TEMP_AUDIO_DIR,
+        stem,
+        44100,
+        "wav"
+    )
+    # Calculate generation time
+    generation_time = time.time() - start_time
+    time_str = f"⏱️ Generated in {generation_time:.1f}s"
+    return (
+        gr.update(value=str(output_path), visible=True),
+        gr.update(value=time_str, visible=True)
+    )
 # UI Helper Functions
 def load_speaker_metadata(speaker_id):
         # On Zero GPU, don't try to compile
         return session_id, gr.update(), gr.update()
+SIMPLE_CSS = """
+.simple-container {
+    max-width: 1200px;
+    margin: 0 auto;
+}
+.simple-generate-btn {
+    font-size: 1.2rem !important;
+    padding: 1rem 2rem !important;
+}
+.simple-output-container {
+    min-height: 200px;
+    display: flex;
+    flex-direction: column;
+    justify-content: center;
+}
+"""
+with gr.Blocks(title="Echo-TTS", css=LINK_CSS + SIMPLE_CSS, js=JS_CODE) as demo:
+    gr.Markdown("# Echo-TTS")
+    gr.Markdown("*Jordan Darefsky, 2025. See technical details [here](https://jordandarefsky.com/blog/2025/echo/). All audio outputs are subject to non-commercial use [CC-BY-NC-SA-4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/).*")
+    # Session state for per-user file management (shared between tabs)
     session_id_state = gr.State(None)
+    # ==================== TABS ====================
+    with gr.Tabs() as main_tabs:
+        # ==================== SIMPLE VIEW TAB ====================
+        with gr.TabItem("🎯 Simple", id="simple_tab"):
+            gr.Markdown("Upload a voice reference (or select a voice from the library), enter text (or select a text preset), and generate!")
+            gr.Markdown("Generate up to 30 seconds of audio. *If the generated voice does not match the reference speaker, enable Speaker KV in the Generation Parameters section.*")
+            with gr.Row():
+                # LEFT: Inputs
+                with gr.Column(scale=1):
+                    # Voice section - dropdown above audio
+                    with gr.Group():
+                        simple_audio_preset = gr.Dropdown(
+                            choices=["(upload your own or select from dropdown)"] + [f[0] for f in get_audio_prompt_files()],
+                            value="(upload your own or select from dropdown)",
+                            label="Voice",
+                            container=False
+                        )
+                        simple_audio_input = gr.Audio(
+                            sources=["upload", "microphone"],
+                            type="filepath",
+                            label=None,
+                            max_length=600
+                        )
+                    gr.Markdown("---")
+                    # Text input
+                    simple_text_prompt = gr.Textbox(
+                        label="Text",
+                        info="Enter the text you want the voice to say... or select a text preset below.",
+                        value="[S1] One of the cool things about Echo is that it can generate speech that sounds, I don't know, more human maybe? Like, uh, it can actually generate pretty natural disfluencies, well, at least some of the time. Like if you run it for a few different random seeds, a few different settings, there's uh, there's a decent chance that one of them will actually be pretty good. I mean, it's not perfect, obviously,",
+                        lines=4
+                    )
+                # RIGHT: Generate + Output
+                with gr.Column(scale=1):
+                    # Generation parameters accordion
+                    with gr.Accordion("⚙️ Generation Parameters (optional)", open=True):
+                        # Only show independent mode presets in simple view
+                        simple_presets = {k: v for k, v in load_sampler_presets().items() if v.get("cfg_mode") == "independent"}
+                        with gr.Row():
+                            simple_preset = gr.Dropdown(
+                                choices=list(simple_presets.keys()),
+                                value=list(simple_presets.keys())[0] if simple_presets else None,
+                                label="Preset",
+                                scale=3,
+                                interactive=True
+                            )
+                            simple_rng_seed = gr.Number(
+                                label="Seed",
+                                value=0,
+                                precision=0,
+                                scale=1,
+                                min_width=60
+                            )
+                            simple_num_steps = gr.Number(
+                                label="Steps",
+                                value=40,
+                                precision=0,
+                                minimum=5,
+                                maximum=80,
+                                step=5,
+                                scale=1,
+                                min_width=60
+                            )
+                        with gr.Row():
+                            simple_speaker_kv_enable = gr.Checkbox(
+                                label="Enable Speaker KV",
+                                info="Check this if the generated voice does NOT match the reference speaker",
+                                value=False,
+                                scale=1
+                            )
+                            simple_speaker_kv_scale = gr.Number(
+                                label="KV Scale",
+                                info="(Try 1.5, 1.3, ..., 1.1)",
+                                value=1.5,
+                                step=0.1,
+                                visible=False,
+                                scale=1
+                            )
+                    simple_generate_btn = gr.Button(
+                        "🎙️ Generate Audio",
+                        variant="primary",
+                        size="lg"
+                    )
+                    simple_time_display = gr.Markdown("", visible=False)
+                    simple_generated_audio = gr.Audio(
+                        label="Generated Audio",
+                        visible=True,
+                        interactive=False
+                    )
+            # Text presets - full width below
+            with gr.Accordion("📝 Text Presets", open=False):
+                simple_text_presets_table = gr.Dataframe(
+                    value=load_text_presets(),
+                    headers=["Category", "Words", "Text"],
+                    datatype=["str", "str", "str"],
+                    row_count=(4, "fixed"),
+                    col_count=(3, "fixed"),
                     interactive=False,
+                    column_widths=["10%", "6%", "84%"],
+                    wrap=True
                 )
+            gr.Markdown("---")
+            gr.Markdown("*💡 For more control over generation parameters, switch to the **Advanced** tab.*")
+        # ==================== ADVANCED VIEW TAB ====================
+        with gr.TabItem("⚙️ Advanced", id="advanced_tab"):
+            # Instructions for Simple Mode
+            with gr.Accordion("📖 Quick Start Instructions", open=False):
+                gr.Markdown("""
+                ### Simple Mode (Recommended for Beginners)
+                1. **Pick or upload a voice** - Choose from the voicebank or upload your own audio (up to 2 minutes)
+                2. **Choose a text prompt preset or enter your own prompt** - What you want the voice to say (the presets are a good guide for format/style)
+                3. **Select a Sampling preset (optional) ** - The default preset "Independent (High Speaker CFG)" is usually good to start
+                4. **Click Generate Audio** - Wait for the model to generate your audio
+                <div class="tip-box">
+                💡 **Tip:** If the generated voice doesn't match the reference speaker at all, enable "Speaker KV Attention Scaling" and click Generate Audio again.
+                </div>
+                ### Advanced Mode
+                Switch to Advanced mode for full control over all generation parameters including CFG scales, sampling steps, truncation, and more.
+                ### Other tips
+                High CFG settings are recommended but may lead to oversaturation; APG might help with this. Flat settings tend to reduce "impulse" artifacts but might result in worse (blunted/compressed/artifact-y) laughter, breathing, etc. generation.
+                Echo will try to fit the entire text-prompt into (<=) 30 seconds of audio. If your prompt is very long, the generated speech may be too quick (this is not an issue for shorter text-prompts). For disfluent, single-speaker speech, we recommend trying the reference text beginning with "[S1] ... explore how we can design" as a starting point.
+                """)
+            # Hidden state variables to store paths and selection
+            selected_speaker_state = gr.Textbox(visible=False, value="")
+            speaker_st_path_state = gr.Textbox(visible=False, value="")
+            speaker_audio_path_state = gr.Textbox(visible=False, value="")
+            gr.Markdown("# Voice Selection")
+            # Dataset selector
+            dataset_selector = gr.Radio(
+                choices=["Custom Audio Panel", "EARS", "VCTK", "Expresso", "HF-Custom"],
+                value="Custom Audio Panel",
+                label="Select Dataset",
+                info="Choose which voicebank to use"
             )
+            dataset_license_info = gr.Markdown(
+                "",
+                visible=False
             )
+            # Custom Audio Panel UI (visible by default, takes full width)
+            with gr.Row(visible=True) as custom_audio_row:
+                # Optional: Audio prompt library table (only shown if AUDIO_PROMPT_FOLDER is configured)
+                if AUDIO_PROMPT_FOLDER is not None and AUDIO_PROMPT_FOLDER.exists():
+                    with gr.Column(scale=1, min_width=200):
+                        gr.Markdown("#### Audio Library (favorite examples from voicebank datasets)")
+                        audio_prompt_table = gr.Dataframe(
+                            value=get_audio_prompt_files(),
+                            headers=["Filename"],
+                            datatype=["str"],
+                            row_count=(10, "dynamic"),
+                            col_count=(1, "fixed"),
+                            interactive=False,
+                            label="Click to select (or upload your own audio file directly on the right)"
+                        )
+                with gr.Column(scale=2):
+                    custom_audio_input = gr.Audio(
+                        sources=["upload", "microphone"],
+                        type="filepath",
+                        label="Speaker Reference Audio (only first two minutes will be used; leave empty for zero speaker conditioning)",
+                        max_length=600  # Maximum duration in seconds (10 minutes)
+                    )
+            with gr.Row(visible=False) as voicebank_row:
+                # Voice selection UI for all voicebank datasets
+                # EARS UI (visible by default when voicebank_row is shown)
+                with gr.Column(scale=2, visible=True) as ears_column:
+                    gr.Markdown("### 1. Speakers (EARS)")
+                    selected_speaker_display = gr.Textbox(
+                        value="",
+                        label="",
+                        show_label=False,
+                        interactive=False,
+                        visible=False,
+                        lines=2,
+                        max_lines=2
+                    )
+                    speaker_search = gr.Textbox(
+                        placeholder="Search speakers (by ID, gender, age, ethnicity, language)...",
+                        label="",
+                        show_label=False,
+                        container=False
+                    )
+                    speakers_table = gr.Dataframe(
+                        value=get_speakers_table(),
+                        headers=["ID", "G", "Age", "Ethnicity", "Native Lang"],
+                        datatype=["str", "str", "str", "str", "str"],
+                        row_count=(8, "dynamic"),
+                        col_count=(5, "fixed"),
+                        interactive=False,
+                        label="Click any cell to select",
+                        column_widths=["10%", "8%", "15%", "30%", "37%"]
+                    )
+                # VCTK UI (hidden by default)
+                with gr.Column(scale=2, visible=False) as vctk_column:
+                    gr.Markdown("### 1. Speakers (VCTK)")
+                    vctk_speaker_display = gr.Textbox(
+                        value="",
+                        label="",
+                        show_label=False,
+                        interactive=False,
+                        visible=False,
+                        lines=2,
+                        max_lines=2
+                    )
+                    vctk_speaker_search = gr.Textbox(
+                        placeholder="Search speakers (by ID, gender, age, details)...",
+                        label="",
+                        show_label=False,
+                        container=False
+                    )
+                    vctk_speakers_table = gr.Dataframe(
+                        value=get_vctk_speakers_table(),
+                        headers=["ID", "G", "Age", "Details", "Length"],
+                        datatype=["str", "str", "str", "str", "str"],
+                        row_count=(8, "dynamic"),
+                        col_count=(5, "fixed"),
+                        interactive=False,
+                        label="Click any cell to select",
+                        column_widths=["10%", "8%", "12%", "50%", "20%"]
+                    )
+                # Expresso UI (hidden by default)
+                with gr.Column(scale=2, visible=False) as expresso_column:
+                    gr.Markdown("### 1. Voices (Expresso)")
+                    expresso_speaker_display = gr.Textbox(
+                        value="",
+                        label="",
+                        show_label=False,
+                        interactive=False,
+                        visible=False,
+                        lines=2,
+                        max_lines=2
+                    )
+                    expresso_speaker_search = gr.Textbox(
+                        placeholder="Search voices (by ID, type, speakers, style)...",
+                        label="",
+                        show_label=False,
+                        container=False
+                    )
+                    expresso_speakers_table = gr.Dataframe(
+                        value=get_expresso_speakers_table(),
+                        headers=["ID", "Type", "Speakers", "Style", "Length"],
+                        datatype=["str", "str", "str", "str", "str"],
+                        row_count=(8, "dynamic"),
+                        col_count=(5, "fixed"),
+                        interactive=False,
+                        label="Click any cell to select",
+                        column_widths=["35%", "15%", "15%", "15%", "20%"]
+                    )
+                # HF-Custom UI (hidden by default)
+                with gr.Column(scale=2, visible=False) as hf_custom_column:
+                    gr.Markdown("### 1. Voices (HF-Custom)")
+                    hf_custom_speaker_display = gr.Textbox(
+                        value="",
+                        label="",
+                        show_label=False,
+                        interactive=False,
+                        visible=False,
+                        lines=2,
+                        max_lines=2
+                    )
+                    hf_custom_speaker_search = gr.Textbox(
+                        placeholder="Search voices (by name, dataset, description)...",
+                        label="",
+                        show_label=False,
+                        container=False
+                    )
+                    hf_custom_speakers_table = gr.Dataframe(
+                        value=get_hf_custom_speakers_table(),
+                        headers=["Name", "Dataset", "Description", "Length"],
+                        datatype=["str", "str", "str", "str"],
+                        row_count=(8, "dynamic"),
+                        col_count=(4, "fixed"),
+                        interactive=False,
+                        label="Click any cell to select",
+                        column_widths=["15%", "15%", "50%", "20%"]
+                    )
+                with gr.Column(scale=1, visible=True) as voice_type_column:
+                    gr.Markdown("### 2. Voice Type")
+                    selected_voice_display = gr.Textbox(
+                        value="",
+                        label="",
+                        show_label=False,
+                        interactive=False,
+                        visible=False,
+                        lines=2,
+                        max_lines=2
+                    )
+                    freeform_table = gr.Dataframe(
+                        value=[],
+                        headers=["Type", "Length"],
+                        datatype=["str", "str"],
+                        row_count=(1, "fixed"),
+                        col_count=(2, "fixed"),
+                        interactive=False,
+                        label="Freeform voice",
+                        visible=True,
+                        column_widths=["60%", "40%"]
+                    )
+                    gr.Markdown("**Emotions:**")
+                    emotions_table = gr.Dataframe(
+                        value=[],
+                        headers=["Emotion", "Length"],
+                        datatype=["str", "str"],
+                        row_count=(8, "dynamic"),
+                        col_count=(2, "fixed"),
+                        interactive=False,
+                        visible=True,
+                        column_widths=["60%", "40%"]
+                    )
+                with gr.Column(scale=1):
+                    gr.Markdown("### 3. Audio Preview")
+                    audio_preview = gr.Audio(label="Voice Sample", type="filepath", interactive=False)
+            gr.HTML('<hr class="section-separator">')
+            gr.Markdown("# Text Prompt")
+            with gr.Accordion("Text Presets", open=True):
+                text_presets_table = gr.Dataframe(
+                    value=load_text_presets(),
+                    headers=["Category", "Words", "Preset Text"],
+                    datatype=["str", "str", "str"],
+                    row_count=(3, "dynamic"),
+                    col_count=(3, "fixed"),
+                    interactive=False,
+                    column_widths=["12%", "6%", "82%"]
                 )
+            text_prompt = gr.Textbox(
+                label="Text Prompt",
+                placeholder="[S1] Enter your text prompt here...",
+                lines=4
+            )
+            gr.HTML('<hr class="section-separator">')
+            gr.Markdown("# Generation")
+            # Mode selector: Simple or Advanced (outside the accordion, centered and prominent)
             with gr.Row():
                 with gr.Column(scale=1):
+                    pass  # Empty column for spacing
+                with gr.Column(scale=2):
+                    mode_selector = gr.Radio(
+                        choices=["Simple Mode", "Advanced Mode"],
+                        value="Simple Mode",
+                        label="",
+                        info=None,
+                        elem_id="component-mode-selector"
+                    )
+                with gr.Column(scale=1):
+                    pass  # Empty column for spacing
+            with gr.Accordion("⚙️ Generation Parameters", open=True):
+                with gr.Row():
+                    presets = load_sampler_presets()
+                    preset_keys = list(presets.keys())
+                    first_preset = preset_keys[0] if preset_keys else "Custom"
+                    preset_dropdown = gr.Dropdown(
+                        choices=["Custom"] + preset_keys,
+                        value=first_preset,  # Default to first preset instead of Custom
+                        label="Sampler Preset",
+                        info="Load preset configurations",
+                        scale=2
+                    )
+                    rng_seed = gr.Number(
+                        label="RNG Seed",
+                        value=0,
+                        info="Random seed for starting noise",
+                        precision=0,
+                        scale=1
+                    )
+                    # Simple mode: Speaker KV checkbox on same row (visible by default)
+                    with gr.Column(scale=1, visible=True) as simple_mode_row:
+                        speaker_kv_simple_checkbox = gr.Checkbox(
+                            label="\"Force Speaker\" (Enable Speaker KV Attention Scaling)",
+                            value=False,
+                            info="Enable if generation does not match reference voice (otherwise leave off)"
                         )
+                    # Advanced mode: Compile and custom shapes checkboxes (hidden by default)
+                    with gr.Column(scale=1, visible=False) as advanced_mode_compile_column:
+                        compile_checkbox = gr.Checkbox(
+                            label="Compile Model",
+                            value=True,  # Default to True in simple mode
+                            interactive=not IS_ZEROGPU,
+                            info="Compile disabled on Zero GPU" if IS_ZEROGPU else "~20-30% faster after initial compilation"
+                        )
+                        compile_status = gr.Markdown(
+                            value="⚠️ Compile disabled on Zero GPU" if IS_ZEROGPU else "",
+                            visible=IS_ZEROGPU
+                        )
+                        use_custom_shapes_checkbox = gr.Checkbox(
+                            label="Use Custom Shapes (Advanced)",
+                            value=False,
+                            info="Override default sequence lengths for text, speaker, and sample"
+                        )
+                # Advanced mode controls (hidden by default)
+                with gr.Column(visible=False) as advanced_mode_column:
+                    with gr.Row(visible=False) as custom_shapes_row:
+                        max_text_byte_length = gr.Textbox(
+                            label="Max Text Byte Length (padded)",
+                            value="768",
+                            info="Maximum text utf-8 byte sequence length (blank -> no padding)",
+                            scale=1
+                        )
+                        max_speaker_latent_length = gr.Textbox(
+                            label="Max Speaker Latent Length (padded)",
+                            value="2560",
+                            info="Maximum (unpatched)speaker latent length (blank -> no padding), default 2560 = ~30s",
+                            scale=1
+                        )
+                        sample_latent_len = gr.Textbox(
+                            label="Sample Latent Length",
+                            value="640",
+                            info="Maximum sample latent length (EXPERIMENTAL!!! ONLY TRAINED WITH 640 BUT SOMEHOW WORKS WITH < 640 TO GENERATE PREFIXES)",
+                            scale=1
+                        )
+                    with gr.Row():
+                        # Left column: Core Sampling Parameters
+                        with gr.Column(scale=1):
+                            with gr.Group():
+                                gr.HTML("""
+                                <div class="preset-inline">
+                                  <span class="title">Core Sampling Parameters</span><span class="dim">(</span>
+                                  <a href="javascript:void(0)" class="preset-link" data-fire="core_default">default</a>
+                                  <span class="dim">)</span>
+                                </div>
+                                """)
+                                core_preset_default = gr.Button("", elem_id="core_default", elem_classes=["proxy-btn"])
+                                num_steps = gr.Number(label="Number of Steps", value=40, info="Number of sampling steps (consider 20 - 80) (capped at 80)", precision=0, minimum=1, step=5, maximum=80)
+                                cfg_mode = gr.Radio(
+                                    choices=[
+                                        "independent",
+                                        "apg-independent",
+                                        "alternating",
+                                        "joint-unconditional"
+                                    ],
+                                    value="independent",
+                                    label="CFG Mode",
+                                    info="Independent (3 NFE), Adaptive Projected Guidance (3 NFE, see https://arxiv.org/abs/2410.02416), Alternating (2 NFE), Joint-Unconditional (2 NFE)"
+                                )
+                            with gr.Group():
+                                gr.HTML("""
+                                <div class="preset-inline">
+                                  <span class="title">CFG Guidance</span><span class="dim">(</span>
+                                  <a href="javascript:void(0)" class="preset-link" data-fire="cfg_default">default</a>
+                                  <span class="dim">,</span>
+                                  <a href="javascript:void(0)" class="preset-link" data-fire="cfg_higher">higher speaker</a>
+                                  <span class="dim">,</span>
+                                  <a href="javascript:void(0)" class="preset-link" data-fire="cfg_large">large guidances(works with apg)</a>
+                                  <span class="dim">)</span>
+                                </div>
+                                """)
+                                cfg_preset_default = gr.Button("", elem_id="cfg_default", elem_classes=["proxy-btn"])
+                                cfg_preset_higher_speaker = gr.Button("", elem_id="cfg_higher", elem_classes=["proxy-btn"])
+                                cfg_preset_large_guidances = gr.Button("", elem_id="cfg_large", elem_classes=["proxy-btn"])
+                                with gr.Row():
+                                    cfg_scale_text = gr.Number(label="Text CFG Scale", value=3.0, info="Guidance strength for text", minimum=0, step=0.5)
+                                    cfg_scale_speaker = gr.Number(label="Speaker CFG Scale", value=5.0, info="Guidance strength for speaker", minimum=0, step=0.5)
+                                with gr.Row():
+                                    cfg_min_t = gr.Number(label="CFG Min t", value=0.5, info="(0-1), CFG applied when t >= val", minimum=0, maximum=1, step=0.05)
+                                    cfg_max_t = gr.Number(label="CFG Max t", value=1.0, info="(0-1), CFG applied when t <= val", minimum=0, maximum=1, step=0.05)
+                        # Right column: Speaker KV, Truncation + APG
+                        with gr.Column(scale=1):
+                            with gr.Group():
+                                gr.HTML("""
+                                <div class="preset-inline">
+                                  <span class="title">Speaker KV Attention Scaling</span><span class="dim">(</span>
+                                  <a href="javascript:void(0)" class="preset-link" data-fire="spk_kv_enable">enable if generation does not match reference</a>
+                                  <span class="dim">,</span>
+                                  <a href="javascript:void(0)" class="preset-link" data-fire="spk_kv_off">off</a>
+                                  <span class="dim">)</span>
+                                </div>
+                                """)
+                                spk_kv_preset_enable = gr.Button("", elem_id="spk_kv_enable", elem_classes=["proxy-btn"])
+                                spk_kv_preset_off = gr.Button("", elem_id="spk_kv_off", elem_classes=["proxy-btn"])
+                                speaker_k_enable = gr.Checkbox(label="Enable Speaker KV Scaling", value=False, info="Scale speaker attention key-values; useful when the model-generated audio does not at all match the reference audio (i.e. ignores speaker-reference)")
+                                with gr.Row(visible=False) as speaker_k_row:
+                                    speaker_k_scale = gr.Number(label="KV Scale", value=1.5, info="Scale factor", minimum=0, step=0.1)
+                                    speaker_k_min_t = gr.Number(label="KV Min t", value=0.9, info="(0-1), scale applied from steps t=1. to val", minimum=0, maximum=1, step=0.05)
+                                    speaker_k_max_layers = gr.Number(label="Max Layers", value=24, info="(0-24), scale applied in first N layers", precision=0, minimum=0, maximum=24)
+                            with gr.Group():
+                                gr.HTML("""
+                                <div class="preset-inline">
+                                  <span class="title">Truncation &amp; Temporal Rescaling</span><span class="dim">(</span>
+                                  <a href="javascript:void(0)" class="preset-link" data-fire="trunc_flat">flat</a>
+                                  <span class="dim">,</span>
+                                  <a href="javascript:void(0)" class="preset-link" data-fire="trunc_sharp">sharp</a>
+                                  <span class="dim">,</span>
+                                  <a href="javascript:void(0)" class="preset-link" data-fire="trunc_baseline">baseline(sharp)</a>
+                                  <span class="dim">)</span>
+                                </div>
+                                """)
+                                trunc_preset_flat = gr.Button("", elem_id="trunc_flat", elem_classes=["proxy-btn"])
+                                trunc_preset_sharp = gr.Button("", elem_id="trunc_sharp", elem_classes=["proxy-btn"])
+                                trunc_preset_baseline = gr.Button("", elem_id="trunc_baseline", elem_classes=["proxy-btn"])
+                                with gr.Row():
+                                    truncation_factor = gr.Number(label="Truncation Factor", value=0.8, info="Multiply initial noise (<1 helps artifacts)", minimum=0, step=0.05)
+                                    rescale_k = gr.Number(label="Rescale k", value=1.2, info="<1=sharpen, >1=flatten, 1=off", minimum=0, step=0.05)
+                                    rescale_sigma = gr.Number(label="Rescale σ", value=3.0, info="Sigma parameter", minimum=0, step=0.1)
+                            with gr.Group(visible=False) as apg_row:
+                                gr.HTML("""
+                                <div class="preset-inline">
+                                  <span class="title">APG Parameters</span><span class="dim">(</span>
+                                  <a href="javascript:void(0)" class="preset-link" data-fire="apg_default">default</a>
+                                  <span class="dim">,</span>
+                                  <a href="javascript:void(0)" class="preset-link" data-fire="apg_no_momentum">no momentum</a>
+                                  <span class="dim">,</span>
+                                  <a href="javascript:void(0)" class="preset-link" data-fire="apg_norms">norms</a>
+                                  <span class="dim">,</span>
+                                  <a href="javascript:void(0)" class="preset-link" data-fire="apg_no_eta">no eta</a>
+                                  <span class="dim">)</span>
+                                </div>
+                                """)
+                                apg_preset_default = gr.Button("", elem_id="apg_default", elem_classes=["proxy-btn"])
+                                apg_preset_no_momentum = gr.Button("", elem_id="apg_no_momentum", elem_classes=["proxy-btn"])
+                                apg_preset_norms = gr.Button("", elem_id="apg_norms", elem_classes=["proxy-btn"])
+                                apg_preset_no_eta = gr.Button("", elem_id="apg_no_eta", elem_classes=["proxy-btn"])
+                                with gr.Row():
+                                    apg_eta_text = gr.Number(label="APG η (text)", value=0.5, info="Eta for text projection (0-1, higher -> more like CFG)", minimum=0, maximum=1, step=0.25)
+                                    apg_eta_speaker = gr.Number(label="APG η (speaker)", value=0.5, info="Eta for speaker projection (0-1, higher -> more like CFG)", minimum=0, maximum=1, step=0.25)
+                                with gr.Row() as apg_row2:
+                                    apg_momentum_text = gr.Number(label="APG Momentum (text)", value=-0.25, info="Text momentum (can try 0., -.25, -0.5, -0.75...)", step=0.25)
+                                    apg_momentum_speaker = gr.Number(label="APG Momentum (speaker)", value=-0.25, info="Speaker momentum (can try 0., -.25, -0.5, -0.75...)", step=0.25)
+                                with gr.Row():
+                                    apg_norm_text = gr.Textbox(label="APG Norm (text)", value="", info="Text norm clip (leave blank to disable, can try 7.5, 15.0)")
+                                    apg_norm_speaker = gr.Textbox(label="APG Norm (speaker)", value="", info="Speaker norm clip (leave blank to disable, can try 7.5, 15.0)")
+                    # End of advanced_mode_column
+            with gr.Row(equal_height=True):
+                audio_format = gr.Radio(
+                    choices=["wav", "mp3"],
+                    value="wav",
+                    label="Format",
+                    scale=1,
+                    min_width=90
+                )
+                generate_btn = gr.Button("Generate Audio", variant="primary", size="lg", scale=10)
+                with gr.Column(scale=1):
+                    show_original_audio = gr.Checkbox(
+                        label="Re-display original audio (full 2-minute cropped mono)",
+                        value=False
+                    )
+                    reconstruct_first_30_seconds = gr.Checkbox(
+                        label="Show Autoencoder Reconstruction (only first 30s of reference)",
+                        value=False
+                    )
+            gr.HTML('<hr class="section-separator">')
+            with gr.Accordion("Generated Audio", open=True, visible=True) as generated_section:
+                generation_time_display = gr.Markdown("", visible=False)
+                with gr.Group(elem_classes=["generated-audio-player"]):
+                    generated_audio = gr.Audio(label="Generated Audio", visible=True)
+                text_prompt_display = gr.Markdown("", visible=False)
+                gr.Markdown("---")
+                reference_audio_header = gr.Markdown("#### Reference Audio", visible=False)
+                with gr.Accordion("Original Audio (2 min Cropped Mono)", open=False, visible=False) as original_accordion:
+                    original_audio = gr.Audio(label="Original Reference Audio (2 min)", visible=True)
+                with gr.Accordion("Autoencoder Reconstruction of First 30s of Reference", open=False, visible=False) as reference_accordion:
+                    reference_audio = gr.Audio(label="Decoded Reference Audio (30s)", visible=True)
+            # End of Advanced TabItem
+        # End of Tabs
     # Event handlers
+    # Simple View - Generate button handler
+    simple_generate_btn.click(
+        generate_audio_simple,
+        inputs=[
+            simple_text_prompt,
+            simple_audio_input,
+            simple_preset,
+            simple_rng_seed,
+            simple_num_steps,
+            simple_speaker_kv_enable,
+            simple_speaker_kv_scale,
+            session_id_state,
+        ],
+        outputs=[simple_generated_audio, simple_time_display]
+    )
+    # Simple View - Speaker KV checkbox toggle
+    simple_speaker_kv_enable.change(
+        lambda enabled: gr.update(visible=enabled),
+        inputs=[simple_speaker_kv_enable],
+        outputs=[simple_speaker_kv_scale]
+    )
+    # Simple View - Preset dropdown handler
+    def apply_simple_preset(preset_name):
+        if not preset_name:
+            return [gr.update()] * 3
+        presets = load_sampler_presets()
+        if preset_name in presets:
+            preset = presets[preset_name]
+            steps = int(preset.get("num_steps", 40))
+            speaker_kv = preset.get("speaker_k_enable", False)
+            return [
+                gr.update(value=steps),
+                gr.update(value=speaker_kv),
+                gr.update(visible=speaker_kv)
+            ]
+        return [gr.update()] * 3
+    simple_preset.change(
+        apply_simple_preset,
+        inputs=[simple_preset],
+        outputs=[simple_num_steps, simple_speaker_kv_enable, simple_speaker_kv_scale]
+    )
+    # Simple View - Audio preset dropdown handler
+    def select_simple_audio_preset(preset_name):
+        if preset_name == "(upload your own or select from dropdown)" or not preset_name:
+            return gr.update(value=None)  # Clear the audio input
+        if AUDIO_PROMPT_FOLDER is not None:
+            file_path = AUDIO_PROMPT_FOLDER / preset_name
+            if file_path.exists():
+                return gr.update(value=str(file_path))
+        return gr.update()
+    simple_audio_preset.change(
+        select_simple_audio_preset,
+        inputs=[simple_audio_preset],
+        outputs=[simple_audio_input]
+    )
+    # Simple View - Text preset table selection handler
+    def select_simple_text_preset(evt: gr.SelectData):
+        text_presets = load_text_presets()
+        if evt.index[0] < len(text_presets):
+            return gr.update(value=text_presets[evt.index[0]][2])
+        return gr.update()
+    simple_text_presets_table.select(
+        select_simple_text_preset,
+        outputs=[simple_text_prompt]
+    )
+    # Simple View - Reset audio preset dropdown when audio is cleared
+    simple_audio_input.clear(
+        lambda: gr.update(value="(upload your own or select from dropdown)"),
+        outputs=[simple_audio_preset]
+    )
+    # Advanced View Event handlers
     # Custom Audio Panel - handle audio change to update speaker_audio_path_state
     custom_audio_input.change(
         lambda audio: gr.update(value=audio if audio else ""),