Spaces:

mrfakename
/

SNAC

Paused

mrfakename commited on Aug 21

Commit

ca49a8a

verified ·

1 Parent(s): a926d98

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,9 +3,9 @@ import torchaudio
 from snac import SNAC
 import gradio as gr
-# pick the right SNAC model for your audio sample rate
 MODEL_NAME = "hubertsiuzdak/snac_24khz"
-SR = 24000
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 model = SNAC.from_pretrained(MODEL_NAME).eval().to(DEVICE)
@@ -20,18 +20,24 @@ def reconstruct(audio_in):
     if data.ndim == 2:
         data = data.mean(axis=1)
-    # turn into torch [1,1,T]
-    audio = torch.from_numpy(data).float().unsqueeze(0).unsqueeze(0).to(DEVICE)
-    # run through SNAC
     with torch.inference_mode():
         audio_hat, codes = model(audio)
     y = audio_hat.squeeze().cpu().numpy()
-    return (SR, y)
 with gr.Blocks(title="SNAC Round-Trip Demo") as demo:
-    gr.Markdown("## 🎧 SNAC Audio Reconstructor (minimal!)")
     with gr.Row():
         with gr.Column():

 from snac import SNAC
 import gradio as gr
+# choose your SNAC model + target sample rate
 MODEL_NAME = "hubertsiuzdak/snac_24khz"
+TARGET_SR = 24000
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 model = SNAC.from_pretrained(MODEL_NAME).eval().to(DEVICE)
     if data.ndim == 2:
         data = data.mean(axis=1)
+    # torchify
+    audio = torch.from_numpy(data).float().unsqueeze(0)  # [1,T]
+    # resample to target SR
+    if sr != TARGET_SR:
+        audio = torchaudio.functional.resample(audio, orig_freq=sr, new_freq=TARGET_SR)
+    # expand to [B,1,T]
+    audio = audio.unsqueeze(0).to(DEVICE)
     with torch.inference_mode():
         audio_hat, codes = model(audio)
     y = audio_hat.squeeze().cpu().numpy()
+    return (TARGET_SR, y)
 with gr.Blocks(title="SNAC Round-Trip Demo") as demo:
+    gr.Markdown("## 🎧 SNAC Audio Reconstructor (with resampling)")
     with gr.Row():
         with gr.Column():