Spaces:

hugggof
/

saos

Running

hugofloresgarcia commited on 23 days ago

Commit

ace23de

1 Parent(s): 2760947

Fix audio saving: use soundfile instead of torchaudio to avoid torchcodec dependency

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,7 +1,8 @@
 import torch
-import torchaudio
 import gradio as gr
 import os
 from stable_audio_tools import get_pretrained_model
 from stable_audio_tools.inference.generation import generate_diffusion_cond
 from huggingface_hub import login
@@ -77,16 +78,22 @@ def generate_audio(prompt, seconds_total=11):
             # Extract single variation: [channels, samples]
             audio = output[i]  # Shape: [channels, samples]
-            # Peak normalize, clip, convert to int16
             audio = audio.to(torch.float32)
             audio_max = torch.max(torch.abs(audio))
             if audio_max > 0:
                 audio = audio.div(audio_max)
-            audio = audio.clamp(-1, 1).mul(32767).to(torch.int16).cpu()
-            # Save to temporary file
             filename = f"output_variation_{i+1}.wav"
-            torchaudio.save(filename, audio, sample_rate)
             audio_files.append(filename)
         return audio_files, f"Generated 4 variations for: '{prompt}'"

 import torch
 import gradio as gr
 import os
+import soundfile as sf
+import numpy as np
 from stable_audio_tools import get_pretrained_model
 from stable_audio_tools.inference.generation import generate_diffusion_cond
 from huggingface_hub import login
             # Extract single variation: [channels, samples]
             audio = output[i]  # Shape: [channels, samples]
+            # Peak normalize, clip, convert to float32 numpy array
             audio = audio.to(torch.float32)
             audio_max = torch.max(torch.abs(audio))
             if audio_max > 0:
                 audio = audio.div(audio_max)
+            audio = audio.clamp(-1, 1).cpu().numpy()
+            # Transpose to [samples, channels] for soundfile
+            if audio.ndim == 1:
+                audio = audio.reshape(-1, 1)
+            else:
+                audio = audio.T  # [channels, samples] -> [samples, channels]
+            # Save to temporary file using soundfile
             filename = f"output_variation_{i+1}.wav"
+            sf.write(filename, audio, sample_rate)
             audio_files.append(filename)
         return audio_files, f"Generated 4 variations for: '{prompt}'"

requirements.txt CHANGED Viewed

@@ -2,6 +2,8 @@
 torch>=2.5.1
 torchaudio>=2.5.1
 gradio>=5.20.0
 einops
 einops-exts
 safetensors

 torch>=2.5.1
 torchaudio>=2.5.1
 gradio>=5.20.0
+soundfile
+numpy
 einops
 einops-exts
 safetensors