Spaces:

Luka512
/

website

Running

App Files Files Community

Tim Luka Horstmann commited on 9 days ago

Commit

964084b

1 Parent(s): 8d04f0d

Use gemini TTS

Browse files

Files changed (1) hide show

app.py +93 -38

app.py CHANGED Viewed

@@ -18,6 +18,8 @@ import psutil  # Added for RAM tracking
 from google import genai
 from google.genai import types
 import httpx
 from elevenlabs import ElevenLabs, VoiceSettings
 from slowapi import Limiter, _rate_limit_exceeded_handler
 from slowapi.util import get_remote_address
@@ -104,6 +106,11 @@ else:
     elevenlabs_client = None
     logger.info("ElevenLabs TTS disabled (no API key provided)")
 # Define FAQs
 faqs = [
     {"question": "What is your name?", "answer": "My name is Tim Luka Horstmann."},
@@ -549,48 +556,96 @@ async def predict(request: Request, query_request: QueryRequest):
 @app.post("/api/tts")
 @limiter.limit("5/minute")  # Allow 5 TTS requests per minute per IP
 async def text_to_speech(request: Request, tts_request: TTSRequest):
-    """Convert text to speech using ElevenLabs API"""
-    if not elevenlabs_client:
-        raise HTTPException(status_code=503, detail="TTS service not available")
-    try:
-        # Clean the text for TTS (remove markdown and special characters)
-        clean_text = tts_request.text.replace("**", "").replace("*", "").replace("\n", " ").strip()
-        if not clean_text:
-            raise HTTPException(status_code=400, detail="No text provided for TTS")
-        if len(clean_text) > 1000:  # Limit text length to avoid long processing times
-            clean_text = clean_text[:1000] + "..."
-        # Generate speech
-        response = elevenlabs_client.text_to_speech.convert(
-            voice_id=tts_voice_id,
-            model_id="eleven_flash_v2_5",
-            text=clean_text,
-            voice_settings=VoiceSettings(
-                stability=0.7,             # More stability = less variability; best: 0.7–0.85
-                similarity_boost=0.9,      # Boost similarity to original voice
-                style=0.2,                 # Keep subtle emotion; increase for expressive output
-                use_speaker_boost=True     # Helps preserve speaker identity better
             )
-        )
-        # Convert generator to bytes
-        audio_bytes = b"".join(response)
-        return Response(
-            content=audio_bytes,
-            media_type="audio/mpeg",
-            headers={
-                "Content-Disposition": "inline; filename=tts_audio.mp3",
-                "Cache-Control": "no-cache"
-            }
-        )
-    except Exception as e:
-        logger.error(f"TTS error: {str(e)}")
-        raise HTTPException(status_code=500, detail=f"TTS conversion failed: {str(e)}")
 @app.get("/health")
 @limiter.limit("30/minute")  # Allow frequent health checks

 from google import genai
 from google.genai import types
 import httpx
+import wave
+import io
 from elevenlabs import ElevenLabs, VoiceSettings
 from slowapi import Limiter, _rate_limit_exceeded_handler
 from slowapi.util import get_remote_address
     elevenlabs_client = None
     logger.info("ElevenLabs TTS disabled (no API key provided)")
+# TTS Configuration
+tts_provider = os.getenv("TTS_PROVIDER", "elevenlabs").lower()
+gemini_tts_model = os.getenv("GEMINI_TTS_MODEL", "gemini-2.5-flash-preview-tts")
+gemini_tts_voice = os.getenv("GEMINI_TTS_VOICE", "Kore")
 # Define FAQs
 faqs = [
     {"question": "What is your name?", "answer": "My name is Tim Luka Horstmann."},
 @app.post("/api/tts")
 @limiter.limit("5/minute")  # Allow 5 TTS requests per minute per IP
 async def text_to_speech(request: Request, tts_request: TTSRequest):
+    """Convert text to speech using ElevenLabs or Gemini API"""
+    # Clean the text for TTS (remove markdown and special characters)
+    clean_text = tts_request.text.replace("**", "").replace("*", "").replace("\n", " ").strip()
+    if not clean_text:
+        raise HTTPException(status_code=400, detail="No text provided for TTS")
+    if len(clean_text) > 1000:  # Limit text length to avoid long processing times
+        clean_text = clean_text[:1000] + "..."
+    if tts_provider == "gemini":
+        if not gemini_client:
+             raise HTTPException(status_code=503, detail="Gemini TTS service not available (API key missing)")
+        try:
+            response = gemini_client.models.generate_content(
+                model=gemini_tts_model,
+                contents=clean_text,
+                config=types.GenerateContentConfig(
+                    response_modalities=["AUDIO"],
+                    speech_config=types.SpeechConfig(
+                        voice_config=types.VoiceConfig(
+                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
+                                voice_name=gemini_tts_voice,
+                            )
+                        )
+                    ),
+                )
             )
+            # Get raw PCM data
+            pcm_data = response.candidates[0].content.parts[0].inline_data.data
+            # Convert PCM to WAV
+            wav_buffer = io.BytesIO()
+            with wave.open(wav_buffer, "wb") as wf:
+                wf.setnchannels(1)
+                wf.setsampwidth(2)
+                wf.setframerate(24000)
+                wf.writeframes(pcm_data)
+            audio_bytes = wav_buffer.getvalue()
+            return Response(
+                content=audio_bytes,
+                media_type="audio/wav",
+                headers={
+                    "Content-Disposition": "inline; filename=tts_audio.wav",
+                    "Cache-Control": "no-cache"
+                }
+            )
+        except Exception as e:
+            logger.error(f"Gemini TTS error: {str(e)}")
+            raise HTTPException(status_code=500, detail=f"Gemini TTS conversion failed: {str(e)}")
+    else:
+        if not elevenlabs_client:
+            raise HTTPException(status_code=503, detail="TTS service not available")
+        try:
+            # Generate speech
+            response = elevenlabs_client.text_to_speech.convert(
+                voice_id=tts_voice_id,
+                model_id="eleven_flash_v2_5",
+                text=clean_text,
+                voice_settings=VoiceSettings(
+                    stability=0.7,             # More stability = less variability; best: 0.7–0.85
+                    similarity_boost=0.9,      # Boost similarity to original voice
+                    style=0.2,                 # Keep subtle emotion; increase for expressive output
+                    use_speaker_boost=True     # Helps preserve speaker identity better
+                )
+            )
+            # Convert generator to bytes
+            audio_bytes = b"".join(response)
+            return Response(
+                content=audio_bytes,
+                media_type="audio/mpeg",
+                headers={
+                    "Content-Disposition": "inline; filename=tts_audio.mp3",
+                    "Cache-Control": "no-cache"
+                }
+            )
+        except Exception as e:
+            logger.error(f"TTS error: {str(e)}")
+            raise HTTPException(status_code=500, detail=f"TTS conversion failed: {str(e)}")
 @app.get("/health")
 @limiter.limit("30/minute")  # Allow frequent health checks