Spaces:

channelcorp
/

Ko-TTS-Arena

Sleeping

App Files Files Community

blackhole1218 commited on 13 days ago

Commit

733799a

1 Parent(s): 10333ff

Add Supertone TTS support

Browse files

Files changed (2) hide show

models.py +10 -0
tts.py +44 -0

models.py CHANGED Viewed

@@ -573,6 +573,7 @@ def insert_initial_models():
     has_openai = bool(os.getenv("OPENAI_API_KEY"))
     has_elevenlabs = bool(os.getenv("ELEVENLABS_API_KEY"))
     has_google = bool(os.getenv("GOOGLE_API_KEY"))
     tts_models = [
         # 채널톡 TTS (한국어 특화) - 항상 활성화
@@ -627,6 +628,15 @@ def insert_initial_models():
             is_active=has_google,
             model_url="https://cloud.google.com/text-to-speech",
         ),
     ]
     for model in tts_models:

     has_openai = bool(os.getenv("OPENAI_API_KEY"))
     has_elevenlabs = bool(os.getenv("ELEVENLABS_API_KEY"))
     has_google = bool(os.getenv("GOOGLE_API_KEY"))
+    has_supertone = bool(os.getenv("SUPERTONE_API_KEY"))
     tts_models = [
         # 채널톡 TTS (한국어 특화) - 항상 활성화
             is_active=has_google,
             model_url="https://cloud.google.com/text-to-speech",
         ),
+        # Supertone TTS (한국어 특화) - API 키 있을 때만 활성화
+        Model(
+            id="supertone-sona",
+            name="Supertone Sona",
+            model_type=ModelType.TTS,
+            is_open=False,
+            is_active=has_supertone,
+            model_url="https://supertone.ai/",
+        ),
     ]
     for model in tts_models:

tts.py CHANGED Viewed

@@ -22,6 +22,9 @@ CHANNEL_TTS_URL = os.getenv(
 ELEVENLABS_API_KEY = os.getenv("ELEVENLABS_API_KEY")
 ELEVENLABS_VOICE_ID = os.getenv("ELEVENLABS_VOICE_ID", "21m00Tcm4TlvDq8ikWAM")  # Rachel (기본)
 model_mapping = {
     # 채널톡 TTS (한국어 특화)
     "channel-hana": {
@@ -53,6 +56,11 @@ model_mapping = {
         "provider": "google",
         "voice": "ko-KR-Neural2-A",
     },
 }
@@ -133,6 +141,39 @@ def predict_openai_tts(text: str, model: str = "tts-1", voice: str = "alloy") ->
         return f.name
 def predict_google_tts(text: str, voice: str = "ko-KR-Wavenet-A") -> str:
     """Google Cloud TTS API 호출"""
     api_key = os.getenv("GOOGLE_API_KEY")
@@ -202,6 +243,9 @@ def predict_tts(text: str, model: str) -> str:
     elif provider == "elevenlabs":
         return predict_elevenlabs_tts(text, config.get("model", "eleven_multilingual_v2"))
     else:
         raise ValueError(f"알 수 없는 provider: {provider}")

 ELEVENLABS_API_KEY = os.getenv("ELEVENLABS_API_KEY")
 ELEVENLABS_VOICE_ID = os.getenv("ELEVENLABS_VOICE_ID", "21m00Tcm4TlvDq8ikWAM")  # Rachel (기본)
+SUPERTONE_API_KEY = os.getenv("SUPERTONE_API_KEY")
+SUPERTONE_VOICE_ID = os.getenv("SUPERTONE_VOICE_ID", "91992bbd4758bdcf9c9b01")  # 기본 보이스
 model_mapping = {
     # 채널톡 TTS (한국어 특화)
     "channel-hana": {
         "provider": "google",
         "voice": "ko-KR-Neural2-A",
     },
+    # Supertone TTS (한국어 특화)
+    "supertone-sona": {
+        "provider": "supertone",
+        "model": "sona_speech_1",
+    },
 }
         return f.name
+def predict_supertone_tts(text: str, model: str = "sona_speech_1") -> str:
+    """Supertone TTS API 호출"""
+    api_key = SUPERTONE_API_KEY
+    if not api_key:
+        raise ValueError("SUPERTONE_API_KEY 환경 변수가 설정되지 않았습니다.")
+    voice_id = SUPERTONE_VOICE_ID
+    response = requests.post(
+        f"https://api.supertone.ai/v1/text-to-speech/{voice_id}?output_format=wav",
+        headers={
+            "x-sup-api-key": api_key,
+            "Content-Type": "application/json",
+        },
+        json={
+            "text": text,
+            "language": "ko",
+            "model": model,
+            "voice_settings": {
+                "pitch_shift": 0,
+                "pitch_variance": 1,
+                "speed": 1,
+            },
+        },
+        timeout=60,
+    )
+    response.raise_for_status()
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
+        f.write(response.content)
+        return f.name
 def predict_google_tts(text: str, voice: str = "ko-KR-Wavenet-A") -> str:
     """Google Cloud TTS API 호출"""
     api_key = os.getenv("GOOGLE_API_KEY")
     elif provider == "elevenlabs":
         return predict_elevenlabs_tts(text, config.get("model", "eleven_multilingual_v2"))
+    elif provider == "supertone":
+        return predict_supertone_tts(text, config.get("model", "sona_speech_1"))
     else:
         raise ValueError(f"알 수 없는 provider: {provider}")