Spaces:

atalink
/

TTS-Talker

Runtime error

App Files Files Community

congcuong-cse commited on Sep 21

Commit

34f063d

2 Parent(s): c4568cc fec84c5

Merge branch 'main' of hf.co:spaces/longtrinhquang/TTS-Talker

Browse files

Files changed (10) hide show

.dockerignore +2 -0
Dockerfile +5 -0
README.md +66 -11
app.py +42 -30
app_tts.py +4 -2
docker-compose.yaml +18 -13
src/generate_batch.py +13 -2
utils/clear_results.sh +10 -0
utils/entrypoint.sh +11 -0
utils/prepare_environment.py +17 -8

.dockerignore CHANGED Viewed

@@ -1,3 +1,5 @@
 .python-version
 .backup
 backup

 .python-version
 .backup
 backup
+results/
+tts_cache/

Dockerfile CHANGED Viewed

@@ -26,6 +26,7 @@ RUN apt-get update && \
     libxmlsec1-dev \
     libffi-dev \
     liblzma-dev && \
     apt-get clean && \
     rm -rf /var/lib/apt/lists/*
@@ -48,6 +49,7 @@ COPY --chown=1000 requirements.txt /tmp/requirements.txt
 RUN pip install --no-cache-dir -U -r /tmp/requirements.txt
 COPY --chown=1000 . ${HOME}/app
 RUN ls -a
 ENV PYTHONPATH=${HOME}/app \
     PYTHONUNBUFFERED=1 \
@@ -56,4 +58,7 @@ ENV PYTHONPATH=${HOME}/app \
     GRADIO_SERVER_NAME=0.0.0.0 \
     GRADIO_THEME=huggingface \
     SYSTEM=spaces
 CMD ["python", "app.py"]

     libxmlsec1-dev \
     libffi-dev \
     liblzma-dev && \
+    apt-get install -y cron && \
     apt-get clean && \
     rm -rf /var/lib/apt/lists/*
 RUN pip install --no-cache-dir -U -r /tmp/requirements.txt
 COPY --chown=1000 . ${HOME}/app
+RUN chmod +x ${HOME}/app/utils/clear_results.sh ${HOME}/app/utils/entrypoint.sh
 RUN ls -a
 ENV PYTHONPATH=${HOME}/app \
     PYTHONUNBUFFERED=1 \
     GRADIO_SERVER_NAME=0.0.0.0 \
     GRADIO_THEME=huggingface \
     SYSTEM=spaces
+USER root
+ENTRYPOINT ["/home/user/app/utils/entrypoint.sh"]
 CMD ["python", "app.py"]

README.md CHANGED Viewed

@@ -1,8 +1,8 @@
 ---
-title: SadTalker
 emoji: 😭
 colorFrom: purple
-colorTo: green
 sdk: gradio
 sdk_version: 5.45.0
 python_version: 3.10.18
@@ -11,39 +11,94 @@ pinned: false
 license: mit
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
-Use local:
-python=3.10
-```
-pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 torchvision==0.19.0 --extra-index-url https://download.pytorch.org/whl/cu124
 ```
 ```
 sudo apt-get update
 sudo apt-get install sox ffmpeg
 ```
-## Backup and Restore Volume
-p/s: Need to mount backup folder to container
-### Backup
 ```bash
 tar -czvf /backup/data_cache_backup.tar.gz /home/user/.cache
 tar -czvf /backup/data_gfpgan_backup.tar.gz /home/user/app/gfpgan
 ```
-### Restore
 ```bash
 mkdir -p /home/user/.cache
 cd /home/user/.cache
 tar -xzvf /backup/data_cache_backup.tar.gz --strip 1
 mkdir -p /home/user/app/gfpgan
 cd /home/user/app/gfpgan
 tar -xzvf /backup/data_gfpgan_backup.tar.gz --strip 1
 ```

 ---
+title: Atalink-TTS-Talker
 emoji: 😭
 colorFrom: purple
+colorTo: blue
 sdk: gradio
 sdk_version: 5.45.0
 python_version: 3.10.18
 license: mit
 ---
+# 😭 Atalink-TTS-Talker
+A Hugging Face Space powered by **Gradio**.
+This project demonstrates **SadTalker** with local environment setup, backup/restore guides, and Docker deployment.
+## Reference: [Spaces Config Docs](https://huggingface.co/docs/hub/spaces-config-reference)
+---
+### Use local:
+## 🖥️ Local Setup
+### 1. Python environment
+- Use **Python 3.10**
+```bash
+python -m venv .venv
+source .venv/bin/activate
 ```
+### 2. Install PyTorch with CUDA 12.4
+```bash
+pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 torchvision==0.19.0   --extra-index-url https://download.pytorch.org/whl/cu124
 ```
+### 3. Install dependencies
+```bash
 sudo apt-get update
 sudo apt-get install sox ffmpeg
 ```
+---
+## 💾 Backup & Restore Volumes
+> ⚠️ Make sure you **mount the backup folder** into the container before running these commands.
+### 🔹 Backup
 ```bash
+# Cache
 tar -czvf /backup/data_cache_backup.tar.gz /home/user/.cache
+# GFPGAN data
 tar -czvf /backup/data_gfpgan_backup.tar.gz /home/user/app/gfpgan
 ```
+### 🔹 Restore
 ```bash
+# Restore cache
 mkdir -p /home/user/.cache
 cd /home/user/.cache
 tar -xzvf /backup/data_cache_backup.tar.gz --strip 1
+# Restore GFPGAN
 mkdir -p /home/user/app/gfpgan
 cd /home/user/app/gfpgan
 tar -xzvf /backup/data_gfpgan_backup.tar.gz --strip 1
 ```
+---
+## 🚀 Running the App
+1. Create and activate Python 3.10 environment
+2. Prepare environment:
+   ```bash
+   python utils/prepare_environment.py
+   ```
+3. Start with Docker Compose:
+   ```bash
+   docker compose up -d
+   ```
+4. If you change code, rebuild:
+   ```bash
+   docker compose up -d --build
+   ```
+---
+✨ Done! You can now run **SadTalker** locally or deploy with Docker.

app.py CHANGED Viewed

@@ -46,7 +46,8 @@ def download_model():
 def list_videos():
     # Lấy danh sách tất cả file mp4 trong results
-    video_files = glob.glob("results/**/*.mp4", recursive=True)
     # Trả về danh sách file (có thể sort theo thời gian)
     return sorted(video_files, reverse=True)
@@ -77,23 +78,27 @@ def generate_voice_and_video(
     blink_every,
 ):
     import gradio as gr
     # Bắt đầu: Hiển thị trạng thái đang tạo audio
     yield (
         gr.update(value=None, visible=True, interactive=False),
         gr.update(value=None, visible=True, interactive=False),
-        gr.update(value="⏳ Đang tạo âm thanh...", visible=True)
     )
     # 1. Sinh audio từ TTS
     (final_sample_rate, final_wave), _ = infer_tts(ref_audio, ref_text, gen_text, speed)
     tmp_audio = tempfile.NamedTemporaryFile(suffix=".wav", delete=False)
     import soundfile as sf
     sf.write(tmp_audio.name, final_wave, final_sample_rate)
     # Audio xong, chuyển sang tạo video
     yield (
         gr.update(value=tmp_audio.name, visible=True, interactive=True),
         gr.update(value=None, visible=True, interactive=False),
-        gr.update(value="⏳ Đang tạo video...", visible=True)
     )
     # 2. Gọi SadTalker với audio vừa sinh ra
@@ -120,7 +125,8 @@ def generate_voice_and_video(
     yield (
         gr.update(value=tmp_audio.name, visible=True, interactive=True),
         gr.update(value=video_path, visible=True, interactive=True),
-        gr.update(value="✅ Hoàn thành!", visible=True)
     )
 def list_files(directory):
     try:
@@ -234,7 +240,12 @@ def sadtalker_demo():
                 gen_video = gr.Video(
                     label="Video đã tạo", format="mp4", scale=1, width=180
                 )
-                status_box = gr.Textbox(label="Trạng thái tiến trình", interactive=False, value="", visible=True)
             def enable_generate(audio, text, image):
                 return gr.update(interactive=bool(audio and text and image))
@@ -249,36 +260,12 @@ def sadtalker_demo():
                 enable_generate, [ref_audio, gen_text, source_image], btn_generate
             )
-            btn_generate.click(
-                generate_voice_and_video,
-                inputs=[
-                    ref_audio,
-                    ref_text,
-                    gen_text,
-                    speed,
-                    source_image,
-                    preprocess_type,
-                    is_still_mode,
-                    enhancer,
-                    batch_size,
-                    size_of_image,
-                    pose_style,
-                    facerender,
-                    exp_weight,
-                    use_ref_video,
-                    ref_video,
-                    ref_info,
-                    use_idle_mode,
-                    length_of_audio,
-                    blink_every,
-                ],
-                outputs=[output_audio, gen_video, status_box],
-            )
         with gr.Tab("Lịch sử video"):
             with gr.Row(elem_classes="gr-row"):
                 refresh_btn = gr.Button("🔄 Refresh File List")
                 video_list = gr.Dropdown(
                     choices=list_videos(),
                     label="Chọn video để xem",
                     interactive=True,
@@ -296,6 +283,31 @@ def sadtalker_demo():
             directory_input.change(fn=list_files, inputs=directory_input, outputs=file_list_output)
     return sadtalker_interface

 def list_videos():
     # Lấy danh sách tất cả file mp4 trong results
+    PATH_RESULTS = "results"
+    video_files = glob.glob(f"{PATH_RESULTS}/**/*.mp4", recursive=True)
     # Trả về danh sách file (có thể sort theo thời gian)
     return sorted(video_files, reverse=True)
     blink_every,
 ):
     import gradio as gr
     # Bắt đầu: Hiển thị trạng thái đang tạo audio
     yield (
         gr.update(value=None, visible=True, interactive=False),
         gr.update(value=None, visible=True, interactive=False),
+        gr.update(value="⏳ Đang tạo âm thanh...", visible=True),
+        gr.update(choices=list_videos()),
     )
     # 1. Sinh audio từ TTS
     (final_sample_rate, final_wave), _ = infer_tts(ref_audio, ref_text, gen_text, speed)
     tmp_audio = tempfile.NamedTemporaryFile(suffix=".wav", delete=False)
     import soundfile as sf
     sf.write(tmp_audio.name, final_wave, final_sample_rate)
     # Audio xong, chuyển sang tạo video
     yield (
         gr.update(value=tmp_audio.name, visible=True, interactive=True),
         gr.update(value=None, visible=True, interactive=False),
+        gr.update(value="⏳ Đang tạo video...", visible=True),
+        gr.update(choices=list_videos()),
     )
     # 2. Gọi SadTalker với audio vừa sinh ra
     yield (
         gr.update(value=tmp_audio.name, visible=True, interactive=True),
         gr.update(value=video_path, visible=True, interactive=True),
+        gr.update(value="✅ Hoàn thành!", visible=True),
+        gr.update(choices=list_videos(), value=video_path),
     )
 def list_files(directory):
     try:
                 gen_video = gr.Video(
                     label="Video đã tạo", format="mp4", scale=1, width=180
                 )
+                status_box = gr.Textbox(
+                    label="Trạng thái tiến trình",
+                    interactive=False,
+                    value="",
+                    visible=True,
+                )
             def enable_generate(audio, text, image):
                 return gr.update(interactive=bool(audio and text and image))
                 enable_generate, [ref_audio, gen_text, source_image], btn_generate
             )
         with gr.Tab("Lịch sử video"):
             with gr.Row(elem_classes="gr-row"):
                 refresh_btn = gr.Button("🔄 Refresh File List")
                 video_list = gr.Dropdown(
+                    value=list_videos()[0] if len(list_videos()) > 0 else None,
                     choices=list_videos(),
                     label="Chọn video để xem",
                     interactive=True,
             directory_input.change(fn=list_files, inputs=directory_input, outputs=file_list_output)
+        btn_generate.click(
+            generate_voice_and_video,
+            inputs=[
+                ref_audio,
+                ref_text,
+                gen_text,
+                speed,
+                source_image,
+                preprocess_type,
+                is_still_mode,
+                enhancer,
+                batch_size,
+                size_of_image,
+                pose_style,
+                facerender,
+                exp_weight,
+                use_ref_video,
+                ref_video,
+                ref_info,
+                use_idle_mode,
+                length_of_audio,
+                blink_every,
+            ],
+            outputs=[output_audio, gen_video, status_box, video_list],
+        )
     return sadtalker_interface

app_tts.py CHANGED Viewed

@@ -34,6 +34,7 @@ from pathlib import Path
 from omegaconf import OmegaConf
 from datetime import datetime
 import hashlib
 # Retrieve token from secrets
 hf_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
@@ -173,7 +174,8 @@ def infer_tts(ref_audio_orig: str, ref_text_input: str, gen_text: str, speed: fl
     try:
         # Nếu người dùng nhập ref_text thì dùng, không thì để rỗng để tự động nhận diện
         ref_audio, ref_text = preprocess_ref_audio_text(ref_audio_orig, ref_text_input or "")
-        gen_text_ = gen_text.strip()
         # --- BẮT ĐẦU: Thêm logic cache ---
         cache_path = get_audio_cache_path(gen_text_, ref_audio_orig, model)
         import soundfile as sf
@@ -183,7 +185,7 @@ def infer_tts(ref_audio_orig: str, ref_text_input: str, gen_text: str, speed: fl
             spectrogram = None
         else:
             final_wave, final_sample_rate, spectrogram = infer_process(
-                ref_audio, ref_text.lower(), gen_text_, ema_model, vocoder, speed=speed
             )
             print(f"[CACHE] Saved new audio to: {cache_path}")
             sf.write(cache_path, final_wave, final_sample_rate)

 from omegaconf import OmegaConf
 from datetime import datetime
 import hashlib
+import unicodedata
 # Retrieve token from secrets
 hf_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
     try:
         # Nếu người dùng nhập ref_text thì dùng, không thì để rỗng để tự động nhận diện
         ref_audio, ref_text = preprocess_ref_audio_text(ref_audio_orig, ref_text_input or "")
+        ref_text = unicodedata.normalize("NFC", ref_text.strip())
+        gen_text_ = unicodedata.normalize("NFC", gen_text.strip())
         # --- BẮT ĐẦU: Thêm logic cache ---
         cache_path = get_audio_cache_path(gen_text_, ref_audio_orig, model)
         import soundfile as sf
             spectrogram = None
         else:
             final_wave, final_sample_rate, spectrogram = infer_process(
+                ref_audio, ref_text, gen_text_, ema_model, vocoder, speed=speed
             )
             print(f"[CACHE] Saved new audio to: {cache_path}")
             sf.write(cache_path, final_wave, final_sample_rate)

docker-compose.yaml CHANGED Viewed

@@ -1,20 +1,25 @@
 services:
-  test:
     build: .
     ports:
-      - "7860:7860"
-    stdin_open: true   # equivalent to -it
-    tty: true          # equivalent to -it
-    restart: "no"      # equivalent to --rm (don’t restart container automatically)
-    # environment:
-      # - HF_ENDPOINT=http://172.16.15.118:9557/repository/atalink-hf-models
     volumes:
-      - test_data_cache:/home/user/.cache
-      - test_data_gfpgan:/home/user/app/gfpgan
-      # - ./backup:/backup
 volumes:
-  test_data_cache:
     external: true
-  test_data_gfpgan:
     external: true

 services:
+  atalink-tts-talker:
     build: .
     ports:
+      - '7860:7860'
+    stdin_open: true # equivalent to -it
+    tty: true # equivalent to -it
+    restart: 'no' # equivalent to --rm (don’t restart container automatically)
+    environment:
+      - PATH_RESULTS= /app/results
+    # - HF_ENDPOINT=http://172.16.15.118:9557/repository/atalink-hf-models
     volumes:
+      - atalink_data_cache:/home/user/.cache
+      - atalink_data_gfpgan:/home/user/app/gfpgan
+    #   # - ./backup:/backup
+    deploy:
+      resources:
+        reservations:
+          devices:
+            - capabilities: [gpu]
 volumes:
+  atalink_data_cache:
     external: true
+  atalink_data_gfpgan:
     external: true

src/generate_batch.py CHANGED Viewed

@@ -77,8 +77,18 @@ def get_data(first_coeff_path, audio_path, device, ref_eyeblink_coeff_path, stil
             m = spec[seq, :]
             indiv_mels.append(m.T)
         indiv_mels = np.asarray(indiv_mels)         # T 80 16
-    ratio = generate_blink_seq_randomly(num_frames)      # T
     source_semantics_path = first_coeff_path
     source_semantics_dict = scio.loadmat(source_semantics_path)
     ref_coeff = source_semantics_dict['coeff_3dmm'][:1,:70]         #1 70
@@ -93,7 +103,8 @@ def get_data(first_coeff_path, audio_path, device, ref_eyeblink_coeff_path, stil
             div = num_frames//refeyeblink_num_frames
             re = num_frames%refeyeblink_num_frames
             refeyeblink_coeff_list = [refeyeblink_coeff for i in range(div)]
-            refeyeblink_coeff_list.append(refeyeblink_coeff[:re, :64])
             refeyeblink_coeff = np.concatenate(refeyeblink_coeff_list, axis=0)
             print(refeyeblink_coeff.shape[0])

             m = spec[seq, :]
             indiv_mels.append(m.T)
         indiv_mels = np.asarray(indiv_mels)         # T 80 16
+    if num_frames < 20:
+        print(f"[WARN] num_frames={num_frames} too small, enable still_mode / skip blink.")
+        still = True
+        use_blink = False
+    # Blink ratio
+    if use_blink and not still:
+        ratio = generate_blink_seq_randomly(num_frames)  # T × 1
+    else:
+        ratio = np.zeros((num_frames, 1))  # không blink
+    # ratio = generate_blink_seq_randomly(num_frames)      # T
     source_semantics_path = first_coeff_path
     source_semantics_dict = scio.loadmat(source_semantics_path)
     ref_coeff = source_semantics_dict['coeff_3dmm'][:1,:70]         #1 70
             div = num_frames//refeyeblink_num_frames
             re = num_frames%refeyeblink_num_frames
             refeyeblink_coeff_list = [refeyeblink_coeff for i in range(div)]
+            if re > 0:
+                refeyeblink_coeff_list.append(refeyeblink_coeff[:re, :64])
             refeyeblink_coeff = np.concatenate(refeyeblink_coeff_list, axis=0)
             print(refeyeblink_coeff.shape[0])

utils/clear_results.sh ADDED Viewed

	@@ -0,0 +1,10 @@

+#!/bin/sh
+# Xóa toàn bộ dữ liệu trong thư mục /app/results vào 10h tối mỗi ngày
+# Thêm dòng sau vào crontab khi build docker
+# 0 22 * * * /app/clear_results.sh
+rm -rf /app/results/*
+echo "[CRON] Đã xóa dữ liệu trong /app/results lúc $(date)" >> /app/clear_results.log
+rm -rf /app/tts_cache/*
+echo "[CRON] Đã xóa dữ liệu trong /app/tts_cache lúc $(date)" >> /app/clear_tts_cache.log

utils/entrypoint.sh ADDED Viewed

	@@ -0,0 +1,11 @@

+#!/bin/bash
+set -e
+# Đảm bảo /var/run tồn tại và user có quyền ghi
+mkdir -p /var/run
+chmod 777 /var/run
+# Cài crontab với job xóa results
+crontab -l 2>/dev/null | { cat; echo "0 22 * * * /home/user/app/utils/clear_results.sh"; } | crontab -
+# Start cron background
+cron
+# Start app.py (foreground)
+exec "$@"

utils/prepare_environment.py CHANGED Viewed

@@ -23,8 +23,8 @@ DOWNLOADS = [
 ]
-TMP_DIR = "/tmp"
-VOLUME_PREFIX = "test_"
 def download_file(url, dest_folder):
@@ -62,11 +62,11 @@ def create_volume_and_extract(tar_path, volume_name):
             "-v",
             f"{volume_name}:/data",  # Mount Docker volume (volume_name) vào thư mục /data trong container
             "-v",
-            f"{os.path.dirname(tar_path)}:/tmpdata",  # Mount thư mục chứa file tar.gz trên host vào /tmpdata trong container
             "busybox",  # Image dùng để chạy container (ở đây là Ubuntu 22.04)
-            "bash",
             "-c",  # Chạy lệnh bash trong container
-            f"tar -xzf /tmpdata/{os.path.basename(tar_path)} -C /data",  # Lệnh giải nén file tar.gz từ /tmpdata vào /data
         ],
         check=True,
     )
@@ -91,10 +91,19 @@ def main():
             VOLUME_PREFIX
             + os.path.splitext(os.path.splitext(os.path.basename(tar_path))[0])[0]
         )
-    print(f"🚀 [VOLUME] Name: \033[1;33m{volume_name}\033[0m")
-        # create_volume_and_extract(tar_path, volume_name)
-    # cleanup_tmp(downloaded_files)
 if __name__ == "__main__":
     main()

 ]
+TMP_DIR = "tmp"
+VOLUME_PREFIX = "atalink_"
 def download_file(url, dest_folder):
             "-v",
             f"{volume_name}:/data",  # Mount Docker volume (volume_name) vào thư mục /data trong container
             "-v",
+            f"{os.path.abspath(os.path.dirname(tar_path))}:/tmpdata",  # Mount thư mục chứa file tar.gz trên host vào /tmpdata trong container
             "busybox",  # Image dùng để chạy container (ở đây là Ubuntu 22.04)
+            "sh",
             "-c",  # Chạy lệnh bash trong container
+            f"tar -xzvf /tmpdata/{os.path.basename(tar_path)} --strip 1 -C /data",  # Lệnh giải nén file tar.gz từ /tmpdata vào /data
         ],
         check=True,
     )
             VOLUME_PREFIX
             + os.path.splitext(os.path.splitext(os.path.basename(tar_path))[0])[0]
         )
+        print(f"🚀 [VOLUME] Name: \033[1;33m{volume_name}\033[0m")
+        create_volume_and_extract(tar_path, volume_name)
+    cleanup_tmp(downloaded_files)
 if __name__ == "__main__":
     main()
+# if __name__ == "__main__":
+    # Test create_volume_and_extract với file test_data_backup.tar.gz
+    # test_tar = os.path.join("tmp", "data_backup.tar.gz")
+    # if os.path.exists(test_tar):
+    #     create_volume_and_extract(test_tar, "atalink_data_backup")
+    # else:
+    #     print("File tmp/test_data_backup.tar.gz không tồn tại để test.")