Spaces:

kassaby
/

recitation-segmenter-app

Sleeping

App Files Files Community

kassaby commited on 24 days ago

Commit

0ba63c7

verified ·

1 Parent(s): a87f1dd

Upload 2 files

Browse files

Files changed (2) hide show

recitation_segmenter_app.py +247 -0
requirements_txt.txt +9 -0

recitation_segmenter_app.py ADDED Viewed

	@@ -0,0 +1,247 @@

+import gradio as gr
+import numpy as np
+import torch
+import soundfile as sf
+import librosa
+from matplotlib import pyplot as plt
+from transformers import AutoFeatureExtractor, AutoModelForAudioFrameClassification
+from recitations_segmenter import segment_recitations, clean_speech_intervals
+import io
+from PIL import Image
+# Setup device and model
+device = 'cuda' if torch.cuda.is_available() else 'cpu'
+dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32
+print(f"Loading model on {device}...")
+processor = AutoFeatureExtractor.from_pretrained("obadx/recitation-segmenter-v2")
+model = AutoModelForAudioFrameClassification.from_pretrained(
+    "obadx/recitation-segmenter-v2",
+    torch_dtype=dtype,
+    device_map=device
+)
+print("Model loaded successfully!")
+def read_audio(path, sampling_rate=16000):
+    """قراءة ملف صوتي وتحويله"""
+    audio, sr = sf.read(path)
+    if len(audio.shape) > 1:
+        audio = audio.mean(axis=1)
+    if sr != sampling_rate:
+        audio = librosa.resample(audio, orig_sr=sr, target_sr=sampling_rate)
+    return torch.tensor(audio).float()
+def get_interval(x: np.ndarray, intervals: list[list[int]], idx: int, sr=16000, delta=0.3, exact_boundries=False):
+    """استخراج مقطع صوتي من الفواصل"""
+    start = int((intervals[idx][0] - delta) * sr)
+    end = int(intervals[idx][1] * sr)
+    if not exact_boundries:
+        start = 0 if idx == 0 else int((intervals[idx][0] - delta) * sr)
+        end = len(x) if idx == len(intervals) - 1 else int((intervals[idx + 1][0] - delta) * sr)
+    return x[start: end]
+def plot_signal(x: np.ndarray, intervals: list[list[float]], log_min_count=5, sr=16000):
+    """رسم الإشارة الصوتية مع الفواصل"""
+    fig, ax = plt.subplots(figsize=(20, 4))
+    if isinstance(x, torch.Tensor):
+        x = x.numpy()
+    ax.plot(x, linewidth=0.5)
+    intervals_flat = np.array(intervals).reshape(-1)
+    diffs = np.diff(intervals_flat)
+    min_silence_diffs_idx = float('-inf')
+    info_text = ""
+    if len(intervals_flat) > 2:
+        silence_diffs = diffs[1: len(diffs): 2]
+        min_silence_diffs_ids = silence_diffs.argsort()[: log_min_count]
+        min_silence_diffs_idx = min_silence_diffs_ids[0] * 2 + 1
+        info_text += f'Minimum Silence Interval IDs: {min_silence_diffs_ids}\n'
+        info_text += f'Minimum Silence Intervals: {silence_diffs[min_silence_diffs_ids]}\n'
+        speech_diffs = diffs[0: len(diffs): 2]
+        min_speech_diffs_ids = speech_diffs.argsort()[: log_min_count]
+        info_text += f'Minimum Speech Interval IDs: {min_speech_diffs_ids}\n'
+        info_text += f'Minimum Speech Intervals: {speech_diffs[min_speech_diffs_ids]}\n'
+    ymin = x.min()
+    ymax = x.max()
+    for idx, val in enumerate(intervals_flat):
+        color = 'red'
+        if idx in [min_silence_diffs_idx, min_silence_diffs_idx + 1]:
+            color = 'green'
+        ax.axvline(x=val * sr, ymin=0, ymax=1, color=color, alpha=0.6, linewidth=1)
+    ax.set_xlabel('Samples')
+    ax.set_ylabel('Amplitude')
+    ax.set_title('Audio Signal with Detected Intervals')
+    ax.grid(True, alpha=0.3)
+    plt.tight_layout()
+    buf = io.BytesIO()
+    plt.savefig(buf, format='png', dpi=100, bbox_inches='tight')
+    buf.seek(0)
+    img = Image.open(buf)
+    plt.close()
+    return img, info_text
+def process_audio(audio_file, min_silence_ms, min_speech_ms, pad_ms):
+    """معالجة الملف الصوتي وتقطيعه"""
+    if audio_file is None:
+        return None, "⚠️ من فضلك ارفع ملف صوتي", []
+    try:
+        # قراءة الملف
+        wav = read_audio(audio_file)
+        # تقسيم التلاوة
+        sampled_outputs = segment_recitations(
+            [wav],
+            model,
+            processor,
+            device=device,
+            dtype=dtype,
+            batch_size=4,
+        )
+        # تنظيف الفواصل
+        clean_out = clean_speech_intervals(
+            sampled_outputs[0].speech_intervals,
+            sampled_outputs[0].is_complete,
+            min_silence_duration_ms=min_silence_ms,
+            min_speech_duration_ms=min_speech_ms,
+            pad_duration_ms=pad_ms,
+            return_seconds=True,
+        )
+        intervals = clean_out.clean_speech_intervals
+        # رسم الإشارة
+        plot_img, stats_text = plot_signal(wav, intervals)
+        # استخراج المقاطع الصوتية
+        audio_segments = []
+        num_segments = len(intervals)
+        result_text = f"✅ تم التقطيع بنجاح!\n\n"
+        result_text += f"📊 عدد المقاطع: {num_segments}\n"
+        result_text += f"⏱️ طول الملف الأصلي: {len(wav)/16000:.2f} ثانية\n\n"
+        result_text += "=" * 50 + "\n"
+        result_text += stats_text
+        result_text += "=" * 50 + "\n\n"
+        for idx in range(num_segments):
+            audio_seg = get_interval(
+                x=wav,
+                intervals=intervals,
+                idx=idx,
+                delta=0.050,
+                exact_boundries=True
+            )
+            if isinstance(audio_seg, torch.Tensor):
+                audio_seg = audio_seg.cpu().numpy()
+            duration = len(audio_seg) / 16000
+            result_text += f"مقطع {idx + 1}: من {intervals[idx][0]:.2f}s إلى {intervals[idx][1]:.2f}s (المدة: {duration:.2f}s)\n"
+            audio_segments.append((16000, audio_seg))
+        return plot_img, result_text, audio_segments
+    except Exception as e:
+        return None, f"❌ حدث خطأ: {str(e)}", []
+# إنشاء واجهة Gradio
+with gr.Blocks(title="تقطيع التلاوات القرآنية", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("""
+    # 🕌 تقطيع التلاوات القرآنية
+    أداة لتقطيع ملفات التلاوات القرآنية تلقائياً باستخدام AI
+    **استخدم Model:** `obadx/recitation-segmenter-v2`
+    """)
+    with gr.Row():
+        with gr.Column(scale=1):
+            audio_input = gr.Audio(
+                label="📤 ارفع ملف التلاوة",
+                type="filepath"
+            )
+            with gr.Accordion("⚙️ إعدادات التقطيع", open=True):
+                min_silence = gr.Slider(
+                    minimum=10,
+                    maximum=500,
+                    value=30,
+                    step=10,
+                    label="أقل مدة للسكوت (ميلي ثانية)"
+                )
+                min_speech = gr.Slider(
+                    minimum=10,
+                    maximum=500,
+                    value=30,
+                    step=10,
+                    label="أقل مدة للكلام (ميلي ثانية)"
+                )
+                padding = gr.Slider(
+                    minimum=0,
+                    maximum=200,
+                    value=30,
+                    step=10,
+                    label="Padding (ميلي ثانية)"
+                )
+            process_btn = gr.Button("🚀 ابدأ التقطيع", variant="primary", size="lg")
+        with gr.Column(scale=2):
+            plot_output = gr.Image(label="📈 الإشارة الصوتية")
+            result_text = gr.Textbox(
+                label="📋 النتائج",
+                lines=15,
+                max_lines=20
+            )
+    gr.Markdown("### 🎵 المقاطع الصوتية المستخرجة")
+    audio_outputs = []
+    for i in range(20):  # عدد أقصى من المقاطع
+        audio_outputs.append(gr.Audio(label=f"مقطع {i+1}", visible=False))
+    def process_and_show(audio, min_sil, min_sp, pad):
+        plot, text, segments = process_audio(audio, min_sil, min_sp, pad)
+        outputs = [plot, text]
+        for i in range(20):
+            if i < len(segments):
+                outputs.append(gr.Audio(value=segments[i], visible=True))
+            else:
+                outputs.append(gr.Audio(visible=False))
+        return outputs
+    process_btn.click(
+        fn=process_and_show,
+        inputs=[audio_input, min_silence, min_speech, padding],
+        outputs=[plot_output, result_text] + audio_outputs
+    )
+    gr.Markdown("""
+    ---
+    ### 💡 معلومات
+    - الأداة تستخدم نموذج AI مدرب خصيصاً لتقطيع التلاوات القرآنية
+    - يتم اكتشاف فترات الكلام والسكوت تلقائياً
+    - يمكنك تعديل الإعدادات للحصول على نتائج أفضل
+    """)
+if __name__ == "__main__":
+    demo.launch()

requirements_txt.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+gradio
+torch
+transformers
+soundfile
+librosa
+matplotlib
+numpy
+Pillow
+recitations_segmenter