Spaces:

LLDDWW
/

MedCard

Running

LLDDWW Claude commited on Oct 1

Commit

f16cb1a

1 Parent(s): 39446f7

feat: switch to PaddleOCR for better Korean text recognition

- Replace TrOCR with PaddleOCR (Korean model)
- Remove LLM model loading (not used)
- Simplify dependencies to only OCR-related packages
- PaddleOCR provides superior Korean text recognition

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>

Files changed (2) hide show

app.py +19 -50
requirements.txt +3 -9

app.py CHANGED Viewed

@@ -1,52 +1,17 @@
 import json
 import re
 from typing import List, Optional, Tuple
 import gradio as gr
 import spaces
-import torch
 from PIL import Image
-from transformers import VisionEncoderDecoderModel, TrOCRProcessor, AutoTokenizer, AutoModelForCausalLM
-# Stage 1: OCR 모델 (한국어 TrOCR로 문서에서 텍스트 추출)
-OCR_MODEL_ID = "ddobokki/ko-trocr"
-# Stage 2: LLM 모델 (텍스트에서 약 이름 추출)
-LLM_MODEL_ID = "Qwen/Qwen2.5-7B-Instruct"
-def _load_ocr_model():
-    """TrOCR 모델 로드"""
-    model = VisionEncoderDecoderModel.from_pretrained(
-        OCR_MODEL_ID,
-        device_map="auto",
-    )
-    processor = TrOCRProcessor.from_pretrained(OCR_MODEL_ID)
-    return model, processor
-def _load_llm_model():
-    """Qwen2.5 7B 모델 로드 (8bit 양자화)"""
-    model = AutoModelForCausalLM.from_pretrained(
-        LLM_MODEL_ID,
-        device_map="auto",
-        load_in_8bit=True,
-        torch_dtype=torch.float16,
-        trust_remote_code=True,
-    )
-    tokenizer = AutoTokenizer.from_pretrained(LLM_MODEL_ID, trust_remote_code=True)
-    return model, tokenizer
-print("🔄 Loading Korean TrOCR model (ddobokki/ko-trocr)...")
-OCR_MODEL, OCR_PROCESSOR = _load_ocr_model()
-print("✅ Korean TrOCR model loaded!")
-print("🔄 Loading Qwen2.5-7B-Instruct...")
-LLM_MODEL, LLM_TOKENIZER = _load_llm_model()
-print("✅ LLM model loaded!")
 def _extract_assistant_content(decoded: str) -> str:
@@ -67,17 +32,21 @@ def _extract_json_block(text: str) -> Optional[str]:
 def extract_text_from_image(image: Image.Image) -> str:
-    """Stage 1: TrOCR로 이미지에서 텍스트 추출 (OCR)"""
     try:
-        # TrOCR은 이미지 전체를 한 번에 처리
-        pixel_values = OCR_PROCESSOR(image, return_tensors="pt").pixel_values
-        pixel_values = pixel_values.to(device=OCR_MODEL.device, dtype=OCR_MODEL.dtype)
-        with torch.no_grad():
-            generated_ids = OCR_MODEL.generate(pixel_values)
-        extracted_text = OCR_PROCESSOR.batch_decode(generated_ids, skip_special_tokens=True)[0]
-        return extracted_text.strip()
     except Exception as e:
         raise Exception(f"OCR 오류: {str(e)}")
@@ -297,7 +266,7 @@ with gr.Blocks(theme=gr.themes.Soft(), css=CUSTOM_CSS) as demo:
     ---
     **ℹ️ OCR 모델**
-    - Korean TrOCR (ddobokki/ko-trocr) - 한국어 텍스트 인식에 최적화된 모델
     """)
 if __name__ == "__main__":

 import json
 import re
 from typing import List, Optional, Tuple
+import numpy as np
 import gradio as gr
 import spaces
 from PIL import Image
+from paddleocr import PaddleOCR
+# PaddleOCR 초기화 (한국어)
+print("🔄 Loading PaddleOCR (Korean)...")
+OCR_MODEL = PaddleOCR(use_angle_cls=True, lang='korean', use_gpu=True)
+print("✅ PaddleOCR loaded!")
 def _extract_assistant_content(decoded: str) -> str:
 def extract_text_from_image(image: Image.Image) -> str:
+    """PaddleOCR로 이미지에서 텍스트 추출"""
     try:
+        # PIL Image를 numpy array로 변환
+        img_array = np.array(image)
+        # PaddleOCR 실행
+        result = OCR_MODEL.ocr(img_array, cls=True)
+        # 결과에서 텍스트만 추출
+        if result and result[0]:
+            texts = [line[1][0] for line in result[0]]
+            extracted_text = "\n".join(texts)
+            return extracted_text.strip()
+        else:
+            return "텍스트를 찾을 수 없습니다."
     except Exception as e:
         raise Exception(f"OCR 오류: {str(e)}")
     ---
     **ℹ️ OCR 모델**
+    - PaddleOCR (Korean) - 한국어 텍스트 인식에 최적화된 OCR 엔진
     """)
 if __name__ == "__main__":

requirements.txt CHANGED Viewed

@@ -1,11 +1,5 @@
-transformers>=4.46.0
-torch>=2.1.0
-accelerate>=0.25.0
-einops
 gradio>=4.0.0
 Pillow
-sentencepiece
-torchvision
-qwen-vl-utils
-bitsandbytes>=0.41.0
-scipy

 gradio>=4.0.0
+paddleocr
+paddlepaddle-gpu
 Pillow
+numpy