Spaces:

WildOjisan
/

python_roberta_hf

Runtime error

+# Dockerfile
+FROM python:3.11-slim
+RUN apt-get update && apt-get install -y --no-install-recommends \
+    libglib2.0-0 libgl1 && \
+    rm -rf /var/lib/apt/lists/*
+# ✅ 캐시/토큰 경로를 /data로 강제
+ENV HF_HOME=/data \
+    TRANSFORMERS_CACHE=/data/transformers \
+    HF_HUB_CACHE=/data/hub \
+    HF_HUB_DISABLE_TELEMETRY=1 \
+    TOKENIZERS_PARALLELISM=false \
+    PYTHONUNBUFFERED=1 \
+    PYTHONDONTWRITEBYTECODE=1
+# ✅ 디렉터리 생성 + 퍼미션(쓰기 가능)
+RUN mkdir -p /data/transformers /data/hub && chmod -R 777 /data
+WORKDIR /app
+COPY requirements.txt /app/requirements.txt
+RUN pip install --no-cache-dir -r /app/requirements.txt
+COPY . /app
+EXPOSE 7860
+CMD ["sh", "-c", "uvicorn main:app --host 0.0.0.0 --port ${PORT:-7860} --workers 1"]

README.md CHANGED Viewed

@@ -8,3 +8,15 @@ pinned: false
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
+py -3.10 -m uv venv venv
+.\venv\Scripts\Activate.ps1
+윈도우에서 CUDA 버전 확인 방법
+nvcc --version
+GPU 드라이버가 지원하는 최대 CUDA 버전
+nvidia-smi
+uv pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

kobert_test.py ADDED Viewed

	@@ -0,0 +1,58 @@

+import torch
+import numpy as np
+from transformers import AutoModel
+# KoBERT 전용 토크나이저 로드 (Hugging Face 토크나이저와 다름)
+from kobert_tokenizer import KoBERTTokenizer
+# 1. GPU/CPU 장치 설정
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+print(f"사용 장치: {device}")
+# 2. 모델 및 토크나이저 로드 (추가 수정)
+MODEL_NAME = "monologg/kobert"
+# 토크나이저를 로드할 때 'monologg/kobert' 대신
+# SKT Brain의 공식 저장소 이름인 'skt/kobert-base-v1'을 사용하는 것이 더 안정적입니다.
+tokenizer = KoBERTTokenizer.from_pretrained('skt/kobert-base-v1')
+model = AutoModel.from_pretrained(MODEL_NAME)
+# 모델을 설정된 장치(GPU 또는 CPU)로 이동
+model.to(device)
+# 3. 임베딩(Embedding) 추출 함수 정의
+def get_kobert_embedding(text):
+    # 텍스트 토큰화 및 입력 형식으로 변환
+    inputs = tokenizer.batch_encode_plus(
+        [text], # 리스트 형태로 입력
+        padding='max_length',
+        max_length=64, # 최대 길이 지정 (필요에 따라 조정)
+        truncation=True,
+        return_tensors="pt" # PyTorch 텐서로 반환
+    ).to(device)
+    # 모델 추론 (Inference)
+    with torch.no_grad():
+        # output에는 last_hidden_state (각 토큰의 임베딩) 등이 포함됩니다.
+        outputs = model(**inputs)
+    # 문장 임베딩 추출: [CLS] 토큰의 임베딩을 사용합니다.
+    # last_hidden_state의 첫 번째 토큰 (인덱스 0)이 [CLS] 토큰이며, 전체 문장을 대표합니다.
+    # shape: (1, 768)
+    sentence_embedding = outputs.last_hidden_state[:, 0, :].cpu().numpy()
+    return sentence_embedding[0] # numpy 배열 (768차원)로 반환
+# 4. 당근마켓 리뷰 예제 실행
+review_sentences = [
+    "판매자님 매너가 너무 좋아서 기분 좋은 거래였습니다.",
+    "물건 상태가 생각보다 별로여서 아쉽네요. 다음엔 거래 안 할 것 같아요.",
+    "이 자전거 모델은 중고 시세가 어느 정도일까요?",
+]
+print("\n--- KoBERT 임베딩 추출 결과 ---")
+for sentence in review_sentences:
+    embedding = get_kobert_embedding(sentence)
+    print(f"문장: '{sentence}'")
+    print(f"  -> 임베딩 차원: {embedding.shape}") # 768차원
+    print(f"  -> 임베딩 벡터 일부 (첫 5개): {embedding[:5].round(4)}")
+    print("-" * 30)

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+torch
+transformers
+numpy
+scikit-learn
+datasets
+accelerate

requirements_bk.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+transformers
+numpy
+scikit-learn
+datasets
+accelerate

roberta_finetune.py ADDED Viewed

	@@ -0,0 +1,90 @@

+import torch
+import numpy as np
+from datasets import load_dataset, Dataset
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
+from sklearn.metrics import accuracy_score, f1_score
+# 1. GPU/CPU 장치 설정 (학습 시 Trainer가 자동으로 처리하므로 확인용)
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+print(f"사용 장치: {device}")
+# 2. 모델 및 토크나이저 로드
+MODEL_NAME = "FacebookAI/xlm-roberta-base"
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+# 분류를 위해 AutoModelForSequenceClassification 로드 (분류 헤드가 추가됨)
+model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME, num_labels=2)
+# num_labels=2: 긍정(1), 부정(0)을 구분하도록 설정
+# 3. 가상 데이터셋 준비 및 전처리
+# 실제 학습 시에는 여기에 당신의 당근마켓 리뷰 데이터를 로드해야 합니다.
+data = {
+    'text': [
+        "매너가 정말 좋으세요! 기분 좋은 거래였습니다.",  # 긍정
+        "물건 상태가 별로고 답변도 너무 느렸어요.",      # 부정
+        "빠른 응답과 깔끔한 거래 감사합니다.",          # 긍정
+        "가격이 너무 비싸네요. 비추입니다.",          # 부정
+        "오늘도 만족스러운 중고 거래였습니다.",         # 긍정
+        "시간 약속 안 지키고 연락도 잘 안 되네요.",     # 부정
+    ],
+    'label': [1, 0, 1, 0, 1, 0] # 1: 긍정, 0: 부정
+}
+raw_dataset = Dataset.from_dict(data)
+# 데이터셋을 학습(train)과 평가(test) 세트로 분할 (예시이므로 50:50)
+train_test_split = raw_dataset.train_test_split(test_size=0.5, seed=42)
+train_dataset = train_test_split['train']
+eval_dataset = train_test_split['test']
+def tokenize_function(examples):
+    # 입력 텍스트를 토큰화합니다.
+    return tokenizer(examples['text'], truncation=True, padding='max_length', max_length=128)
+# 데이터셋에 토크나이저 적용
+tokenized_train_dataset = train_dataset.map(tokenize_function, batched=True)
+tokenized_eval_dataset = eval_dataset.map(tokenize_function, batched=True)
+# 4. 평가 지표 함수 정의
+def compute_metrics(p):
+    # 예측된 로짓(logits)에서 argmax를 취해 예측 레이블을 얻습니다.
+    predictions = np.argmax(p.predictions, axis=1)
+    # 정확도(Accuracy)와 F1-Score를 계산합니다.
+    acc = accuracy_score(p.label_ids, predictions)
+    f1 = f1_score(p.label_ids, predictions, average='binary') # 긍정(1)에 대한 F1-Score
+    return {"accuracy": acc, "f1": f1}
+# 5. 학습 설정 (TrainingArguments)
+OUTPUT_DIR = "./xlm-roberta-review-classifier" # 모델을 저장할 경로
+training_args = TrainingArguments(
+    output_dir=OUTPUT_DIR,
+    num_train_epochs=3,                     # 학습 횟수 (실제 작업 시 3~5회 권장)
+    per_device_train_batch_size=8,          # GPU당 학습 배치 크기 (VRAM에 따라 조정)
+    per_device_eval_batch_size=8,           # GPU당 평가 배치 크기
+    warmup_steps=500,                       # 학습률이 최대치에 도달하는 단계 수
+    weight_decay=0.01,                      # 가중치 감소 (오버피팅 방지)
+    logging_dir='./logs',                   # 로그 저장 경로
+    logging_steps=10,
+    eval_strategy="epoch",            # 에포크마다 평가 수행
+    save_strategy="epoch",                  # 에포크마다 모델 저장
+    load_best_model_at_end=True,            # 학습 종료 시 가장 좋은 성능의 모델 로드
+    fp16=torch.cuda.is_available(),         # GPU 사용 시 속도를 위해 fp16 사용
+)
+# 6. Trainer 객체 생성 및 학습 시작
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_train_dataset,
+    eval_dataset=tokenized_eval_dataset,
+    compute_metrics=compute_metrics,
+)
+print("\n--- 파인 튜닝 시작 ---")
+trainer.train()
+# 7. 최종 모델 저장
+# 학습된 모델과 토크나이저를 지정된 경로에 저장합니다.
+print(f"\n--- 파인 튜닝 완료, 모델을 {OUTPUT_DIR}에 저장 중 ---")
+trainer.save_model(OUTPUT_DIR)
+tokenizer.save_pretrained(OUTPUT_DIR)
+print("모델 저장 완료. 이제 저장된 모델을 로드하여 바로 사용할 수 있습니다.")

roberta_test.py ADDED Viewed

	@@ -0,0 +1,56 @@

+import torch
+from transformers import AutoTokenizer, AutoModel
+import numpy as np
+# 1. GPU/CPU 장치 설정
+# CUDA (GPU) 사용 가능하면 'cuda', 아니면 'cpu'로 설정합니다.
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+print(f"사용 장치: {device}")
+# 2. 모델 및 토크나이저 로드
+# XLM-RoBERTa-base는 Sequence Classification이 아닌, 일반 임베딩 추출 모델로 로드합니다.
+MODEL_NAME = "FacebookAI/xlm-roberta-base"
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+model = AutoModel.from_pretrained(MODEL_NAME)
+# 모델을 설정된 장치(GPU 또는 CPU)로 이동
+model.to(device)
+# 3. 임베딩(Embedding) 추출 함수 정의
+def get_text_embedding(text):
+    # 텍스트를 토큰화하고 장치로 이동
+    inputs = tokenizer(
+        text,
+        return_tensors="pt", # PyTorch 텐서로 반환
+        padding=True,
+        truncation=True
+    ).to(device)
+    # 모델 추론 (Inference)
+    with torch.no_grad():
+        # output에는 last_hidden_state (각 토큰의 임베딩) 등이 포함됩니다.
+        outputs = model(**inputs)
+    # 문장 임베딩 추출: [CLS] 토큰의 임베딩을 사용합니다.
+    # last_hidden_state의 첫 번째 토큰 (인덱스 0)이 [CLS] 토큰이며, 전체 문장을 대표합니다.
+    # shape: (1, 768)
+    sentence_embedding = outputs.last_hidden_state[:, 0, :].cpu().numpy()
+    return sentence_embedding[0] # numpy 배열로 반환
+# 4. 당근마켓 리뷰 예제 실행
+review_sentences = [
+    "매너가 정말 좋으시고 물건도 깨끗해서 만족스러웠어요.",
+    "이건 좀 아닌듯. 물건 상태도 별로고 답변도 느렸습니다.",
+    "이 모델의 중고 시세는 얼마인가요?", # 일반적인 질문 문장
+    "This is a great product for the price." # 외국어 문장도 처리 가능
+]
+print("\n--- XLM-RoBERTa 임베딩 추출 결과 ---")
+for sentence in review_sentences:
+    embedding = get_text_embedding(sentence)
+    print(f"문장: '{sentence}'")
+    print(f"  -> 임베딩 차원: {embedding.shape}") # 768차원
+    print(f"  -> 임베딩 벡터 일부 (첫 5개): {embedding[:5].round(4)}")
+    print("-" * 20)

xtreme_distil_finetine.py ADDED Viewed

	@@ -0,0 +1,93 @@

+import torch
+import numpy as np
+from datasets import Dataset
+# IntervalStrategy를 명시적으로 임포트하여 버전 충돌을 방지합니다.
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer, IntervalStrategy
+from sklearn.metrics import accuracy_score, f1_score
+# 1. GPU/CPU 장치 설정
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+print(f"사용 장치: {device}")
+# 2. 모델 및 토크나이저 로드 (경량 모델 사용)
+MODEL_NAME = "microsoft/xtremedistil-l12-h384-uncased"
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+# AutoModelForSequenceClassification을 로드하여 분류층을 추가합니다.
+model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME, num_labels=2)
+# num_labels=2: 이진 분류 (긍정: 1, 부정: 0)
+# 3. 가상 데이터셋 준비 및 전처리
+# 실제 사용 시에는 이 부분을 당신의 한국어 리뷰 데이터로 대체해야 합니다.
+data = {
+    'text': [
+        "매너가 정말 좋으세요! 기분 좋은 거래였습니다.",
+        "물건 상태가 별로고 답변도 너무 느렸어요.",
+        "빠른 응답과 깔끔한 거래 감사합니다.",
+        "가격이 너무 비싸네요. 비추입니다.",
+        "오늘도 만족스러운 중고 거래였습니다.",
+        "시간 약속 안 지키고 연락도 잘 안 되네요.",
+        "친절함 덕분에 거래 과정이 순조로웠습니다.",
+        "판매글과 실제 제품이 달라서 실망했습니다.",
+    ],
+    'label': [1, 0, 1, 0, 1, 0, 1, 0] # 1: 긍정, 0: 부정
+}
+raw_dataset = Dataset.from_dict(data)
+# 데이터셋을 학습(train)과 평가(test) 세트로 분할 (8개 중 4개씩 분할)
+train_test_split = raw_dataset.train_test_split(test_size=0.5, seed=42)
+train_dataset = train_test_split['train']
+eval_dataset = train_test_split['test']
+def tokenize_function(examples):
+    # 입력 텍스트를 토큰화하고, 경량 모델에 맞게 max_length를 지정합니다.
+    return tokenizer(examples['text'], truncation=True, padding='max_length', max_length=128)
+# 데이터셋에 토크나이저 적용 및 PyTorch 텐서 형식으로 지정
+tokenized_train_dataset = train_dataset.map(tokenize_function, batched=True).with_format("torch")
+tokenized_eval_dataset = eval_dataset.map(tokenize_function, batched=True).with_format("torch")
+# 4. 평가 지표 함수 정의
+def compute_metrics(p):
+    predictions = np.argmax(p.predictions, axis=1)
+    acc = accuracy_score(p.label_ids, predictions)
+    f1 = f1_score(p.label_ids, predictions, average='binary') # 긍정(1)에 대한 F1-Score
+    return {"accuracy": acc, "f1": f1}
+# 5. 학습 설정 (TrainingArguments)
+OUTPUT_DIR = "./xtreme-distil-review-classifier" # 모델 저장 경로
+training_args = TrainingArguments(
+    output_dir=OUTPUT_DIR,
+    num_train_epochs=5,                     # 경량 모델이므로 에포크 수를 약간 늘렸습니다.
+    per_device_train_batch_size=8,          # 배치 크기
+    per_device_eval_batch_size=8,
+    warmup_steps=500,
+    weight_decay=0.01,
+    logging_dir='./logs',
+    logging_steps=10,
+    # 평가 및 저장 전략을 'EPOCH'으로 통일하여 load_best_model_at_end를 활성화합니다.
+    eval_strategy=IntervalStrategy.EPOCH,
+    save_strategy=IntervalStrategy.EPOCH,
+    load_best_model_at_end=True,
+    fp16=torch.cuda.is_available(),
+)
+# 6. Trainer 객체 생성 및 학습 시작
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_train_dataset,
+    eval_dataset=tokenized_eval_dataset,
+    compute_metrics=compute_metrics,
+)
+print("\n--- 파인 튜닝 시작 (XTREME-Distil 모델) ---")
+trainer.train()
+# 7. 최종 모델 저장
+print(f"\n--- 파인 튜닝 완료, 모델을 {OUTPUT_DIR}에 저장 중 ---")
+trainer.save_model(OUTPUT_DIR)
+tokenizer.save_pretrained(OUTPUT_DIR)
+print("모델 저장 완료. 이제 저장된 모델을 로드하여 바로 사용할 수 있습니다.")