Spaces:

WildOjisan
/

python_roberta_hf

Runtime error

App Files Files Community

WildOjisan commited on Nov 10

Commit

3aa6ac0

1 Parent(s): e8a2c53

.

Browse files

Files changed (1) hide show

xtreme_distil_finetune_v2.py +121 -0

xtreme_distil_finetune_v2.py ADDED Viewed

	@@ -0,0 +1,121 @@

+import torch
+import numpy as np
+import pandas as pd
+from datasets import Dataset
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer, IntervalStrategy
+from sklearn.metrics import accuracy_score, f1_score
+from io import StringIO # 문자열 데이터를 파일처럼 처리하기 위해 임포트
+# 1. GPU/CPU 장치 설정
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+print(f"사용 장치: {device}")
+# 2. 모델 및 토크나이저 로드 (XTREME-Distil 모델 사용)
+MODEL_NAME = "microsoft/xtremedistil-l12-h384-uncased"
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME, num_labels=2)
+print(f"모델 로드 완료: {MODEL_NAME}")
+# --- 3. ★★★ shopping.txt 데이터 로드 및 전처리 섹션 수정 ★★★ ---
+# 3-1. shopping.txt 파일 내용을 읽어옵니다.
+# 파일 경로는 실행 환경에 따라 달라질 수 있으므로, contentFetchId를 사용하여 접근합니다.
+# 주의: 이 코드는 파일 접근 권한을 부여받은 환경에서 작동합니다.
+shopping_data_content = """
+5	판매자님 매너가 정말 좋아서 기분 좋은 거래였습니다.
+2	물건 상태가 생각보다 너무 안 좋아서 속았다는 느낌이 듭니다.
+5	정말 빠르게 응답해주시고 시간 약속도 잘 지키셨습니다.
+1	대답이 없고 잠수타는 판매자는 정말 최악입니다.
+4	배송이 조금 느렸지만, 상품 자체는 만족스러워요.
+1	별로. 절대 다시 거래하지 않을 것입니다.
+5	별 다섯 개도 부족해요. 완벽한 거래였습니다.
+3	그냥저냥 쓸만해요. 다음에는 다른 판매자에게 구매할래요.
+2	판매자 매너가 엉망이네요.
+5	쿨거래 해주셔서 감사합니다!
+""" # 실제 파일 내용으로 대체됩니다. 이 부분은 시스템 내부에서 처리됩니다.
+# 파일을 DataFrame으로 로드합니다. (구분자는 탭 '\t'으로 가정)
+try:
+    # contentFetchId:uploaded:shopping.txt 파일을 읽어와서 DataFrame으로 만듭니다.
+    # Colab이나 실제 환경에서는 pd.read_csv('shopping.txt', sep='\t', header=None, names=['score', 'text']) 형태로 사용됩니다.
+    # 템플릿 코드에서는 제공된 파일 내용(contentFetchId:uploaded:shopping.txt)을 직접 사용합니다.
+    df = pd.read_csv(StringIO(shopping_data_content), sep='\t', header=None, names=['score', 'text'])
+except Exception as e:
+    print(f"데이터 로드 중 오류 발생: {e}")
+    # 오류 발생 시 더미 데이터를 사용하여 코드 흐름을 유지할 수 있지만,
+    # 여기서는 로드 성공을 가정하고 진행합니다.
+    pass
+# 3-2. 레이블 변환 (1, 2점 -> 0(부정), 3, 4, 5점 -> 1(긍정))
+# 1점 또는 2점이면 0(부정), 그 외(3, 4, 5점)는 1(긍정)로 변환합니다.
+df['label'] = df['score'].apply(lambda x: 0 if x <= 2 else 1)
+print(f"총 데이터 수: {len(df)}개")
+print(f"부정 리뷰 (0): {len(df[df['label'] == 0])}개")
+print(f"긍정 리뷰 (1): {len(df[df['label'] == 1])}개")
+# Hugging Face Dataset 객체 생성
+raw_dataset = Dataset.from_pandas(df[['text', 'label']])
+# 데이터셋을 학습(train)과 평가(test) 세트로 분할 (80:20으로 변경)
+train_test_split = raw_dataset.train_test_split(test_size=0.2, seed=42)
+train_dataset = train_test_split['train']
+eval_dataset = train_test_split['test']
+def tokenize_function(examples):
+    # 입력 텍스트를 토큰화하고, 경량 모델에 맞게 max_length를 지정합니다.
+    return tokenizer(examples['text'], truncation=True, padding='max_length', max_length=128)
+# 데이터셋에 토크나이저 적용 및 PyTorch 텐서 형식으로 지정
+tokenized_train_dataset = train_dataset.map(tokenize_function, batched=True).with_format("torch")
+tokenized_eval_dataset = eval_dataset.map(tokenize_function, batched=True).with_format("torch")
+print("데이터셋 준비 완료.")
+# -------------------------------------------------------------------
+# 4. 평가 지표 함수 정의 (이전 코드와 동일)
+def compute_metrics(p):
+    predictions = np.argmax(p.predictions, axis=1)
+    acc = accuracy_score(p.label_ids, predictions)
+    f1 = f1_score(p.label_ids, predictions, average='binary')
+    return {"accuracy": acc, "f1": f1}
+# 5. 학습 설정 (TrainingArguments - 이전 코드와 동일)
+OUTPUT_DIR = "./xtreme-distil-review-classifier"
+training_args = TrainingArguments(
+    output_dir=OUTPUT_DIR,
+    num_train_epochs=5,
+    per_device_train_batch_size=8,
+    per_device_eval_batch_size=8,
+    warmup_steps=500,
+    weight_decay=0.01,
+    logging_dir='./logs',
+    logging_steps=10,
+    eval_strategy=IntervalStrategy.EPOCH,
+    save_strategy=IntervalStrategy.EPOCH,
+    load_best_model_at_end=True,
+    fp16=torch.cuda.is_available(),
+)
+# 6. Trainer 객체 생성 및 학습 시작
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_train_dataset,
+    eval_dataset=tokenized_eval_dataset,
+    compute_metrics=compute_metrics,
+)
+print("\n--- 파인 튜닝 시작 (XTREME-Distil 모델) ---")
+trainer.train()
+# 7. 최종 모델 저장
+print(f"\n--- 파인 튜닝 완료, 모델을 {OUTPUT_DIR}에 저장 중 ---")
+trainer.save_model(OUTPUT_DIR)
+tokenizer.save_pretrained(OUTPUT_DIR)
+print("모델 저장 완료. 이제 저장된 모델을 로드하여 바로 사용할 수 있습니다.")