Spaces:

reyhanadr
/

Sentiment_BitcoinHalving_IndoBERTweet

Sleeping

App Files Files Community

reyhanadr commited on Sep 28, 2025

Commit

87defe8

1 Parent(s): 99f3ba3

add cleaned_text for response

Browse files

Files changed (1) hide show

main.py +39 -0

main.py CHANGED Viewed

@@ -10,33 +10,70 @@ from typing import Dict, List
 # 1. KELAS LOGIKA ANDA (Tidak ada perubahan)
 # ====================================================================
 class TextCleaner:
     def __init__(self):
         self.character = ['.', ',', ';', ':', '?', '!', '(', ')', '[', ']', '{', '}', '<', '>', '"', '/', '\'', '-', '@']
         self.character.extend([chr(i) for i in range(ord('a'), ord('z') + 1)])
     def repeatcharClean(self, text):
         for char_to_clean in self.character:
             pattern = re.compile(re.escape(char_to_clean) + r'{3,}')
             text = pattern.sub(char_to_clean, text)
         return text
     def clean_review(self, text):
         text = text.lower()
         text = re.sub(r'\s+', ' ', text)
         text = re.sub(r'[^\x00-\x7F]+', ' ', text)
         new_text = []
         for word in text.split(" "):
             word = '@USER' if word.startswith('@') and len(word) > 1 else word
             word = 'HTTPURL' if word.startswith('http') else word
             new_text.append(word)
         text = " ".join(new_text)
         text = emoji.demojize(text)
         text = re.sub(r':[A-Za-z_-]+:', ' ', text)
         text = re.sub(r"([xX;:]'?[dDpPvVoO3)(])", ' ', text)
         text = re.sub(r'["#$%&()*+,./:;<=>\[\]\\^_`{|}~]', ' ', text)
         text = self.repeatcharClean(text)
         text = re.sub(r'\s+', ' ', text).strip()
         return text
 class SentimentPredictor:
@@ -100,6 +137,7 @@ class BatchTextInput(BaseModel):
 # -----------------------------------------------------------
 class PredictionOutput(BaseModel):
     sentiment: str
     confidence: float
     all_scores: Dict[str, float]
@@ -129,6 +167,7 @@ def predict_sentiment_batch(request: BatchTextInput):
         cleaned_text = text_cleaner.clean_review(text)
         sentiment, confidence, all_scores = sentiment_predictor.predict(cleaned_text)
         results.append(PredictionOutput(
             sentiment=sentiment,
             confidence=confidence,
             all_scores=all_scores

 # 1. KELAS LOGIKA ANDA (Tidak ada perubahan)
 # ====================================================================
+# Impor library yang dibutuhkan
+import re # Untuk operasi regular expression
+import emoji # Untuk menangani emoji
+# Definisikan sebuah kelas untuk mengelompokkan semua fungsi pembersihan teks
 class TextCleaner:
+    # Metode constructor, dieksekusi saat objek TextCleaner dibuat
     def __init__(self):
+        # Inisialisasi daftar karakter yang akan diperiksa untuk pengulangan.
+        # Daftar ini berisi berbagai tanda baca dan simbol.
         self.character = ['.', ',', ';', ':', '?', '!', '(', ')', '[', ']', '{', '}', '<', '>', '"', '/', '\'', '-', '@']
+        # Tambahkan semua huruf abjad (a-z) ke dalam daftar karakter di atas.
         self.character.extend([chr(i) for i in range(ord('a'), ord('z') + 1)])
+    # Metode untuk membersihkan karakter yang berulang lebih dari 2 kali (misal: "haaiiii" -> "haai").
     def repeatcharClean(self, text):
+        # Ulangi untuk setiap karakter dalam daftar 'self.character'
         for char_to_clean in self.character:
+            # Buat pola regex untuk menemukan karakter yang berulang 3 kali atau lebih secara berurutan.
+            # Contoh: jika char_to_clean adalah 'a', polanya akan mencari 'aaa' atau 'aaaa', dst.
             pattern = re.compile(re.escape(char_to_clean) + r'{3,}')
+            # Ganti urutan karakter yang berulang tersebut dengan satu karakter saja.
+            # Contoh: "good moooorning" menjadi "good morning".
             text = pattern.sub(char_to_clean, text)
         return text
+    # Metode utama untuk menjalankan seluruh proses pembersihan teks
     def clean_review(self, text):
+        # 1. Ubah semua teks menjadi huruf kecil (lowercase) untuk konsistensi.
         text = text.lower()
+        # 2. Ganti spasi, tab, atau baris baru yang berlebih dengan satu spasi saja.
         text = re.sub(r'\s+', ' ', text)
+        # 3. Hapus karakter non-ASCII (seperti karakter Cina, Arab, atau beberapa emoji kompleks).
         text = re.sub(r'[^\x00-\x7F]+', ' ', text)
+        # 4. Ganti @mention dan URL dengan token placeholder.
         new_text = []
+        # Pecah teks menjadi kata-kata
         for word in text.split(" "):
+            # Jika kata diawali dengan '@' dan lebih dari 1 karakter, ganti dengan '@USER'.
             word = '@USER' if word.startswith('@') and len(word) > 1 else word
+            # Jika kata diawali dengan 'http', ganti dengan 'HTTPURL'.
             word = 'HTTPURL' if word.startswith('http') else word
             new_text.append(word)
+        # Gabungkan kembali kata-kata menjadi satu kalimat.
         text = " ".join(new_text)
+        # 5. Ubah emoji menjadi representasi teksnya (misal: 😊 -> ':smiling_face:').
         text = emoji.demojize(text)
+        # 6. Hapus representasi teks emoji yang polanya seperti ':nama_emoji:'.
         text = re.sub(r':[A-Za-z_-]+:', ' ', text)
+        # 7. Hapus emoticon umum berbasis teks seperti :), :D, :(, xD, dll.
         text = re.sub(r"([xX;:]'?[dDpPvVoO3)(])", ' ', text)
+        # 8. Hapus semua tanda baca dan simbol yang tersisa.
         text = re.sub(r'["#$%&()*+,./:;<=>\[\]\\^_`{|}~]', ' ', text)
+        # 9. Panggil metode 'repeatcharClean' untuk membersihkan karakter yang berulang.
         text = self.repeatcharClean(text)
+        # 10. Lakukan pembersihan spasi terakhir dan hapus spasi di awal/akhir kalimat.
         text = re.sub(r'\s+', ' ', text).strip()
+        # Kembalikan teks yang sudah bersih
         return text
 class SentimentPredictor:
 # -----------------------------------------------------------
 class PredictionOutput(BaseModel):
+    cleaned_text: str = None  # Optional, hanya diisi pada batch
     sentiment: str
     confidence: float
     all_scores: Dict[str, float]
         cleaned_text = text_cleaner.clean_review(text)
         sentiment, confidence, all_scores = sentiment_predictor.predict(cleaned_text)
         results.append(PredictionOutput(
+            cleaned_text=cleaned_text,
             sentiment=sentiment,
             confidence=confidence,
             all_scores=all_scores