--- language: id license: mit library_name: transformers pipeline_tag: text-classification tags: - indobert - indonesian - hoax-detection - text-classification datasets: - mochamadabdulazis/deteksi-berita-hoaks-indo-dataset --- # IndoBERT - Deteksi Hoaks Berita Indonesia ## Deskripsi Model Model ini adalah versi *fine-tuned* dari `indobenchmark/indobert-base-p1` yang dilatih secara spesifik untuk tugas klasifikasi teks pada berita berbahasa Indonesia. Tujuannya adalah untuk mengklasifikasikan sebuah artikel berita ke dalam dua kategori: **Fakta (LABEL_0)** atau **Hoaks (LABEL_1)**. Proyek ini dikembangkan sebagai bagian dari portofolio pribadi untuk mendemonstrasikan alur kerja MLOps dari pengumpulan data, analisis (EDA), pelatihan model *baseline* & *advanced*, hingga publikasi model. ## Cara Penggunaan Anda bisa menggunakan model ini dengan mudah menggunakan *pipeline* `text-classification` dari *library* `transformers`. ```python from transformers import pipeline # Ganti dengan nama repositori Anda repo_name = "[nama-user-huggingface-anda/nama-model-anda]" # Inisialisasi pipeline classifier = pipeline("text-classification", model=repo_name) # Contoh teks berita hoaks teks_hoaks = "Pemerintah akan segera membagikan bantuan kuota internet sebesar 500GB untuk semua pelajar dan mahasiswa yang berlaku selama 1 tahun penuh. Cukup klik link berikut untuk mengklaimnya." # Contoh teks berita fakta teks_fakta = "Menteri Keuangan Sri Mulyani Indrawati memproyeksi pertumbuhan ekonomi Indonesia hanya akan mencapai 2,3 persen pada tahun ini. Proyeksi itu lebih rendah dari asumsi makro dalam APBN 2020 sebesar 5,3 persen." # Lakukan prediksi hasil = classifier([teks_hoaks, teks_fakta]) print(hasil) ``` ## Data Pelatihan Model ini dilatih pada dataset gabungan dari 4 sumber berita (CNN, Detik, Kompas, dan TurnBackHoax.id.) yang dikompilasi oleh Wersbo dan Mochamad Abdul Azis dan tersedia di Kaggle. Total Data: 24,592 artikel berita Distribusi: Dataset ini cukup seimbang dengan komposisi sekitar 51.6% berita Fakta dan 48.4% berita Hoaks. ## Prosedur Pelatihan Model ini di-fine-tune selama 3 epoch dengan ukuran batch 8. Proses pelatihan menggunakan optimizer AdamW dengan learning rate awal 5e-5. Teks diproses menggunakan tokenizer IndoBERT dengan panjang maksimal 512 token. ## Hasil Evaluasi Evaluasi dilakukan pada 20% data uji (4,919 artikel) yang tidak pernah dilihat oleh model selama pelatihan. Model ini menunjukkan peningkatan performa yang signifikan dibandingkan dengan model baseline (TF-IDF + Naive Bayes). Akurasi: 99.84% F1-Score (untuk kelas Hoaks): 0.99 ## Kegunaan & Keterbatasan Kegunaan: Model ini ditujukan untuk tujuan edukasi dan sebagai alat bantu awal untuk mengidentifikasi potensi disinformasi. Keterbatasan: Model ini bukanlah "detektor kebenaran" absolut. Performanya sangat bergantung pada pola bahasa yang ada di data latih. Model ini mungkin keliru pada jenis hoaks yang baru, sarkasme, atau topik yang sangat spesifik. Hasil dari model ini harus selalu dianggap sebagai indikasi awal, bukan sebagai keputusan final. Selalu lakukan verifikasi silang ke sumber yang kredibel. ## Author Dibuat oleh Faris Alfarizi. Lihat proyek lengkapnya di GitHub: https://github.com/farisalfrz/ril-or-fek-project.