IndoBERT - Deteksi Hoaks Berita Indonesia
Deskripsi Model
Model ini adalah versi fine-tuned dari indobenchmark/indobert-base-p1 yang dilatih secara spesifik untuk tugas klasifikasi teks pada berita berbahasa Indonesia. Tujuannya adalah untuk mengklasifikasikan sebuah artikel berita ke dalam dua kategori: Fakta (LABEL_0) atau Hoaks (LABEL_1).
Proyek ini dikembangkan sebagai bagian dari portofolio pribadi untuk mendemonstrasikan alur kerja MLOps dari pengumpulan data, analisis (EDA), pelatihan model baseline & advanced, hingga publikasi model.
Cara Penggunaan
Anda bisa menggunakan model ini dengan mudah menggunakan pipeline text-classification dari library transformers.
from transformers import pipeline
# Ganti dengan nama repositori Anda
repo_name = "[nama-user-huggingface-anda/nama-model-anda]"
# Inisialisasi pipeline
classifier = pipeline("text-classification", model=repo_name)
# Contoh teks berita hoaks
teks_hoaks = "Pemerintah akan segera membagikan bantuan kuota internet sebesar 500GB untuk semua pelajar dan mahasiswa yang berlaku selama 1 tahun penuh. Cukup klik link berikut untuk mengklaimnya."
# Contoh teks berita fakta
teks_fakta = "Menteri Keuangan Sri Mulyani Indrawati memproyeksi pertumbuhan ekonomi Indonesia hanya akan mencapai 2,3 persen pada tahun ini. Proyeksi itu lebih rendah dari asumsi makro dalam APBN 2020 sebesar 5,3 persen."
# Lakukan prediksi
hasil = classifier([teks_hoaks, teks_fakta])
print(hasil)
Data Pelatihan
Model ini dilatih pada dataset gabungan dari 4 sumber berita (CNN, Detik, Kompas, dan TurnBackHoax.id.) yang dikompilasi oleh Wersbo dan Mochamad Abdul Azis dan tersedia di Kaggle.
Total Data: 24,592 artikel berita
Distribusi: Dataset ini cukup seimbang dengan komposisi sekitar 51.6% berita Fakta dan 48.4% berita Hoaks.
Prosedur Pelatihan
Model ini di-fine-tune selama 3 epoch dengan ukuran batch 8. Proses pelatihan menggunakan optimizer AdamW dengan learning rate awal 5e-5. Teks diproses menggunakan tokenizer IndoBERT dengan panjang maksimal 512 token.
Hasil Evaluasi
Evaluasi dilakukan pada 20% data uji (4,919 artikel) yang tidak pernah dilihat oleh model selama pelatihan. Model ini menunjukkan peningkatan performa yang signifikan dibandingkan dengan model baseline (TF-IDF + Naive Bayes).
Akurasi: 99.84%
F1-Score (untuk kelas Hoaks): 0.99
Kegunaan & Keterbatasan
Kegunaan: Model ini ditujukan untuk tujuan edukasi dan sebagai alat bantu awal untuk mengidentifikasi potensi disinformasi.
Keterbatasan: Model ini bukanlah "detektor kebenaran" absolut. Performanya sangat bergantung pada pola bahasa yang ada di data latih. Model ini mungkin keliru pada jenis hoaks yang baru, sarkasme, atau topik yang sangat spesifik. Hasil dari model ini harus selalu dianggap sebagai indikasi awal, bukan sebagai keputusan final. Selalu lakukan verifikasi silang ke sumber yang kredibel.
Author
Dibuat oleh Faris Alfarizi. Lihat proyek lengkapnya di GitHub: https://github.com/farisalfrz/ril-or-fek-project.
- Downloads last month
- 129