| | --- |
| | library_name: transformers |
| | tags: |
| | - toxicity-detection |
| | - NLP |
| | - classification |
| | - fine-tuning |
| | license: mit |
| | language: |
| | - pt |
| | metrics: |
| | - accuracy |
| | base_model: |
| | - google-bert/bert-base-uncased |
| | pipeline_tag: text-classification |
| | --- |
| | |
| | # Model Card for BERT Uncased Fine-Tuned on Toxicity Detection |
| |
|
| | ## Model Details |
| |
|
| | ### Model Description |
| |
|
| | Este modelo é um BERT base uncased fine-tuned para a detecção de toxicidade em tweets. Ele foi treinado em um dataset anotado com classificação binária: 0 para tweets não tóxicos e 1 para tweets tóxicos. |
| |
|
| | - **Desenvolvido por:** Carlos André Dos Santos Lima |
| | - **Tipo de modelo:** BERT (base-uncased) |
| | - **Idiomas:** Portugês |
| | - **Licença:** MIT |
| | - **Fine-tuned a partir de:** bert-base-uncased |
| |
|
| |
|
| | ## Uses |
| |
|
| | ### Uso Direto |
| |
|
| | Este modelo pode ser usado para identificar tweets tóxicos em Português. Pode ser aplicado diretamente em moderação de conteúdo, análise de sentimentos e detecção de discurso de ódio. |
| |
|
| |
|
| | ### Uso Fora do Escopo |
| |
|
| | O modelo pode apresentar viés ao classificar tweets fora do contexto do dataset de treinamento. Ele não é adequado para tomada de decisões críticas sem revisão humana. |
| |
|
| | ## Bias, Risks, and Limitations |
| |
|
| | - O modelo pode apresentar viés em suas predições devido à distribuição do dataset de treinamento. |
| | - Pode não generalizar bem para contextos diferentes daqueles presentes no dataset. |
| | - Recomenda-se revisão humana para evitar classificações injustas. |
| |
|
| | ## How to Get Started with the Model |
| |
|
| | ```python |
| | from transformers import pipeline |
| | |
| | toxicity_classifier = pipeline("text-classification", model="[modelo no Hugging Face]") |
| | |
| | text = "This is an example tweet." |
| | result = toxicity_classifier(text) |
| | print(result) |
| | ``` |
| |
|
| | ## Training Details |
| |
|
| | ### Training Data |
| |
|
| | O modelo foi treinado em um dataset contendo tweets anotados manualmente como tóxicos ou não tóxicos. |
| |
|
| | Arquivos do dataset: |
| | - `train.csv` - Dados de treino |
| | - `test.csv` - Dados de teste |
| | - `sample_submission.csv` - Exemplo de submissão |
| |
|
| | Colunas: |
| | - `id` - Identificador do tweet |
| | - `text` - Conteúdo do tweet |
| | - `label` - 0: não tóxico, 1: tóxico |
| |
|
| | ### Training Procedure |
| |
|
| | - **Hardware:** GPU T4 |
| | - **Hiperparâmetros:** |
| | - Batch size: 64 |
| | - Learning rate: 2e-5 |
| | - Epochs: 5 |
| | - Otimizador: AdamW |
| |
|
| | ## Evaluation |
| |
|
| | ### Dados e Métricas |
| |
|
| | - Dataset de teste utilizado para avaliação. |
| | - Principais métricas: |
| | - Acurácia |
| | - Precisão |
| | - Recall |
| | - F1-score |
| |
|
| |
|
| | ## Citation |
| |
|
| | Se usar este modelo, cite da seguinte forma: |
| |
|
| | ```bibtex |
| | @article{Carlos2025, |
| | title={Fine-Tuning BERT for Toxicity Detection}, |
| | author={Carlos André Dos Santos Lima}, |
| | journal={Hugging Face Model Hub}, |
| | year={2025} |
| | } |
| | ``` |
| |
|
| | ## Contato |
| |
|
| | Caso tenha dúvidas ou sugestões, entre em contato pelo e-mail: casl@aluno.ifal.edu.br ou abra uma issue no repositório do modelo no Hugging Face. |