|
|
|
|
|
--- |
|
|
tags: |
|
|
- bertopic |
|
|
library_name: bertopic |
|
|
pipeline_tag: text-classification |
|
|
--- |
|
|
|
|
|
# BERTopic_IlPost_baseModel |
|
|
|
|
|
This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model. |
|
|
BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets. |
|
|
|
|
|
## Usage |
|
|
|
|
|
To use this model, please install BERTopic: |
|
|
|
|
|
``` |
|
|
pip install -U bertopic |
|
|
``` |
|
|
|
|
|
You can use the model as follows: |
|
|
|
|
|
```python |
|
|
from bertopic import BERTopic |
|
|
topic_model = BERTopic.load("alexman83/BERTopic_IlPost_baseModel") |
|
|
|
|
|
topic_model.get_topic_info() |
|
|
``` |
|
|
|
|
|
## Topic overview |
|
|
|
|
|
* Number of topics: 69 |
|
|
* Number of training documents: 1604 |
|
|
|
|
|
<details> |
|
|
<summary>Click here for an overview of all topics.</summary> |
|
|
|
|
|
| Topic ID | Topic Keywords | Topic Frequency | Label | |
|
|
|----------|----------------|-----------------|-------| |
|
|
| -1 | italia - azienda - altre - soprattutto - euro | 5 | -1_italia_azienda_altre_soprattutto | |
|
|
| 0 | specie - animali - casi - orsi - virus | 439 | 0_specie_animali_casi_orsi | |
|
|
| 1 | acqua - aria - mare - attività - inquinamento | 104 | 1_acqua_aria_mare_attività | |
|
|
| 2 | libro - romanzo - libri - scrittore - romanzi | 65 | 2_libro_romanzo_libri_scrittore | |
|
|
| 3 | partito - centrosinistra - candidato - pd - elezioni | 62 | 3_partito_centrosinistra_candidato_pd | |
|
|
| 4 | studi - salute - effetti - studio - ricerca | 35 | 4_studi_salute_effetti_studio | |
|
|
| 5 | olimpiadi - parigi - atleti - paralimpiadi - cerimonia | 33 | 5_olimpiadi_parigi_atleti_paralimpiadi | |
|
|
| 6 | legge - decreto - presidente - italia - riforma | 33 | 6_legge_decreto_presidente_italia | |
|
|
| 7 | moda - scarpe - calzini - tasche - modelli | 30 | 7_moda_scarpe_calzini_tasche | |
|
|
| 8 | economia - tassi - aumento - inflazione - prezzi | 29 | 8_economia_tassi_aumento_inflazione | |
|
|
| 9 | carcere - detenuti - salis - carceri - italia | 28 | 9_carcere_detenuti_salis_carceri | |
|
|
| 10 | article text - to extract - to extract article - text - failed to extract | 26 | 10_article text_to extract_to extract article_text | |
|
|
| 11 | apple - app - iphone - visore - smartphone | 24 | 11_apple_app_iphone_visore | |
|
|
| 12 | israele - palestinesi - gaza - israeliano - hamas | 23 | 12_israele_palestinesi_gaza_israeliano | |
|
|
| 13 | musk - twitter - tweet - zuckerberg - social | 23 | 13_musk_twitter_tweet_zuckerberg | |
|
|
| 14 | gioco - videogiochi - giochi - videogioco - film | 22 | 14_gioco_videogiochi_giochi_videogioco | |
|
|
| 15 | moda - kahlo - abito - met - gala | 22 | 15_moda_kahlo_abito_met | |
|
|
| 16 | tiktok - utenti - contenuti - social - facebook | 21 | 16_tiktok_utenti_contenuti_social | |
|
|
| 17 | toti - presidente - meloni - genova - italia | 21 | 17_toti_presidente_meloni_genova | |
|
|
| 18 | musica - spotify - canzoni - verde - album | 20 | 18_musica_spotify_canzoni_verde | |
|
|
| 19 | band - concerti - noel - concerto - musica | 20 | 19_band_concerti_noel_concerto | |
|
|
| 20 | google - intelligenza - artificiale - intelligenza artificiale - openai | 19 | 20_google_intelligenza_artificiale_intelligenza artificiale | |
|
|
| 21 | vinto - medaglia - finale - oro - olimpiadi | 19 | 21_vinto_medaglia_finale_oro | |
|
|
| 22 | metri - olimpiadi - oro - gara - vinto | 19 | 22_metri_olimpiadi_oro_gara | |
|
|
| 23 | shein - lusso - azienda - vestiti - marchi | 18 | 23_shein_lusso_azienda_vestiti | |
|
|
| 24 | stellantis - auto - fiat - marelli - stabilimento | 17 | 24_stellantis_auto_fiat_marelli | |
|
|
| 25 | nasa - spaziale - starliner - terra - lancio | 17 | 25_nasa_spaziale_starliner_terra | |
|
|
| 26 | superbonus - commissione - italia - giorgetti - spesa | 17 | 26_superbonus_commissione_italia_giorgetti | |
|
|
| 27 | sinner - tennis - torneo - partita - tennista | 16 | 27_sinner_tennis_torneo_partita | |
|
|
| 28 | bonatti - gutu - metri - alpinisti - rzucidlo | 16 | 28_bonatti_gutu_metri_alpinisti | |
|
|
| 29 | olimpiadi - atleti - sport - metri - gare | 15 | 29_olimpiadi_atleti_sport_metri | |
|
|
| 30 | harris - trump - convention - biden - discorso | 15 | 30_harris_trump_convention_biden | |
|
|
| 31 | pesce - carne - burger - smash - smash burger | 14 | 31_pesce_carne_burger_smash | |
|
|
| 32 | barca - bayesian - lynch - naufragio - equipaggio | 14 | 32_barca_bayesian_lynch_naufragio | |
|
|
| 33 | libri - nobel - premio - letteratura - autori | 13 | 33_libri_nobel_premio_letteratura | |
|
|
| 34 | cravatta - dogg - foto - snoop dogg - snoop | 13 | 34_cravatta_dogg_foto_snoop dogg | |
|
|
| 35 | crowdstrike - windows - informatico - aggiornamento - software | 12 | 35_crowdstrike_windows_informatico_aggiornamento | |
|
|
| 36 | adidas - drop - birkin - strisce - lives matter | 12 | 36_adidas_drop_birkin_strisce | |
|
|
| 37 | vele - vela - vela celeste - crollo - celeste | 11 | 37_vele_vela_vela celeste_crollo | |
|
|
| 38 | chatgpt - openai - intelligenza - intelligenza artificiale - artificiale | 11 | 38_chatgpt_openai_intelligenza_intelligenza artificiale | |
|
|
| 39 | nvidia - nft - settore - azienda - aziende | 11 | 39_nvidia_nft_settore_azienda | |
|
|
| 40 | ucraina - ucraino - esercito - kursk - russo | 11 | 40_ucraina_ucraino_esercito_kursk | |
|
|
| 41 | chanel - valentino - moda - garavani - gucci | 10 | 41_chanel_valentino_moda_garavani | |
|
|
| 42 | sole - cielo - eclissi - terra - solare | 10 | 42_sole_cielo_eclissi_terra | |
|
|
| 43 | post - spiegate - giornalismo - dicose spiegate - dicose | 10 | 43_post_spiegate_giornalismo_dicose spiegate | |
|
|
| 44 | europea - servizi - unione europea - commissione - piattaforme | 10 | 44_europea_servizi_unione europea_commissione | |
|
|
| 45 | sesso - donne - lgbt - genere - victoria secret | 10 | 45_sesso_donne_lgbt_genere | |
|
|
| 46 | borse - monete - lusso - pantofole - valore | 10 | 46_borse_monete_lusso_pantofole | |
|
|
| 47 | von der - der - von - der leyen - von der leyen | 9 | 47_von der_der_von_der leyen | |
|
|
| 48 | google - browser - cookie - pubblicità - ricerca | 9 | 48_google_browser_cookie_pubblicità | |
|
|
| 49 | libri - biblioteca - library - biblioteche - lugo | 9 | 49_libri_biblioteca_library_biblioteche | |
|
|
| 50 | italia - migranti - cittadinanza - cittadinanza italiana - albania | 9 | 50_italia_migranti_cittadinanza_cittadinanza italiana | |
|
|
| 51 | libro - moehringer - harry - winfrey - libri | 8 | 51_libro_moehringer_harry_winfrey | |
|
|
| 52 | linguaggio - mito - antartide - lingua - comune | 8 | 52_linguaggio_mito_antartide_lingua | |
|
|
| 53 | altman - openai - microsoft - amministrazione - intelligenza | 7 | 53_altman_openai_microsoft_amministrazione | |
|
|
| 54 | lega - fratelli - fratelli italia - italia - salvini | 7 | 54_lega_fratelli_fratelli italia_italia | |
|
|
| 55 | tesla - musk - cybertruck - auto - model | 7 | 55_tesla_musk_cybertruck_auto | |
|
|
| 56 | film - vescica - shyamalan - scorsese - roth | 7 | 56_film_vescica_shyamalan_scorsese | |
|
|
| 57 | mercato - auto - dazi - euro - cina | 7 | 57_mercato_auto_dazi_euro | |
|
|
| 58 | bergamo - treni - lavori - alta - turismo | 7 | 58_bergamo_treni_lavori_alta | |
|
|
| 59 | verona - sogliano - squadra - atalanta - calciatori | 7 | 59_verona_sogliano_squadra_atalanta | |
|
|
| 60 | pogačar - tour - de france - tour de france - tour de | 7 | 60_pogačar_tour_de france_tour de france | |
|
|
| 61 | natale - calendario - regali - dicembre - magi | 7 | 61_natale_calendario_regali_dicembre | |
|
|
| 62 | vino - vini - matcha - tè - birra | 6 | 62_vino_vini_matcha_tè | |
|
|
| 63 | partito - elezioni - afd - turingia - italia | 6 | 63_partito_elezioni_afd_turingia | |
|
|
| 64 | hauser - polizia - stazzema - sant anna - sant | 6 | 64_hauser_polizia_stazzema_sant anna | |
|
|
| 65 | numeri casuali - casuali - numeri - garavaglia - italia | 6 | 65_numeri casuali_casuali_numeri_garavaglia | |
|
|
| 66 | philo - skims - marchio - moda - collezione | 5 | 66_philo_skims_marchio_moda | |
|
|
| 67 | lavastoviglie - lavaggio - acqua - piatti - stoviglie | 5 | 67_lavastoviglie_lavaggio_acqua_piatti | |
|
|
|
|
|
</details> |
|
|
|
|
|
## Training hyperparameters |
|
|
|
|
|
* calculate_probabilities: True |
|
|
* language: italian |
|
|
* low_memory: False |
|
|
* min_topic_size: 5 |
|
|
* n_gram_range: (1, 1) |
|
|
* nr_topics: None |
|
|
* seed_topic_list: None |
|
|
* top_n_words: 10 |
|
|
* verbose: True |
|
|
* zeroshot_min_similarity: 0.7 |
|
|
* zeroshot_topic_list: None |
|
|
|
|
|
## Framework versions |
|
|
|
|
|
* Numpy: 1.26.4 |
|
|
* HDBSCAN: 0.8.33 |
|
|
* UMAP: 0.5.5 |
|
|
* Pandas: 2.2.1 |
|
|
* Scikit-Learn: 1.5.1 |
|
|
* Sentence-transformers: 2.5.1 |
|
|
* Transformers: 4.44.2 |
|
|
* Numba: 0.59.0 |
|
|
* Plotly: 5.19.0 |
|
|
* Python: 3.10.13 |
|
|
|