Spacy2

Paused

lik07 commited on Oct 4, 2024

Commit

2615d12

verified ·

1 Parent(s): ace795f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ from docx import Document
 from io import BytesIO
 import tempfile
 import os
 # Cargar el modelo de SpaCy en español
 nlp = spacy.load('zh_core_web_trf')
@@ -12,6 +13,7 @@ nlp = spacy.load('zh_core_web_trf')
 # Función para procesar bloques de texto y extraer nombres de personas
 def extract_names_from_text(text):
     doc = nlp(text)
     # Extraer las entidades de tipo PERSON
     persons = [ent.text for ent in doc.ents if ent.label_ == 'PERSON']
@@ -43,6 +45,13 @@ def split_text(text, max_length=100000):
     return result
 # Función principal para extraer nombres de personas desde un archivo DOCX
 def extract_names_from_docx(docx_file):
     # Cargar el archivo DOCX
@@ -57,11 +66,12 @@ def extract_names_from_docx(docx_file):
     # Dividir el texto en fragmentos si es necesario
     text_fragments = split_text(text)
-    # Extraer los nombres de cada fragmento y combinarlos
     all_persons = []
-    for fragment in text_fragments:
-        print(f'{len(fragment)}\n\n{fragment}')
-        persons = extract_names_from_text(fragment)
         all_persons.extend(persons)
     # Eliminar duplicados

 from io import BytesIO
 import tempfile
 import os
+import multiprocessing as mp  # Importar multiprocessing para paralelismo
 # Cargar el modelo de SpaCy en español
 nlp = spacy.load('zh_core_web_trf')
 # Función para procesar bloques de texto y extraer nombres de personas
 def extract_names_from_text(text):
+    print(f'{len(text)}/n/n{text}')
     doc = nlp(text)
     # Extraer las entidades de tipo PERSON
     persons = [ent.text for ent in doc.ents if ent.label_ == 'PERSON']
     return result
+# Función para paralelizar la extracción de nombres
+def extract_names_from_fragments(fragments):
+    # Utiliza todos los núcleos disponibles de la CPU
+    with mp.Pool(mp.cpu_count()) as pool:
+        results = pool.map(extract_names_from_text, fragments)
+    return results
 # Función principal para extraer nombres de personas desde un archivo DOCX
 def extract_names_from_docx(docx_file):
     # Cargar el archivo DOCX
     # Dividir el texto en fragmentos si es necesario
     text_fragments = split_text(text)
+    # Extraer los nombres de cada fragmento en paralelo
+    results = extract_names_from_fragments(text_fragments)
+    # Unir todos los resultados de nombres en una sola lista
     all_persons = []
+    for persons in results:
         all_persons.extend(persons)
     # Eliminar duplicados