Update app.py
Browse files
app.py
CHANGED
|
@@ -5,6 +5,7 @@ from docx import Document
|
|
| 5 |
from io import BytesIO
|
| 6 |
import tempfile
|
| 7 |
import os
|
|
|
|
| 8 |
|
| 9 |
# Cargar el modelo de SpaCy en espa帽ol
|
| 10 |
nlp = spacy.load('zh_core_web_trf')
|
|
@@ -12,6 +13,7 @@ nlp = spacy.load('zh_core_web_trf')
|
|
| 12 |
|
| 13 |
# Funci贸n para procesar bloques de texto y extraer nombres de personas
|
| 14 |
def extract_names_from_text(text):
|
|
|
|
| 15 |
doc = nlp(text)
|
| 16 |
# Extraer las entidades de tipo PERSON
|
| 17 |
persons = [ent.text for ent in doc.ents if ent.label_ == 'PERSON']
|
|
@@ -43,6 +45,13 @@ def split_text(text, max_length=100000):
|
|
| 43 |
|
| 44 |
return result
|
| 45 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 46 |
# Funci贸n principal para extraer nombres de personas desde un archivo DOCX
|
| 47 |
def extract_names_from_docx(docx_file):
|
| 48 |
# Cargar el archivo DOCX
|
|
@@ -57,11 +66,12 @@ def extract_names_from_docx(docx_file):
|
|
| 57 |
# Dividir el texto en fragmentos si es necesario
|
| 58 |
text_fragments = split_text(text)
|
| 59 |
|
| 60 |
-
# Extraer los nombres de cada fragmento
|
|
|
|
|
|
|
|
|
|
| 61 |
all_persons = []
|
| 62 |
-
for
|
| 63 |
-
print(f'{len(fragment)}\n\n{fragment}')
|
| 64 |
-
persons = extract_names_from_text(fragment)
|
| 65 |
all_persons.extend(persons)
|
| 66 |
|
| 67 |
# Eliminar duplicados
|
|
|
|
| 5 |
from io import BytesIO
|
| 6 |
import tempfile
|
| 7 |
import os
|
| 8 |
+
import multiprocessing as mp # Importar multiprocessing para paralelismo
|
| 9 |
|
| 10 |
# Cargar el modelo de SpaCy en espa帽ol
|
| 11 |
nlp = spacy.load('zh_core_web_trf')
|
|
|
|
| 13 |
|
| 14 |
# Funci贸n para procesar bloques de texto y extraer nombres de personas
|
| 15 |
def extract_names_from_text(text):
|
| 16 |
+
print(f'{len(text)}/n/n{text}')
|
| 17 |
doc = nlp(text)
|
| 18 |
# Extraer las entidades de tipo PERSON
|
| 19 |
persons = [ent.text for ent in doc.ents if ent.label_ == 'PERSON']
|
|
|
|
| 45 |
|
| 46 |
return result
|
| 47 |
|
| 48 |
+
# Funci贸n para paralelizar la extracci贸n de nombres
|
| 49 |
+
def extract_names_from_fragments(fragments):
|
| 50 |
+
# Utiliza todos los n煤cleos disponibles de la CPU
|
| 51 |
+
with mp.Pool(mp.cpu_count()) as pool:
|
| 52 |
+
results = pool.map(extract_names_from_text, fragments)
|
| 53 |
+
return results
|
| 54 |
+
|
| 55 |
# Funci贸n principal para extraer nombres de personas desde un archivo DOCX
|
| 56 |
def extract_names_from_docx(docx_file):
|
| 57 |
# Cargar el archivo DOCX
|
|
|
|
| 66 |
# Dividir el texto en fragmentos si es necesario
|
| 67 |
text_fragments = split_text(text)
|
| 68 |
|
| 69 |
+
# Extraer los nombres de cada fragmento en paralelo
|
| 70 |
+
results = extract_names_from_fragments(text_fragments)
|
| 71 |
+
|
| 72 |
+
# Unir todos los resultados de nombres en una sola lista
|
| 73 |
all_persons = []
|
| 74 |
+
for persons in results:
|
|
|
|
|
|
|
| 75 |
all_persons.extend(persons)
|
| 76 |
|
| 77 |
# Eliminar duplicados
|