Spaces:

lossLopes
/

tclopess-bart_samsum_summarization

Sleeping

App Files Files Community

lossLopes commited on Dec 2, 2023

Commit

f521d1e

1 Parent(s): 784e681

Update app.py

Browse files

Files changed (1) hide show

app.py +53 -15

app.py CHANGED Viewed

@@ -60,38 +60,76 @@ iface = gr.Interface(
 iface.launch(share=True)
 """
 import gradio as gr
 import nltk
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 nltk.download('punkt')
 def fragment_text(text, tokenizer):
-    # Your existing code for text fragmentation
 def summarize_text(text, tokenizer, model):
-    # Your existing code for text summarization
 checkpoint = "tclopess/bart_samsum"
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
-def summarize_with_button(text):
-    return summarize_text(text, tokenizer, model)
 iface = gr.Interface(
-    fn=summarize_with_button,
-    inputs=gr.Textbox(label="Enter text to summarize:"),
     outputs=gr.Textbox(label="Summary:"),
     title="Text Summarizer with Button",
 )
-def summarize_text_button():
-    iface.launch(share=True)
-gr.Interface(
-    summarize_text_button,
-    inputs=None,
-    outputs=None,
-    title="Click to Summarize"
-).launch()

 iface.launch(share=True)
 """
 import gradio as gr
 import nltk
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 nltk.download('punkt')
 def fragment_text(text, tokenizer):
+    sentences = nltk.tokenize.sent_tokenize(text)
+    max_len = tokenizer.max_len_single_sentence
+    chunks = []
+    chunk = ""
+    count = -1
+    for sentence in sentences:
+        count += 1
+        combined_length = len(tokenizer.tokenize(sentence)) + len(chunk)
+        if combined_length <= max_len:
+            chunk += sentence + " "
+        else:
+            chunks.append(chunk.strip())
+            chunk = sentence + " "
+    if chunk != "":
+        chunks.append(chunk.strip())
+    return chunks
 def summarize_text(text, tokenizer, model):
+    chunks = fragment_text(text, tokenizer)
+    summaries = []
+    for chunk in chunks:
+        input = tokenizer(chunk, return_tensors='pt')
+        output = model.generate(**input)
+        summary = tokenizer.decode(*output, skip_special_tokens=True)
+        summaries.append(summary)
+    final_summary = " ".join(summaries)
+    return final_summary
 checkpoint = "tclopess/bart_samsum"
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
+def summarize_and_display(text):
+    summary = summarize_text(text, tokenizer, model)
+    return summary
+def start_summarization(text):
+    summary = summarize_and_display(text)
+    gr.update(summary)
 iface = gr.Interface(
+    fn=start_summarization,
+    inputs=[
+        gr.Textbox(label="Enter text to summarize:"),
+        gr.Button(label="Summarize"),
+    ],
     outputs=gr.Textbox(label="Summary:"),
+    live=True,
     title="Text Summarizer with Button",
 )
+iface.launch(share=True)