Spaces:

EE21
/

ToS-Summarization

Sleeping

EE21 commited on Dec 18, 2023

Commit

d4396fe

1 Parent(s): c602055

Update abstractive_model.py

Files changed (1) hide show

abstractive_model.py CHANGED Viewed

@@ -4,9 +4,17 @@ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 tokenizer = AutoTokenizer.from_pretrained("EE21/BART-ToSSimplify")
 model = AutoModelForSeq2SeqLM.from_pretrained("EE21/BART-ToSSimplify")
-# Define the abstractive summarization function
-def summarize_with_bart(input_text):
-    inputs = tokenizer.encode("summarize: " + input_text, return_tensors="pt", max_length=1024, truncation=True)
-    summary_ids = model.generate(inputs, max_length=500, min_length=300, num_beams=4)
-    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
     return summary

 tokenizer = AutoTokenizer.from_pretrained("EE21/BART-ToSSimplify")
 model = AutoModelForSeq2SeqLM.from_pretrained("EE21/BART-ToSSimplify")
+# Define a function to summarize text with minimum length constraint
+def summarize_with_bart(input_text, max_summary_tokens=200, min_summary_tokens=100, do_sample=False):
+    # Tokenize the input text and return input_ids as PyTorch tensors
+    inputs = tokenizer(input_text, return_tensors="pt").input_ids
+    # Generate the summary with minimum and maximum length constraints
+    outputs = model.generate(inputs,
+                             max_length=max_summary_tokens,
+                             min_length=min_summary_tokens,
+                             do_sample=do_sample)
+    # Decode the generated token IDs back into text
+    summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return summary