Spaces:

Smilyai-labs
/

MixSam-exp-chat

Sleeping

Keeby-smilyai commited on Nov 8

Commit

5c47c84

verified ·

1 Parent(s): f49b7f0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -517,6 +517,14 @@ class ModelWrapper:
             token_text = self.tokenizer.decode([token_id])
             response_text += token_text
             yield response_text
 # ==============================================================================
 # GRADIO INTERFACE
@@ -545,16 +553,15 @@ def chat_fn(message, history, temperature, top_k, top_p, max_tokens):
     # Add current message
     conversation += f"User: {message} Sam:"
-    # Generate response
-    response = model.generate(
         conversation,
         max_new_tokens=max_tokens,
         temperature=temperature,
         top_k=top_k,
         top_p=top_p
-    )
-    return response
 # Create Gradio interface
 with gr.Blocks(theme=gr.themes.Soft()) as demo:

             token_text = self.tokenizer.decode([token_id])
             response_text += token_text
             yield response_text
+    def generate(self, prompt: str, max_new_tokens: int = 200,
+                 temperature: float = 0.8, top_k: int = 50, top_p: float = 0.9):
+        """Non-streaming generation (returns full response)"""
+        response = ""
+        for partial_response in self.generate_stream(prompt, max_new_tokens, temperature, top_k, top_p):
+            response = partial_response
+        return response
 # ==============================================================================
 # GRADIO INTERFACE
     # Add current message
     conversation += f"User: {message} Sam:"
+    # Stream response token by token
+    for response in model.generate_stream(
         conversation,
         max_new_tokens=max_tokens,
         temperature=temperature,
         top_k=top_k,
         top_p=top_p
+    ):
+        yield response
 # Create Gradio interface
 with gr.Blocks(theme=gr.themes.Soft()) as demo: