Gemma3-4B-llamacpp-cpu-rag-smolagents

Runtime error

App Files Files Community

Akjava commited on Mar 17

Commit

4d69435

verified ·

1 Parent(s): 58e6047

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -7

app.py CHANGED Viewed

@@ -172,9 +172,7 @@ class LlamaCppModel(Model):
         **kwargs,
     ) -> ChatMessage:
-        """
-        Generates a response from the llama.cpp model and integrates tool usage *only if tools are provided*.
-        """
         from llama_cpp import LlamaGrammar
         try:
@@ -183,7 +181,6 @@ class LlamaCppModel(Model):
                 stop_sequences=stop_sequences,
                 grammar=grammar,
                 tools_to_call_from=tools_to_call_from,
-                #flatten_messages_as_text=True,
                 **kwargs
             )
@@ -201,7 +198,7 @@ class LlamaCppModel(Model):
             or 1024
             )
-             provider = LlamaCppPythonProvider(self.llm)
             system_message= completion_kwargs["messages"][0]["content"]
             message= completion_kwargs["messages"].pop()["content"]
@@ -225,7 +222,7 @@ class LlamaCppModel(Model):
             settings.repeat_penalty = repeat_penalty
             settings.stream = False
-            print(len(completion_kwargs["messages"]))
             messages = BasicChatHistory()
             for from_message in completion_kwargs["messages"]:
                 if from_message["role"] is MessageRole.USER:
@@ -235,7 +232,7 @@ class LlamaCppModel(Model):
                 else:
                     history_message = {"role": MessageRole.ASSISTANT, "content": from_message["content"]}
                 messages.add_message(from_message)
-            print("<history>")
             stream = agent.get_chat_response(
             message,
             llm_sampling_settings=settings,

         **kwargs,
     ) -> ChatMessage:
         from llama_cpp import LlamaGrammar
         try:
                 stop_sequences=stop_sequences,
                 grammar=grammar,
                 tools_to_call_from=tools_to_call_from,
                 **kwargs
             )
             or 1024
             )
+            provider = LlamaCppPythonProvider(self.llm)
             system_message= completion_kwargs["messages"][0]["content"]
             message= completion_kwargs["messages"].pop()["content"]
             settings.repeat_penalty = repeat_penalty
             settings.stream = False
             messages = BasicChatHistory()
             for from_message in completion_kwargs["messages"]:
                 if from_message["role"] is MessageRole.USER:
                 else:
                     history_message = {"role": MessageRole.ASSISTANT, "content": from_message["content"]}
                 messages.add_message(from_message)
             stream = agent.get_chat_response(
             message,
             llm_sampling_settings=settings,