Spaces:

my-ai-university
/

FEM-r1

Running

mostafa-sh commited on Jul 30

Commit

8f7ca1c

1 Parent(s): bedc20e

update endpoint

Files changed (3) hide show

.gitignore CHANGED Viewed

@@ -2,4 +2,6 @@ __pycache__/
 .devcontainer/
 .streamlit/
 .env
-private_data/

 .devcontainer/
 .streamlit/
 .env
+private_data/
+app_script.py
+test.py

app.py CHANGED Viewed

@@ -292,7 +292,7 @@ if submit_button_placeholder.button("AI Answer", type="primary"):
                 ]
                 raw_synthesis_answer = get_inference_endpoint_response(
-                    model="deepseek-ai/DeepSeek-R1-0528-Qwen3-8B",
                     messages=messages,
                     temperature=synthesis_deepseek_temperature,
                     top_p=synthesis_deepseek_top_p,

                 ]
                 raw_synthesis_answer = get_inference_endpoint_response(
+                    model="tgi",#"deepseek-ai/DeepSeek-R1-0528-Qwen3-8B",
                     messages=messages,
                     temperature=synthesis_deepseek_temperature,
                     top_p=synthesis_deepseek_top_p,

utils/endpoint_utils.py CHANGED Viewed

@@ -5,6 +5,7 @@ import re
 import json
 from huggingface_hub import InferenceClient
 # Helper function to parse the response
 def parse_thinking_response(response_text):
@@ -31,24 +32,23 @@ def get_inference_endpoint_response(
     """
     Serverless API (Pay-as-you-go)
     """
-    client = InferenceClient(
-        provider="auto",
-        api_key=os.getenv("HF_API_KEY")
     )
-    completion = client.chat.completions.create(
         model=model,
         messages=messages,
         temperature=temperature,
         top_p=top_p,
-        max_tokens=max_tokens
     )
     # Get the raw response content
-    raw_response = completion.choices[0].message.content
-    return raw_response
 def get_custom_inference_endpoint_response(
     messages: list,

 import json
 from huggingface_hub import InferenceClient
+from openai import OpenAI
 # Helper function to parse the response
 def parse_thinking_response(response_text):
     """
     Serverless API (Pay-as-you-go)
     """
+    client = OpenAI(
+        base_url = "https://w98rfd84portge8q.us-east-1.aws.endpoints.huggingface.cloud/v1/",
+        api_key =  os.getenv("HF_ENDPOINT_TOKEN")
     )
+    # print(messages)
+    chat_completion = client.chat.completions.create(
         model=model,
         messages=messages,
         temperature=temperature,
         top_p=top_p,
+        max_tokens=max_tokens,
+        stream=False
     )
     # Get the raw response content
+    return chat_completion.choices[0].message.content
 def get_custom_inference_endpoint_response(
     messages: list,