Bbbv

Sleeping

Ksjsjjdj commited on 22 days ago

Commit

b2192d5

verified ·

1 Parent(s): 950252a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -62,7 +62,7 @@ class Usage(BaseModel):
     prompt_tokens: int
     completion_tokens: int
     total_tokens: int
-    prompt_tokens_details: Optional[PromptTokensDetails]
 class ChatCompletionChoice(BaseModel):
     index: int
@@ -77,7 +77,7 @@ class ChatCompletionChunk(BaseModel):
     created: int = Field(...)
     model: str
     choices: List[ChatCompletionChoice]
-    usage: Optional[Usage]
 class ToolFunction(BaseModel):
     name: str
@@ -493,7 +493,6 @@ async def chatResponseStream(request: ChatCompletionRequest, model_state: any, c
         clean_msg = cleanMessages(current_messages, enableReasoning)
         prompt = f"{clean_msg}\n\nAssistant:{' <think' if enableReasoning else ''}"
-        tool_buffer = ""
         tool_call_mode = False
         async with GPU_LOCK:
@@ -529,12 +528,9 @@ async def chatResponseStream(request: ChatCompletionRequest, model_state: any, c
             async with GPU_LOCK:
                 try:
                     tool_out, tool_tokens, tool_state = await runPrefill(request, "", [0], model_state)
-                    temp_tokens = []
                     current_gen = ""
                     for i in range(200):
-                        args = PIPELINE_ARGS(temperature=0.1, top_p=0.1)
                         tool_token = MODEL_STORAGE[request.model].pipeline.sample_logits(tool_out, temperature=0.1, top_p=0.1)
                         tool_out, tool_state = MODEL_STORAGE[request.model].model.forward([tool_token], tool_state)

     prompt_tokens: int
     completion_tokens: int
     total_tokens: int
+    prompt_tokens_details: Optional[PromptTokensDetails] = None
 class ChatCompletionChoice(BaseModel):
     index: int
     created: int = Field(...)
     model: str
     choices: List[ChatCompletionChoice]
+    usage: Optional[Usage] = None
 class ToolFunction(BaseModel):
     name: str
         clean_msg = cleanMessages(current_messages, enableReasoning)
         prompt = f"{clean_msg}\n\nAssistant:{' <think' if enableReasoning else ''}"
         tool_call_mode = False
         async with GPU_LOCK:
             async with GPU_LOCK:
                 try:
                     tool_out, tool_tokens, tool_state = await runPrefill(request, "", [0], model_state)
                     current_gen = ""
                     for i in range(200):
                         tool_token = MODEL_STORAGE[request.model].pipeline.sample_logits(tool_out, temperature=0.1, top_p=0.1)
                         tool_out, tool_state = MODEL_STORAGE[request.model].model.forward([tool_token], tool_state)