Spaces:

tencent
/

HunyuanOCR

Running on Zero

App Files Files Community

aleclyu commited on 18 days ago

Commit

e7257d2

1 Parent(s): c2b0812

debug zerogpu timeout error

Browse files

Files changed (1) hide show

app.py +38 -6

app.py CHANGED Viewed

@@ -151,16 +151,48 @@ def _launch_demo(args, model, processor):
         print(f"[DEBUG] 输入准备完成，耗时: {time.time() - start_time:.2f}s")
         print(f"[DEBUG] Input IDs shape: {inputs.input_ids.shape}")
         print(f"[DEBUG] Input device: {inputs.input_ids.device}")
         # 生成
         gen_start = time.time()
         with torch.no_grad():
-            generated_ids = model.generate(
-                **inputs,
-                max_new_tokens=1024*8,
-                repetition_penalty=1.03,
-                do_sample=False
-            )
         gen_time = time.time() - gen_start
         print(f"[DEBUG] ========== 生成完成 ==========")

         print(f"[DEBUG] 输入准备完成，耗时: {time.time() - start_time:.2f}s")
         print(f"[DEBUG] Input IDs shape: {inputs.input_ids.shape}")
         print(f"[DEBUG] Input device: {inputs.input_ids.device}")
+        print(f"[DEBUG] Input sequence length: {inputs.input_ids.shape[1]}")
         # 生成
         gen_start = time.time()
+        print(f"[DEBUG] ========== 开始生成 tokens ==========")
+        # 关键优化：根据任务类型动态调整 max_new_tokens
+        # OCR 任务通常不需要 8192 tokens，这会导致不必要的等待
+        max_new_tokens = 2048  # 从 8192 降到 2048，大幅提速
+        print(f"[DEBUG] max_new_tokens: {max_new_tokens}")
+        # 添加进度回调
+        token_count = [0]
+        last_time = [gen_start]
+        def progress_callback(input_ids, scores, **kwargs):
+            token_count[0] += 1
+            current_time = time.time()
+            if token_count[0] % 10 == 0 or (current_time - last_time[0]) > 2.0:
+                elapsed = current_time - gen_start
+                tokens_per_sec = token_count[0] / elapsed if elapsed > 0 else 0
+                print(f"[DEBUG] 已生成 {token_count[0]} tokens, 速度: {tokens_per_sec:.2f} tokens/s, 耗时: {elapsed:.2f}s")
+                last_time[0] = current_time
+            return False
         with torch.no_grad():
+            print(f"[DEBUG] 调用 model.generate()...")
+            try:
+                generated_ids = model.generate(
+                    **inputs,
+                    max_new_tokens=max_new_tokens,
+                    repetition_penalty=1.03,
+                    do_sample=False,
+                    stopping_criteria=None,  # 确保没有额外的停止条件
+                    pad_token_id=processor.tokenizer.pad_token_id,
+                    eos_token_id=processor.tokenizer.eos_token_id,
+                )
+            except Exception as e:
+                print(f"[ERROR] 生成失败: {e}")
+                raise
+        print(f"[DEBUG] model.generate() 调用完成")
         gen_time = time.time() - gen_start
         print(f"[DEBUG] ========== 生成完成 ==========")