昇腾卡上加载完权重和生成照片直接有个两分钟左右的等待

#7
by aden1350 - opened

单纯好奇,用npu部署起来成服务后发现每次调用模型时会先有个两分多钟的等待才会开始进行图片生成步骤,之前测试qwen-image系列的时候没有遇到过,是架构的区别导致的这个等待咩,想问下有没有什么规避方法。

这很可能是算子编译(Operator Compilation)或图构建的时间。

在昇腾(Ascend)NPU 上,PyTorch 模型首次推理时往往会触发底层算子的实时编译(JIT),导致第一次生成有明显的延迟(Warmup cost)。

请问第二次及之后的调用是否还有这两分钟的等待? 如果只有第一次慢,建议在服务启动完成后,先自动跑一次 Dummy Input 进行预热(Warmup),这样正式请求进来时就不会卡顿了。

每一次都慢,这个是我感到疑惑的,只有一次预热的话倒是不影响使用体验

Sign up or log in to comment