Home
Topics
Android
Performance
AI
Blog
Tags
并发调度 相关文章
端侧大模型推理调度层设计:优先级队列与背压控制实战
May 7, 2026
本文介绍如何在端侧推理引擎之上构建调度中间层,通过优先级队列、抢占机制和背压控制,解决多请求并发导致的内存溢出、延迟不可控和结果乱序问题。
Read Post
Page 1 of 1