LLM推理 相关文章

深入 Android 端侧 AI 推理的 Prompt 工程实战

在 Android 端侧部署 LLM 时,通过 Token 预算管理、少样本模板压缩与动态预算切换,将首 Token 延迟从 8.7 秒优化至 2 秒内,兼顾摘要质量。