KV Cache 相关文章

深入 Android 端侧 AI 推理的内存管理策略：从模型加载的内存峰值优化到 KV Cache 的动态回收机制

系统梳理 Android 端侧大模型部署的内存优化全链路：从 mmap 模型加载降低峰值、张量生命周期标记实现用完即弃，到 KV Cache 滑动窗口与按层衰减回收，最终将 3B 模型稳定运行在 6GB RAM 设备上。