NPU 相关文章

深入 Android 端侧 AI 推理的内存带宽优化：从 GPU 共享内存到 NPU 零拷贝的异构数据传输架构

November 20, 2025

端侧AI推理的性能瓶颈不在算力而在内存带宽。本文深入分析从Camera到GPU再到NPU的数据搬运开销，介绍AHardwareBuffer共享内存、ION buffer复用和NPU零拷贝三条优化路径，给出不同场景的选型建议。

深入 Android 端侧 AI 推理性能剖析：用 Perfetto 追踪 NPU 调度与内存带宽瓶颈

November 17, 2025

基于 Perfetto 追踪端侧 AI 推理的 NPU 调度与内存带宽瓶颈，通过权重常驻、推理渲染隔离和算子融合将 token 生成速度从 18 提升至 35 token/s。