NPU 相关文章
深入 Android 端侧 AI 推理的内存带宽优化:从 GPU 共享内存到 NPU 零拷贝的异构数据传输架构
端侧AI推理的性能瓶颈不在算力而在内存带宽。本文深入分析从Camera到GPU再到NPU的数据搬运开销,介绍AHardwareBuffer共享内存、ION buffer复用和NPU零拷贝三条优化路径,给出不同场景的选型建议。
Read Post
深入 Android 端侧 AI 推理性能剖析:用 Perfetto 追踪 NPU 调度与内存带宽瓶颈
基于 Perfetto 追踪端侧 AI 推理的 NPU 调度与内存带宽瓶颈,通过权重常驻、推理渲染隔离和算子融合将 token 生成速度从 18 提升至 35 token/s。
Read Post