端侧AI 相关文章

深入 Android 端侧 AI 推理的实时视频流处理全链路

从 CameraX 串行回调的队头阻塞、GPU 像素预处理管线到 LiteRT 推理延迟抖动治理,本文完整拆解端侧 AI 实时视频处理的三大瓶颈及优化方案,实现 1080P/30fps 端到端延迟控制在 35ms 以内。

深入 Android 端侧 AI 推理的内存管理策略:从模型加载的内存峰值优化到 KV Cache 的动态回收机制

系统梳理 Android 端侧大模型部署的内存优化全链路:从 mmap 模型加载降低峰值、张量生命周期标记实现用完即弃,到 KV Cache 滑动窗口与按层衰减回收,最终将 3B 模型稳定运行在 6GB RAM 设备上。

深入 Android 端侧 AI 推理的 Prompt 工程实战

在 Android 端侧部署 LLM 时,通过 Token 预算管理、少样本模板压缩与动态预算切换,将首 Token 延迟从 8.7 秒优化至 2 秒内,兼顾摘要质量。

Android 端侧 AI 聊天的 Compose UI 架构:流式渲染与多轮对话的声明式工程实践

本文分享端侧 LLM 聊天应用中 Compose UI 的流式渲染实践,通过 Token 缓冲、状态隔离和统一数据源等策略,在高频流式输出下保持流畅体验。

深入 Android 端侧语音识别全链路:从 SpeechRecognizer API 到 Android 16 设备端 ASR 引擎

梳理 Android 端侧语音识别完整链路,从 AudioRecord 音频采集到 Android 16 内置 ASR 引擎的架构设计与工程实践。

深入 Android 端侧 AI 模型动态下发与版本管理全链路

从 APK 解耦模型,通过三层版本体系、BSDiff 增量更新和热回滚机制,实现端侧 AI 模型独立下发、分钟级迭代与稳定保障。

深入 Android 端侧 AI 推理的功耗与热管理全链路:从 SoC DVFS 调度到 Thermal Throttling 的性能稳定性工程实践

本文从端侧 LLM 持续推理的性能退化问题出发,剖析 GPU 功耗画像、DVFS 调度与 Thermal Throttling 机制,提出双层温控感知的负载调度方案,将长时间推理的 P99 延迟从 890ms 压至 380ms。

深入 Android 端侧 AI 推理的内存带宽优化:从 GPU 共享内存到 NPU 零拷贝的异构数据传输架构

端侧AI推理的性能瓶颈不在算力而在内存带宽。本文深入分析从Camera到GPU再到NPU的数据搬运开销,介绍AHardwareBuffer共享内存、ION buffer复用和NPU零拷贝三条优化路径,给出不同场景的选型建议。

深入 Android 端侧 AI 推理性能剖析:用 Perfetto 追踪 NPU 调度与内存带宽瓶颈

基于 Perfetto 追踪端侧 AI 推理的 NPU 调度与内存带宽瓶颈,通过权重常驻、推理渲染隔离和算子融合将 token 生成速度从 18 提升至 35 token/s。

深入 Android 端侧 AI 图像预处理全链路:从 Bitmap 像素操作到 Tensor 输入的高性能数据管道

端侧 AI 推理中,数据预处理常占 30%-50% 耗时。本文梳理从 Bitmap 像素到 Tensor 输入的完整链路,涵盖内存模型、像素格式转换、Resize 策略、标准化及零拷贝优化,帮助开发者将预处理延迟压到毫秒级。