端侧AI 相关文章

深入 Android 端侧 AI 的独立进程推理架构：从进程隔离到 AIDL 通信的稳定性保障

深入 Android 端侧 AI 推理的隐私合规架构：从数据最小化到透明性设计的工程实践

July 8, 2026

端侧 AI 推理并非数据不出设备就自动合规。本文从数据最小化、透明性设计和审计追溯三个维度，给出 GDPR 合规落地的具体工程方案与代码实践。

Read Post

深入 Android 端侧 AI 推理的 ExecuTorch 全链路：从 PyTorch 模型原生导出到 Android 端部署的零转换推理引擎实践

July 5, 2026

本文深入分析 ExecuTorch 在 Android 端的全链路实践，从 PyTorch 模型原生导出到 .pte 文件部署，对比 LiteRT 性能表现，剖析 AOT 委托机制与常见坑点，帮助开发者做出选型判断。

Read Post

深入 Android 端侧 AI 推理的延迟拆解与优化：从用户点击到首 Token 上屏

July 4, 2026

本文系统拆解了 Android 端侧大模型推理从用户点击到首 Token 上屏的完整链路，涵盖预处理、模型加载、Prefill、Decode 等六个阶段，并提供实测优化方案与性能数据。

Read Post

深入 Android 端侧 AI 推理的多模型编排与 Pipe 模式：从单一推理到复合任务工作流引擎的设计与实践

July 2, 2026

从单模型推理的舒适区出发，探讨 Android 端侧 AI 任务中 Pipe 串联、路由表分支到动态图执行的多模型编排实践，涵盖模型管理、错误兜底与协程调度的工程取舍。

Read Post

深入 Android 端侧 AI 推理引擎横向对比：从 LiteRT 到 ExecuTorch 的多引擎选型决策框架

June 29, 2026

横向对比 LiteRT、MediaPipe、ExecuTorch、ONNX Runtime 和 llama.cpp 五大端侧推理引擎，从算子覆盖、硬件加速、性能基准到选型矩阵，提供可落地的决策框架。

Read Post

深入 Android 端侧 AI 推理的 Token 化与解码策略：从 BPE 分词原理到 Top-P/Top-K 采样的生成质量调控

June 28, 2026

深入分析端侧AI推理中解码策略对生成质量的影响，涵盖BPE分词原理、Top-K/Top-P采样机制及端侧小模型的参数调优实践。

Read Post

深入 Android 端侧 AI 推理的效果评估与持续优化：从离线评测基准到在线实验的指标驱动迭代

June 23, 2026

从零搭建端侧 AI 模型评测体系：通过离线 Benchmark 做初筛、在线埋点监控置信度分布、A/B 实验驱动决策，三者形成闭环，将模型迭代周期从 3 周压缩至 1 周半。

Read Post

深入 Android 端侧 AI 推理的模型格式转换全链路：从 PyTorch 导出到 TFLite/MediaPipe 部署的格式桥梁工程实践

June 22, 2026

记录 PyTorch 模型导出到 ONNX、转换至 TFLite 并接入 MediaPipe 的完整端侧部署链路，涵盖动态 shape 处理、算子兼容、INT8 量化及工程化实战经验。

Read Post

深入 Android 端侧 AI 推理的协程化生命周期管理：从结构化并发到 GPU 推理任务的安全编排

June 11, 2026

如何用 Kotlin 协程的结构化并发管理 Android 端侧 AI 推理生命周期，涵盖 GPU 资源释放顺序、Actor 模式串行化访问及取消异常传播，杜绝 native 内存泄漏。

Read Post

深入 Android 端侧 AI 推理的初始化与预热优化

June 9, 2026

系统性拆解端侧AI推理冷启动的三大延迟来源——模型加载、GPU Delegate初始化和KV Cache预填充，通过并行化、预热推理和长生命周期复用将首次推理从3.2秒优化至80ms。

Read Post

深入 Android 端侧 AI 推理的实时视频流处理全链路

May 6, 2026

从 CameraX 串行回调的队头阻塞、GPU 像素预处理管线到 LiteRT 推理延迟抖动治理，本文完整拆解端侧 AI 实时视频处理的三大瓶颈及优化方案，实现 1080P/30fps 端到端延迟控制在 35ms 以内。

Read Post

深入 Android 端侧 AI 推理的内存管理策略：从模型加载的内存峰值优化到 KV Cache 的动态回收机制

May 4, 2026

系统梳理 Android 端侧大模型部署的内存优化全链路：从 mmap 模型加载降低峰值、张量生命周期标记实现用完即弃，到 KV Cache 滑动窗口与按层衰减回收，最终将 3B 模型稳定运行在 6GB RAM 设备上。

Read Post

深入 Android 端侧 AI 推理的 Prompt 工程实战

April 28, 2026

在 Android 端侧部署 LLM 时，通过 Token 预算管理、少样本模板压缩与动态预算切换，将首 Token 延迟从 8.7 秒优化至 2 秒内，兼顾摘要质量。

Read Post

Android 端侧 AI 聊天的 Compose UI 架构：流式渲染与多轮对话的声明式工程实践

February 10, 2026

本文分享端侧 LLM 聊天应用中 Compose UI 的流式渲染实践，通过 Token 缓冲、状态隔离和统一数据源等策略，在高频流式输出下保持流畅体验。

Read Post

深入 Android 端侧语音识别全链路：从 SpeechRecognizer API 到 Android 16 设备端 ASR 引擎

December 19, 2025

梳理 Android 端侧语音识别完整链路，从 AudioRecord 音频采集到 Android 16 内置 ASR 引擎的架构设计与工程实践。

Read Post

深入 Android 端侧 AI 模型动态下发与版本管理全链路

December 8, 2025

从 APK 解耦模型，通过三层版本体系、BSDiff 增量更新和热回滚机制，实现端侧 AI 模型独立下发、分钟级迭代与稳定保障。

Read Post

深入 Android 端侧 AI 推理的功耗与热管理全链路：从 SoC DVFS 调度到 Thermal Throttling 的性能稳定性工程实践

November 21, 2025

本文从端侧 LLM 持续推理的性能退化问题出发，剖析 GPU 功耗画像、DVFS 调度与 Thermal Throttling 机制，提出双层温控感知的负载调度方案，将长时间推理的 P99 延迟从 890ms 压至 380ms。

Read Post

深入 Android 端侧 AI 推理的内存带宽优化：从 GPU 共享内存到 NPU 零拷贝的异构数据传输架构

November 20, 2025

端侧AI推理的性能瓶颈不在算力而在内存带宽。本文深入分析从Camera到GPU再到NPU的数据搬运开销，介绍AHardwareBuffer共享内存、ION buffer复用和NPU零拷贝三条优化路径，给出不同场景的选型建议。

Read Post

深入 Android 端侧 AI 推理性能剖析：用 Perfetto 追踪 NPU 调度与内存带宽瓶颈

November 17, 2025

基于 Perfetto 追踪端侧 AI 推理的 NPU 调度与内存带宽瓶颈，通过权重常驻、推理渲染隔离和算子融合将 token 生成速度从 18 提升至 35 token/s。

Read Post