端侧推理相关文章

深入 Android 端侧多模态 AI 推理全链路：从 Gemini Nano Multimodality 到 Compose 实时交互的工程实践

本文记录 Android 端侧 Gemini Nano 多模态 AI 推理的完整工程实践，从模型加载、图像编码到 Compose 流式渲染，并深入剖析内存碎片、温控降频等关键挑战的解决策略。

端侧大模型推理调度层设计：优先级队列与背压控制实战

本文介绍如何在端侧推理引擎之上构建调度中间层，通过优先级队列、抢占机制和背压控制，解决多请求并发导致的内存溢出、延迟不可控和结果乱序问题。

Android 端侧大模型推理全链路：从 LiteRT 到 MediaPipe LLM Inference API 的引擎选型与工程化实践

深入探讨 Android 端侧 LLM 推理的引擎选型（LiteRT、ONNX Runtime、MediaPipe LLM Inference API）、INT4 量化策略、GPU Delegate 调度优化与机型降级方案，提供可落地的工程化实践参考。

深入 Android 端侧 LLM 的上下文窗口工程：从 Prompt 压缩到对话状态机的全链路实践

December 17, 2025

本文系统梳理了 Android 端侧大模型长对话上下文管理的完整方案，涵盖分层 Prompt 压缩、摘要缓存、对话状态机及 token 预算分配等工程实践，有效突破端侧 4K 窗口限制。

深入 Android TTS 语音合成全链路：从 API 桥接到端侧声码器

September 23, 2025

剖析 Android TTS 全链路：从跨进程引擎绑定、合成回调机制，到端侧 HiFi-GAN 声码器部署与流式合成优化，涵盖首字延迟压降的工程实践。

深入 Android ML Kit 全链路实战：从视觉检测 Pipeline 到 CameraX 集成的端侧智能工程落地

基于工业缺陷检测实战，深入剖析 ML Kit 检测管线机制、CameraX 集成最佳实践与端侧推理优化全链路，分享从选型到落地的完整工程经验。

深入 Android AICore 与 Gemini Nano 端侧推理全链路：从系统服务架构到 LoRA 微调适配的 Google AI 生态工程实践

深入剖析 Google AICore 的系统服务架构，涵盖 APEX 分发机制、权限隔离、安全过滤、LoRA 热插拔适配等关键技术，为 Android 端侧大模型工程实践提供完整参考。