端侧推理 相关文章

深入 Android 端侧多模态 AI 推理全链路:从 Gemini Nano Multimodality 到 Compose 实时交互的工程实践

本文记录 Android 端侧 Gemini Nano 多模态 AI 推理的完整工程实践,从模型加载、图像编码到 Compose 流式渲染,并深入剖析内存碎片、温控降频等关键挑战的解决策略。

端侧大模型推理调度层设计:优先级队列与背压控制实战

本文介绍如何在端侧推理引擎之上构建调度中间层,通过优先级队列、抢占机制和背压控制,解决多请求并发导致的内存溢出、延迟不可控和结果乱序问题。

Android 端侧大模型推理全链路:从 LiteRT 到 MediaPipe LLM Inference API 的引擎选型与工程化实践

深入探讨 Android 端侧 LLM 推理的引擎选型(LiteRT、ONNX Runtime、MediaPipe LLM Inference API)、INT4 量化策略、GPU Delegate 调度优化与机型降级方案,提供可落地的工程化实践参考。

深入 Android 端侧 LLM 的上下文窗口工程:从 Prompt 压缩到对话状态机的全链路实践

本文系统梳理了 Android 端侧大模型长对话上下文管理的完整方案,涵盖分层 Prompt 压缩、摘要缓存、对话状态机及 token 预算分配等工程实践,有效突破端侧 4K 窗口限制。

深入 Android TTS 语音合成全链路:从 API 桥接到端侧声码器

剖析 Android TTS 全链路:从跨进程引擎绑定、合成回调机制,到端侧 HiFi-GAN 声码器部署与流式合成优化,涵盖首字延迟压降的工程实践。

深入 Android ML Kit 全链路实战:从视觉检测 Pipeline 到 CameraX 集成的端侧智能工程落地

基于工业缺陷检测实战,深入剖析 ML Kit 检测管线机制、CameraX 集成最佳实践与端侧推理优化全链路,分享从选型到落地的完整工程经验。

深入 Android AICore 与 Gemini Nano 端侧推理全链路:从系统服务架构到 LoRA 微调适配的 Google AI 生态工程实践

深入剖析 Google AICore 的系统服务架构,涵盖 APEX 分发机制、权限隔离、安全过滤、LoRA 热插拔适配等关键技术,为 Android 端侧大模型工程实践提供完整参考。