LLM 相关文章

Ollama 在 Apple Silicon 上全面转向 MLX 驱动（预览版）

Ollama 0.19 预览版基于 Apple MLX 框架重构，在 Apple Silicon 上实现了大幅性能提升，同时引入 NVFP4 量化格式和智能缓存优化，让本地大模型推理更快更高效。

OpenClaw Agent 深度解析：从 Prompt 容器到可调度执行体

这篇文章聚焦 OpenClaw Agent 本体，系统拆解 Agent 对象模型、运行状态机、Session 树、调度与预算、Tool 权限边界和失败恢复机制，给出可直接落地的工程方案。

OpenClaw 架构拆解：Node、Tool、Skill 如何把 AI 变成可执行系统

本文从一段 OpenClaw 技术对话出发，拆解 Node、Tool、Skill 的职责边界与调用链路，解释为什么 Node 设计是 AI 从“会回答”走向“会执行”的关键。

OpenClaw Tools 权限排障：为什么能聊天却不能 exec 和联网

很多 OpenClaw 升级或新装后会出现“能聊天但不能执行 shell、不能联网搜索”。本文拆解 Tools 权限模型与 exec 安全策略，给出可直接落地的排障路径和配置模板。

Prompt 成本优化的边界：何时该写长，何时该写短

详细 prompt 并不总是更省钱。本文从 token 定价、上下文衰减和人力成本三个维度，给出可量化的判断方法，帮助团队决定何时该写长 prompt、何时该写短 prompt。

提示词工程：从核心原则到前沿实践

February 10, 2026

GPT-3.5 发布已过去三年多，AI 能力已深入渗透到我们工作与生活的方方面面。值此之际，我们重新审视 LLM 最基础的部分——Prompt，看看是否真正掌握了驾驭 LLM 的要诀。

深入 Android 端侧 RAG 检索增强生成实战：从本地向量数据库到 LLM 推理的知识增强全链路

December 18, 2025

本文介绍在 Android 端侧落地 RAG 检索增强生成的全链路实践，涵盖文档向量化、SQLite 本地向量检索、MediaPipe LLM 推理等关键技术选型与性能优化。

深入 Android 端侧 LLM 的上下文窗口工程：从 Prompt 压缩到对话状态机的全链路实践

December 17, 2025

本文系统梳理了 Android 端侧大模型长对话上下文管理的完整方案，涵盖分层 Prompt 压缩、摘要缓存、对话状态机及 token 预算分配等工程实践，有效突破端侧 4K 窗口限制。

深入 Android 端侧 LLM 推理的流式输出全链路：从 Token 生成到 Compose UI 增量渲染的实时交互架构

December 16, 2025

本文深入剖析 Android 端侧 LLM 流式输出的完整链路，涵盖 KV Cache 内存优化、Flow 背压机制与 Compose 增量重组三大关键技术，给出从推理引擎到 UI 渲染的协同架构设计与实测数据。