LLM 相关文章
Ollama 在 Apple Silicon 上全面转向 MLX 驱动(预览版)
Ollama 0.19 预览版基于 Apple MLX 框架重构,在 Apple Silicon 上实现了大幅性能提升,同时引入 NVFP4 量化格式和智能缓存优化,让本地大模型推理更快更高效。
Read Post
OpenClaw Agent 深度解析:从 Prompt 容器到可调度执行体
这篇文章聚焦 OpenClaw Agent 本体,系统拆解 Agent 对象模型、运行状态机、Session 树、调度与预算、Tool 权限边界和失败恢复机制,给出可直接落地的工程方案。
Read Post
OpenClaw 架构拆解:Node、Tool、Skill 如何把 AI 变成可执行系统
本文从一段 OpenClaw 技术对话出发,拆解 Node、Tool、Skill 的职责边界与调用链路,解释为什么 Node 设计是 AI 从“会回答”走向“会执行”的关键。
Read Post
OpenClaw Tools 权限排障:为什么能聊天却不能 exec 和联网
很多 OpenClaw 升级或新装后会出现“能聊天但不能执行 shell、不能联网搜索”。本文拆解 Tools 权限模型与 exec 安全策略,给出可直接落地的排障路径和配置模板。
Read Post
Prompt 成本优化的边界:何时该写长,何时该写短
详细 prompt 并不总是更省钱。本文从 token 定价、上下文衰减和人力成本三个维度,给出可量化的判断方法,帮助团队决定何时该写长 prompt、何时该写短 prompt。
Read Post
提示词工程:从核心原则到前沿实践
GPT-3.5 发布已过去三年多,AI 能力已深入渗透到我们工作与生活的方方面面。值此之际,我们重新审视 LLM 最基础的部分——Prompt,看看是否真正掌握了驾驭 LLM 的要诀。
Read Post
深入 Android 端侧 RAG 检索增强生成实战:从本地向量数据库到 LLM 推理的知识增强全链路
本文介绍在 Android 端侧落地 RAG 检索增强生成的全链路实践,涵盖文档向量化、SQLite 本地向量检索、MediaPipe LLM 推理等关键技术选型与性能优化。
Read Post
深入 Android 端侧 LLM 的上下文窗口工程:从 Prompt 压缩到对话状态机的全链路实践
本文系统梳理了 Android 端侧大模型长对话上下文管理的完整方案,涵盖分层 Prompt 压缩、摘要缓存、对话状态机及 token 预算分配等工程实践,有效突破端侧 4K 窗口限制。
Read Post
深入 Android 端侧 LLM 推理的流式输出全链路:从 Token 生成到 Compose UI 增量渲染的实时交互架构
本文深入剖析 Android 端侧 LLM 流式输出的完整链路,涵盖 KV Cache 内存优化、Flow 背压机制与 Compose 增量重组三大关键技术,给出从推理引擎到 UI 渲染的协同架构设计与实测数据。
Read Post