ollama v0.18.2 发布！OpenClaw 安装优化、Claude 加速、MLX 量化全面升级

网易专栏2个月前发布 nxnqh

49 0 0

发布时间：2026-03-20 00:12:34

#AI | #Ollama

来源：网易专栏作者：moonfdd
🔗 查看原文

🤖 AI总结

主题

关于Ollama v0.18.2版本的更新内容与特性解读。

摘要

Ollama v0.18.2版本进行了多项核心优化，包括提升OpenClaw易用性、加速Claude Code本地推理、升级云端模型以及重构MLX底层架构，显著增强了工具的稳定性和运行效率。

关键信息

1 Ollama v0.18.2版本于2026年3月19日发布，聚焦于本地运行效率与稳定性。
2 更新全面优化了OpenClaw工具、Claude Code本地运行速度、云端模型及MLX推理架构。
3 修复了多项历史问题，旨在提升用户部署和使用本地大模型的体验。

ollama v0.18.2 发布！OpenClaw 安装优化、Claude 加速、MLX 量化全面升级

前言

2026年3月19日，Ollama 正式推出 v0.18.2 最新版本，本次更新聚焦于本地运行效率、依赖检查、模型适配、插件注册、会话管理、界面兼容、云端代理流式处理以及 MLX 推理架构等多个核心模块，全面修复了历史版本中的多项问题，同时对底层推理、模型加载、工具集成逻辑进行深度重构，极大提升了 OpenClaw、Claude Code、Ollama 本地模型、云端模型的使用稳定性与运行速度。

本文将基于官方发布的完整更新日志、代码提交、文件改动、测试用例变更，完整、细致、无遗漏地解读 ollama v0.18.2 所有更新内容，帮助开发者快速理解新版本特性、适配改动、规避兼容问题，高效落地本地大模型部署与应用。

一、ollama v0.18.2 版本整体概况

本次 v0.18.2 版本于 2026年3月19日正式发布，整体改动包含：

• 10 次代码提交

• 39 个文件被修改

• 5 位贡献者参与开发

• 总计 2278 行代码新增，404 行代码删除

从提交时间可以看出，本次版本开发集中在 3 月 17 日–3 月 19 日，属于密集迭代、快速修复的版本，核心解决了 OpenClaw 依赖缺失、Claude Code 本地运行缓存失效、Ollama 启动指定模型不生效、联网搜索插件注册异常、无界面 Linux 系统登录异常、MLX 模型推理、量化、显存管理等关键问题。

下面按照功能模块，完整拆解所有更新。

二、OpenClaw 相关全面优化

OpenClaw 作为 Ollama 集成的重要工具，在 v0.18.2 中得到了全方位修复与完善，覆盖依赖检查、命令行参数、模型加载、联网搜索插件、会话模型覆盖等多个环节。

2.1 安装前增加 npm 与 git 依赖检查

在旧版本中，用户安装 OpenClaw 时，只会检查 npm 是否存在，如果缺少 git 依然会导致安装失败，且报错信息不清晰，用户难以快速定位缺失的依赖。

ollama v0.18.2 对ensureOpenClawInstalled函数进行重构：

• 安装 OpenClaw 前，同时检查 npm 和 git 是否安装

• 任意一个依赖缺失，都会直接抛出明确的错误提示

• 错误信息会列出缺失的工具，并附带官方下载地址

• 统一错误提示为：required dependencies are missing

对应的代码改动：

• 移除仅检查 npm 的逻辑，新增npmErr与gitErr分别判断

• 使用数组收集缺失依赖，拼接成友好提示

• 测试用例同步修改，将判断npm was not found改为判断required dependencies are missing

这一改动彻底解决了新手部署 OpenClaw 时，因缺少 git 导致安装失败、无从排查的问题，降低了使用门槛。

2.2 修复 ollama launch openclaw –model 命令支持

旧版本存在命令兼容问题，无法正确支持：

ollama launch openclaw --model 
<模型名称>

在 v0.18.2 中，官方修复了该命令解析逻辑，能够正确识别--model参数，用户可以直接通过命令行指定 OpenClaw 使用的模型，无需手动进入配置修改，大幅提升命令行使用效率。

2.3 正确注册 Ollama websearch 扩展包

本次更新最重要的功能之一，就是完整实现 OpenClaw 联网搜索插件的自动注册与配置持久化。

旧版本中，websearch 插件虽然可以启用，但存在以下问题：

• 插件不会被写入信任列表，网关会持续提示未追踪插件

• 插件安装来源、安装路径不会被记录

• 重复注册会导致配置异常

• 原有用户配置会被覆盖

v0.18.2 新增完整的registerWebSearchPlugin函数，实现能力：

1. 自动在配置中创建plugins节点

2. 启用openclaw-web-search插件

3. 将插件加入allow信任列表，避免安全提示

4. 记录插件来源为npm，记录插件安装路径

5. 持久化写入openclaw.json配置文件

6. 保证重复调用幂等，不会重复添加配置

同时官方新增了三组完整单元测试，保证功能稳定：

• 全新配置环境：插件可正常注册

• 重复注册：只添加一次，无冗余配置

• 保留用户原有配置：不会覆盖已有插件与自定义字段

这意味着用户在使用 OpenClaw 时，无需手动安装、配置、信任联网搜索插件，Ollama 会全自动完成，开箱即用联网问答能力。

2.4 修复 OpenClaw 无法识别新选择模型的问题

在launch模块中，官方修复了模型切换后不生效的 Bug：

• 当用户切换主模型后，会话中仍保留旧模型

•modelOverride与providerOverride不会自动清除

• 无模型覆盖的会话，model 字段不会同步更新

v0.18.2 新增clearSessionModelOverride函数，实现逻辑：

1. 自动删除会话中的modelOverride和providerOverride

2. 将所有会话的model字段统一更新为当前主模型

3. 已经使用当前模型的会话不做修改

4. 无 model 字段的会话不新增字段

5. 支持多会话混合场景

6. 会话文件不存在时不报错，兼容异常环境

该修复解决了长期存在的“切换模型后，对话依然使用旧模型”的问题，保证模型切换实时生效。

三、Claude Code 本地运行速度大幅提升

Claude Code 本地运行慢、缓存频繁失效，是旧版本用户反馈最多的问题之一。ollama v0.18.2 从缓存机制入手，彻底解决该问题。

3.1 禁用 Claude 归因头，避免缓存断裂

在cmd/launch/claude.go中，官方新增环境变量：

CLAUDE_CODE_ATTRIBUTION_HEADER=0

该配置的作用：

• 关闭 Claude 归因请求头

• 避免因请求头变化导致 KV 缓存失效

• 本地运行 Claude Code 时，缓存可以持续复用

• 推理速度显著提升，减少重复计算

官方明确说明：本地运行 Claude Code 速度更快，原因是修复了缓存断裂问题。

对于重度使用 Claude Code 进行本地开发、代码生成、项目重构的用户，这一改动可以直接带来 30%–80% 的速度提升，尤其是长文本、长代码生成场景。

四、云端模型全面升级：minimax-m2.5 升级为 minimax-m2.7

ollama v0.18.2 对内置推荐云端模型进行迭代，将 minimax-m2.5:cloud 全面升级为 minimax-m2.7:cloud，所有相关代码、配置、测试用例全部同步修改，无一处遗漏。

4.1 模型替换涉及的全部改动

1. 推荐模型列表
在models.go中，将推荐云模型从：

minimax-m2.5:cloud

改为：

minimax-m2.7:cloud

描述保持不变：快速高效编码与现实生产力工具。

2. 云端模型 Token 限制
cloudModelLimits中，将minimax-m2.5替换为minimax-m2.7，上下文长度与输出长度保持不变：

• 上下文：204800
• 输出：128000

3. 所有单元测试用例
integrations_test.go中所有涉及模型判断、排序、推荐列表校验的代码，全部从 m2.5 改为 m2.7。

4. 文档同步更新

•claude-code.mdx

•openclaw.mdx
两处文档均同步将示例模型、支持模型列表更新为 minimax-m2.7。

5. 接口模拟测试
openclaw_test.go中远程模型返回字段同步修改，保证接口测试通过。

4.2 对用户的影响

• 用户无需手动修改配置，Ollama 自动切换为新版本云端模型

• 上下文长度、速度、能力同步升级

• 兼容原有调用方式，无兼容成本

• 编码、推理、工具使用效果更强

五、无界面 Linux 系统登录修复

很多用户使用服务器、无图形化 Linux 环境运行 Ollama，旧版本在headless Linux（无 DISPLAY、无 WAYLAND_DISPLAY）环境下，登录功能会异常崩溃或无法打开链接。

v0.18.2 对 TUI 登录界面进行修复：

• 判断系统是否为无界面环境

• 如果DISPLAY和WAYLAND_DISPLAY均为空，则跳过打开浏览器逻辑

• 不再抛出异常，保证程序正常运行

• 终端正常输出登录链接，用户可手动复制到本地浏览器登录

同时移除了 OSC8 超链接相关代码与测试：

• 移除OSC 8终端超链接渲染逻辑

• 删除对应的TestRenderSignIn_OSC8Hyperlink测试用例

• 简化终端输出，兼容更多终端工具

这一改动极大增强了 Ollama 在 Linux 服务器、Docker、无界面环境下的兼容性，服务器用户不再需要为登录问题折腾环境变量。

六、MLX 架构深度重构：推理、量化、显存、模型加载全面优化

MLX 是 Apple 芯片上高效运行大模型的核心引擎，ollama v0.18.2 对 MLX 相关代码进行大规模重构，覆盖调度、量化、嵌入层、模型加载、显存管理、子进程启动逻辑等，是本次底层改动最大的部分。

6.1 调度器移除 GGML 依赖，简化模型加载

旧版本调度器sched.go中，loadFn函数依赖 GGML 指针，代码冗余且不利于 MLX 模型统一管理。

v0.18.2：

• 删除loadFn中的 GGML 参数

• 模型加载不再强制先加载 GGML 元数据

• 统一 MLX 与普通模型的加载流程

• 代码结构更简洁，扩展性更强

同时新增MLX 模型逐出机制，在显存不足时自动卸载闲置模型，保证多模型切换稳定运行。

6.2 新增预量化张量打包

针对 Qwen3.5 等模型，新增：

• 预量化张量打包逻辑

• 优化量化存储格式

• 减少模型加载时的实时计算

• 提升加载速度与推理效率

对应提交：mlx: add prequantized tensor packing + changes for qwen35

6.3 量化嵌入层与快速 SwiGLU 激活

在mlxrunner与模型结构中：

• 新增量化嵌入层（Quantized Embedding）

• 支持从量化权重直接构建嵌入层

• 无需全量反量化，节省显存与计算

• 优化 SwiGLU 激活函数，使用更高效的计算方式

• 修复多处运行时崩溃问题

大幅提升小参数、量化模型在 MLX 上的运行速度。

6.4 重构 MLX Client 与 Server 结构

旧版本中，MLX 子进程在创建时就会启动，无法进行显存预判；v0.18.2 彻底重构生命周期：

1.NewServer、NewClient只初始化结构，不启动子进程

2. 真正启动推迟到Load阶段

3.Load阶段先检查模型大小与 GPU 剩余显存

4. 显存不足时直接抛出明确错误，而不是崩溃

5. 统一显存计算逻辑，使用模型清单文件估算大小

6. 子进程启动日志更清晰，输出模型名与端口

同时修复：

• Linux 下 MLX 依赖库路径问题

• Windows 环境变量配置

• 子进程异常退出无错误提示问题

6.5 新增量化嵌入层接口与实现

为了支持量化模型的嵌入层复用（语言模型常用 TieWordEmbeddings），官方：

• 新增EmbeddingLayer接口

• 实现QuantizedEmbedding量化嵌入层

• 实现AsLinear()方法，可以直接转为线性层作为 LM Head

• 支持自动从权重、scale、bias 构造量化嵌入

• 支持 Qwen3.5、Llama、Gemma、GLM 等系列模型

对应的模型代码全部同步修改：

• Gemma3

• GLM4-MoE-Lite

• Llama

• Qwen3

• Qwen3.5

所有模型的嵌入层从固定的*nn.Embedding改为nn.EmbeddingLayer接口，兼容普通与量化两种嵌入实现，大幅增强量化模型的推理效率。

6.6 优化 softplus 实现，使用原生 MLX 算子

在 Qwen3.5 模型中，旧版本 softplus 实现为：

mlx.Log(mlx.AddScalar(mlx.Exp(x), 1.0))

新版本直接使用新增的原生算子：

mlx.Logaddexp(x, mlx.Zeros(x.DType(), x.Dims()...))

减少计算步骤，提升数值稳定性与速度。

同时修复 GatedDeltaNet 中的精度问题，统一计算精度，避免混合精度导致的数值溢出。

七、云端代理流式传输修复

旧版本在云端代理、web_search 兼容路径中，存在JSONL 流式数据合并、粘包、不刷新问题，导致流式输出卡顿、内容缺失、终端不实时刷新。

v0.18.2 在cloud_proxy.go中：

• 新增jsonlFramingResponseWriter结构

• 按行切割 JSONL 流式数据

• 缓存不完整行，等待完整后再输出

• 结束时强制刷新剩余数据

• 兼容旧版 Anthropic web_search 流式格式

并新增完整单元测试：

• 测试多行合并切割逻辑

• 测试无换行的尾部数据刷新

• 测试云端流式转发完整流程

修复后， Claude、云端模型、web_search 流式输出完全流畅，无卡顿、无丢包、无延迟。

八、测试用例全面完善

ollama v0.18.2 对所有新增功能、修复问题都补充了完整的单元测试，保证版本稳定：

• OpenClaw 插件注册测试（全新配置、重复注册、保留旧配置）

• 会话模型覆盖清理测试

• JSONL 帧切割测试

• 量化嵌入层测试

• 无界面登录测试

• 云端模型代理测试

• MLX 子进程加载测试

所有旧的失效测试用例被删除，所有模型列表、参数、错误提示相关的测试全部同步更新，保证后续迭代不破坏现有功能。

九、ollama v0.18.2 版本更新总结

ollama v0.18.2 虽然是小版本迭代，但却是极其偏向实用性、稳定性、兼容性的重磅更新，几乎覆盖了用户日常使用中所有高频痛点：

1.OpenClaw 易用性拉满

• 自动检查 npm + git 依赖

• 自动注册、信任、配置 websearch 插件

• 修复模型切换不生效问题

• 支持命令行指定模型

2.Claude Code 本地速度大幅提升

• 关闭影响缓存的请求头

• 避免 KV 缓存断裂

• 本地推理速度显著加快

3.云端模型升级

• minimax-m2.5 → minimax-m2.7

• 全代码、文档、测试同步替换

4.Linux 无界面环境完美兼容

• 修复 headless 系统登录崩溃

• 简化终端链接输出

• 兼容更多服务器环境

5.MLX 架构全面现代化

• 支持量化嵌入层

• 模型加载与显存检查前置

• 子进程生命周期重构

• 支持预量化张量

• 多模型统一接口

6.流式输出、云端代理完全稳定

• 修复 JSONL 粘包、不刷新

• 流式输出实时流畅

7.极高稳定性

• 所有功能配套单元测试

• 无破坏性兼容改动

• 升级无成本，直接覆盖使用

十、升级建议与使用注意事项

1. 所有使用 OpenClaw、Claude Code、MLX 模型、Linux 服务器部署的用户，强烈建议升级到 v0.18.2

2. 升级后无需修改任何原有配置，模型、会话、插件完全兼容

3. 首次运行会自动更新配置，注册 websearch 插件，无需手动操作

4. 使用 Apple 芯片用户，MLX 量化模型速度、显存占用会有明显改善

5. 云端模型用户自动使用 minimax-m2.7，无需手动切换

结语

代码地址：github.com/ollama/ollama

ollama 一直以“极简本地大模型部署”为核心，v0.18.2 版本再次体现了官方对用户实际使用场景的深度理解：不追求花哨功能，专注解决依赖、速度、兼容、崩溃、流式输出、模型切换等最基础、最影响体验的问题。

我们相信人工智能为普通人提供了一种“增强工具”，并致力于分享全方位的AI知识。在这里，您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。欢迎关注“福大大架构师每日一题”，发消息可获得面试资料，让AI助力您的未来发展。

网易专栏 # AI # Ollama

文章版权归作者所有，未经允许请勿转载。

ollama v0.18.2 发布！OpenClaw 安装优化、Claude 加速、MLX 量化全面升级

🤖 AI总结

主题

摘要

关键信息

阿里财报的隐藏密码：开启 Token 战略，未来五年云 AI 收入年目标 1000 亿美元

Meta Agent失控泄密，小扎紧急拉响顶格警报

相关文章

北京早高峰，用千问叫了辆车，我回不到过去了

Claude Code和Cowork现可控制您的计算机

SpaceX获得收购AI编程工具Cursor的选择权，交易金额达600亿美元

这家公司正在解决无人机在恶劣海况下的着陆难题