OpenClaw Token 优化:7个亲测有效的省钱配置,月成本从$150压到$30

OpenClaw 的月成本可以压到多少?亲测从 $150 砍到 $30 以内,核心手段不是少用,而是改配置。下面这 7 个优化项,我逐个跑过,按「十分钟搞定、效果最明显」的顺序排好,你照着做就行。
一、模型分级:最狠的一刀,直接砍 30-40% 费用
OpenClaw 默认跑的是你最后选的那款模型,而 Claude Opus 的输入 token 单价比 Haiku 贵约 25 倍(Anthropic 官方定价,2026)。如果你没做分级,心跳任务、简单查询、文件查找这些低脑力活全在烧 Opus 的额度,等于用跑车送外卖。

我的配置思路是双模型路由:
- primary:Amazon Nova Lite 或 DeepSeek V3.2($0.28/M 输入,约为 GPT-4o 的 1/6)
- fallbacks:Claude Sonnet 或 GPT-4o,仅在代码生成、复杂推理时手动切换
实测效果:日常 70-80% 的对话属于简单任务,路由到低价模型后,月度费用直接降 30-40%。配置路径在 OpenClaw 的 models 区块,把 primary 指向便宜模型,fallbacks 保留一个高端选项备用即可。
二、关闭 Extended Thinking:80% 的请求在白白烧钱
Claude 的 extended thinking 模式会让模型先跑一段内部推理再输出答案,token 消耗平均增加 30-50%(Anthropic 技术文档,2026)。默认是开启的,但你的心跳任务、查天气、读文件这些操作真的需要「深度思考」吗?

我的做法:默认关闭,需要时临时开。在 OpenClaw 里用 /reasoning on 手动启用,用完记得 /reasoning off。约 15-20% 的请求真正受益于 thinking 模式,其余 80% 以上开着就是白花钱。这一步单独能省 10-15%。
三、精简 System Prompt:每次请求都少送 1600 tokens
System Prompt 不是一句话,而是 OpenClaw 每次运行前自动拼接的一整包文件:AGENTS.md、SOUL.md、USER.md、TOOLS.md、IDENTITY.md、MEMORY.md……全部塞进上下文窗口,每次 API 调用都原样重发(OpenClaw 官方文档,2026)。
我优化前的 System Prompt 约 5000 字,折合 2500 tokens/次;优化后压到约 1800 字,约 900 tokens/次。单次节省 1600 tokens,按每天 200 次对话、30 天算,月度少发约 240 万 tokens。

具体动作:
- 删掉 AGENTS.md 里重复或过期的工作流描述
- SOUL.md 只保留核心身份和口吻,砍掉冗长的价值观宣言
- TOOLS.md 里不常用的工具直接注释掉,用时再开
- 设置
bootstrapMaxChars: 12000和bootstrapTotalMaxChars: 80000(官方默认是 20000/60000,Stack Junkie 实测案例,2026)
这一步能省 5-10%,但胜在零门槛,改完文件立刻生效。
四、心跳调频:从每 15 分钟一次改成 45 分钟
OpenClaw 的心跳(heartbeat)默认每隔几分钟跑一次,用来检查定时任务、触发 cron job。如果你的 Agent 不是 7×24 小时在线服务,这个频率完全过剩。

我把心跳从默认的约 15 分钟一次调到 45 分钟一次。调用次数从每天约 96 次降到 32 次,减少 67%。配合内容精简,token 消耗减少 70% 以上。单独效果约 5-10% 节省,但和模型分级叠加后,心跳任务本身从 $0.50/天 压到 $0.02/天(Stack Junkie 实测案例,2026)。
配置位置:在 HEARTBEAT.md 或 settings.json 里找到 heartbeat_interval,改成 45m 或 60m,根据你的实际自动化需求微调。
五、Prompt 缓存:让模型「记住」你刚说过的话
OpenClaw 支持 provider 级别的 prompt caching,原理是把 System Prompt 和固定上下文缓存到模型侧,后续请求走 cache read 而不是重新发送完整输入。Cache read 的价格显著低于 fresh input tokens,但 cache write 有额外计费(OpenClaw 官方文档,2026)。
关键技巧是 TTL 对齐:如果模型缓存 TTL 是 1 小时,把心跳间隔设为 55 分钟,让心跳「保活」缓存,避免每次重新缓存完整 Prompt。这样缓存命中率高,重复调用成本大幅下降。
配置路径:在 LiteLLM proxy 或模型 provider 设置里开启 caching,设置 cache_ttl 与 heartbeat_interval 联动。
六、上下文修剪:别让聊天记录无限膨胀
OpenClaw 的上下文窗口每次请求都会把完整对话历史重发一遍,这是 token 消耗的隐形大头,占典型用量的 40-50%(laozhang.ai 深度分析,2026)。聊得越久,每次新消息越贵。
我的三板斧:
- 每完成一个独立任务,用
/new或/reset开新会话 - 长会话末尾跑
/compact,把历史压缩成摘要 - 设置自动重置阈值:当上下文占用达到 50% 窗口容量时自动触发 compaction
另外,MEMORY.md 的 daily 文件不会被自动注入 bootstrap,但手动调用 memory 工具时也会拉取内容。定期清理过期的 memory 条目,避免未来调用时重复读取无用信息。
七、API 中转 + 国产模型:国内用户的隐藏福利
对国内用户来说,API 不可达本身就会逼你用更贵的方案(比如全程 VPN + 官方原价)。其实中转平台 + 国产模型的组合能把成本再砍一截。
我实测的混合策略(OfoxAI 横评数据,2026):
- 70% 简单任务 → DeepSeek V3.2($0.28/M 输入)
- 25% 常规任务 → Claude Sonnet($3.00/M 输入)
- 5% 复杂任务 → Claude Opus($15.00/M 输入)
按每月 100 万输入 token 计算,混合策略成本仅为全用旗舰模型的 12%,比纯 GPT-4o 路线低 55%。
配置方法:在 OpenClaw 的 provider 设置里把 baseUrl 切到中转平台(如 https://api.ofox.ai/v1),apiKey 用平台提供的即可。DeepSeek、Qwen 等国产模型国内直连,延迟 100-300ms,人民币结算,注册还送免费额度。
成本对照:优化前后差多少?
社区真实数据汇总(多来源交叉,2026):
| 使用强度 | 优化前月成本 | 优化后月成本 | 核心手段 |
|---|---|---|---|
| 轻度(偶尔使用) | $10-30 | $5-8 | 模型分级 + 心跳调频 |
| 中度(日常自动化) | $70-150 | $15-30 | 上述 5 项叠加 |
| 重度(多 Agent 7×24) | $150-360 | $40-80 | 全 7 项 + 本地模型 fallback |
我自己的 Agent 属于「中度偏重度」:两个 Agent 协作、每天约 200 次对话、心跳 + cron 全开着。优化前月均 $150 左右,七项全上之后稳定在 $25-30。
实施顺序:十分钟先搞定前三项
如果你现在只想动手、不想看完,按这个顺序:
- 模型分级(5 分钟):把 primary 改成 DeepSeek V3.2 或 Nova Lite
- 关 thinking(2 分钟):默认关闭 extended thinking
- 调心跳(3 分钟):interval 从 15m 改到 45m
这三步十分钟内搞定,效果能覆盖总节省的 60% 以上。后续再慢慢打磨 System Prompt、上缓存策略、评估中转平台。
最后提醒一句:OpenClaw 没有内置的硬支出上限,/status 和 /context detail 是你唯一的监控工具。务必在 provider 控制台(Anthropic、OpenRouter、中转平台)设置月度预算硬顶,防止某个月 Agent 突然「发疯」把账单拉爆。