你打开 Claude Code 帮忙解决一个复杂 bug,2 小时后发现今天已经花掉了 40 美金。这并非个例,开发者社区里,“Claude 受害者联盟” 的哀嚎正越来越多。
问题的核心在于,它不再是一个简单的聊天助手,而是一个会持续消耗模型算力的编程代理。任务越复杂、上下文越长、调用越频繁,成本就越高。在 2026 年 4 月的一次成本上调后,日均成本估算已从 6 美元升至 13 美元,90% 用户的日消费上限也提高到了 30 美元。这意味着 一个重度用户的月账单可能在 150 到 250 美元之间。
更关键的是,这些 “无效燃烧” 通常来自几个常见的罪魁祸首,但这正是我们要解决的问题。
.claudeignore,砍掉 50%-80% 的无关上下文这是 最重要也最容易被忽略的一步。Claude Code 为了理解任务,会主动读取项目文件。如果不加限制,它可能会 “吞下” 整个项目,尤其是庞大的 node_modules 目录。
怎么做:在项目根目录创建 .claudeignore 文件,明确排除无关目录。
node_modules/
dist/
build/
.next/
.env
*.log
coverage/
效果:对于大型项目,此举可减少 50% 至 80% 的上下文 Token 消耗。
根据 Anthropic 官方数据显示,旗舰版 Opus 模型的 Token 消耗大约是 Sonnet 的 2 倍,但并非所有任务都需要其强大的推理能力。Sonnet 足以应对日常编码和补全任务。根据 CloudZero 的报告,Sonnet 是目前开发者使用最多的默认模型。
怎么做:在设置中将默认模型设为 Sonnet,只在处理复杂架构设计时才手动切换为 Opus。
这是成本优化中 “杠杆” 最高的一环。Claude Code 是对话式的,每次交互都会携带大量系统提示词和对话历史。Prompt Cache 能将这部分重复内容缓存下来,后续请求的费用会大幅降低。通过缓存,某次会话中 高达 90% 的输入 Token 可能来自缓存,费用仅为标准费率的大约 10%。
关键点:在会话早期就已加载的代码文件、系统说明等,会被模型视为可缓存内容。这意味着 对话开始后不要轻易新开会话,合理利用对话长度,能让缓存命中率非常高。在一次大型重构中,单纯依靠缓存,当天的 Token 费用就从预计的 40 多美元降到了不到 10 美元。
/compact,跑赢 “上下文通货膨胀”这是 防止 Token 爆炸的最后一道防线。当对话上下文过长时,执行 /compact 命令会用 Session Memory 对对话进行免费本地压缩,或触发一次微压缩来删除冗余信息,从而在不影响核心逻辑的前提下清理上下文。
实操:
/compact 一下通过对 Claude Code 源码的分析,一个容易被忽略的陷阱——“Fast Mode” 浮出水面。在 Opus 4.6 模型上开启此模式后,成本是正常模式的整整 6 倍,达到输入 $30 / 百万 token 和输出 $150 / 百万 token 的惊人价格。
在绝大多数日常开发和问题排查中,普通模式的速度完全足够。除非你对 “实时响应” 有极端要求,否则请果断在 /config 中检查并关掉它。
以上 5 招叠加使用,足以把一个重度用户的月度成本从 250 美元的高位,拉回到 50 美元左右的健康区间。
| 技巧 | 核心动作 | 预期收益(降低 Token 成本) |
|---|---|---|
| 控制上下文 | 配置 .claudeignore
|
50%–80% |
| 选对模型 | 默认用 Sonnet,必要时切 Opus | 50% |
| 利用缓存 | 保持长会话,提高命中率 | 60%–90% |
| 主动压缩 | 适时 /compact
|
25%–40% |
| 关掉 Fast Mode | 设置中禁用它 | 83%(相比 Fast Mode) |
建议收藏本文,在实际使用中逐一实践这几项配置。如果在使用中遇到什么 “烧钱” 的糟心事,也欢迎在评论区分享你的 “避坑” 经验。