📌 一句话总结:Claude Code 配额用完时,可以切换到本地开源模型继续工作。推荐 GLM-4.7-Flash 或 Qwen3-Coder-Next,通过 LM Studio 或 llama.cpp 连接。
2026年02月05日 · 资讯分享 · 阅读时间约 3 分钟
用 Claude Code 写代码写得正嗨,突然配额用完了?别慌,你可以切换到本地开源模型继续干活。
问题场景
如果你用的是 Anthropic 的便宜套餐,在深度使用 Claude Code 开发时,经常会遇到日配额或周配额用完的情况。
可以用 /usage 命令查看当前配额使用情况。
推荐的本地模型
目前最好的开源模型变化很快,作者推荐:
- GLM-4.7-Flash(来自 Z.AI)
- Qwen3-Coder-Next(阿里通义千问)
如果想节省磁盘和显存,可以用量化版本,加载更快但质量会有损失。
方法一:LM Studio(推荐)
LM Studio 是一个友好的本地 LLM 运行工具,0.4.1 版本开始支持连接 Claude Code。
步骤:
- 安装并运行 LM Studio
- 搜索并安装模型(建议上下文 > 25K)
- 打开终端,启动服务器:
lms server start --port 1234 - 设置环境变量:
export ANTHROPIC_BASE_URL=http://localhost:1234 export ANTHROPIC_AUTH_TOKEN=lmstudio
- 启动 Claude Code:
claude --model openai/gpt-oss-20b
用 /model 命令可以确认当前使用的模型,或切换回 Claude。
方法二:直接用 Llama.CPP
LM Studio 底层是开源项目 llama.cpp。如果你不想用 LM Studio,可以直接安装 llama.cpp 并连接 Claude Code。
但除非你要微调模型或有特殊需求,LM Studio 设置起来更快。
💡 富贵点评
这是个很实用的备用方案。除非你有怪兽级的机器,否则本地模型的速度和代码质量肯定比不上 Claude。
但它能用!而且在 Claude 和本地模型之间切换很方便。配额恢复了就切回去,配额没了就用本地的顶一下。
对于重度 Claude Code 用户来说,这招值得收藏。
📋 要点回顾
- 问题:Claude Code 配额用完,无法继续工作
- 方案:切换到本地开源模型(GLM-4.7-Flash、Qwen3-Coder-Next)
- 工具:LM Studio 或 llama.cpp 提供本地 API
- 效果:基础编码任务可用,复杂任务效果有差距
❓ 常见问题
Q: 本地模型能完全替代 Claude Code 吗?
A: 不能完全替代。本地模型在简单任务上表现不错,但复杂推理、大型代码库理解上还有差距。建议配额恢复后切回 Claude。
Q: 推荐哪个本地模型?
A: GLM-4.7-Flash 速度快,适合快速迭代;Qwen3-Coder-Next 代码能力强,适合编程任务。
Q: 需要什么配置才能跑本地模型?
A: 7B 参数模型需要 8GB 显存,14B 需要 16GB。如果没有独显,也可以用 CPU 跑,但速度会慢很多。
来源:boxc.net | HN 213点 | 作者:王富贵 | 发布时间:2026年02月05日