省钱攻略

前置项：保持客户端为最新版本

我们在每个版本中都会持续优化上下文管理和 API 缓存，以保证随着模型更替，我们在成本控制上为你提供最优方案。

下载最新版本

前往官网下载最新版本的 SoloEnt 客户端

核心逻辑

Token 消耗 = 输入大小 × 调用次数

理解这个逻辑后，我们将从两个方向展开：如何控制每次输入的大小，以及如何降低无效调用。

高影响 — 每次使用都应该省

1. 控制上下文窗口的范围

只让 AI 看它真正需要的内容。写第 47 章时，AI 不需要看第 1 章；润色一段对话时，AI 不需要看整章。 实操建议：

当前任务只激活与当前场景相关的文档。比如写一章正文时，只需让 AI 阅读直接相关的设定、章纲和有限上下文
通过建立 SoloEnt.md 帮助 AI 通过这一个文件就快速理解上下文，而不是每次都读取多份文档
用 @ 精准引用，或按住 shift 把相关文档拖入对话窗口，而不是默认打开或阅读所有文档
修改对话时只选中目标段落，不要全章选中
每个场景结束后，关闭不再需要的文档引用

预计节省：40–60%

2. 用短指令替代长描述

AI 不需要你的背景铺垫，它只需要知道”做什么”和”怎么做”。SoloEnt 已经提供了系统提示词，无需在会话中再次强调背景。 费 token 的写法：

你是一个专业的小说写作助手，请帮我把这段对话改写得更有张力一些，
让读者感受到两个角色之间紧张的关系，同时保持人物性格的一致性……

省 token 的写法：

改写对话：增加冲突张力，保持角色语气

把常用指令存成 Skill，一键调用，零描述成本。

预计节省：20–35%

3. 审查你在使用中的 Rules

Rules 是最容易被忽视的隐性 token 大户——它会在每次会话请求时强制加载。 精简原则：

写作正文相关的 Rules 仅在写正文时加载
删除”你是……”式的角色扮演铺垫（AI 已经知道自己是谁）
用列表代替段落——同样信息，token 减半
每季度审查一次 Rules，清理已经内化、不再需要显式声明的内容

预计节省：15–30%

中度影响 — 建立好的日常习惯

4. 轻任务用轻模型

不是所有任务都需要最强的模型。

任务类型	最优模型（要求高时使用）	轻量模型（要求可放低时使用）
头脑风暴、提纲生成、一致性检查	Sonnet	Haiku、glm
正文写作、对话润色、场景扩写	Gemini	豆包、Deepseek
复杂情节设计、风格深度仿写、长篇逻辑梳理	Opus	Sonnet、glm
初稿生成、大纲草拟	glm、Deepseek	开源模型

预计节省：50–70%（轻任务部分）

5. 分步骤，不要一次要完整输出

不要反复试探性地进行生成任务：一次让 AI 生成 2000 字章节，不满意就重来——这种模式浪费最多。 推荐流程（以章节写作为例）：

先出章纲

让 AI 输出本章的结构与节拍

展开正文

对章纲满意后，再展开写正文

语气与风格微调

最后做局部润色

每一步的 token 都很小，确认对了再推进——总消耗反而远低于反复重生成。 善用 Plan 模式：在正式执行前，先切换到 Plan 模式，用几轮轻量对话把方向、结构、关键细节都确认清楚，再切回执行模式生成内容。Plan 模式的 token 消耗极低，而一次对齐好方向，可以省掉后续多次重生成的巨大开销。

[Plan 模式]
这一章我想写 A 和 B 和解，但要留下 C 的伏笔，你觉得有哪几种结构？
→ 对齐方向，确认节拍

[执行模式]
按第二种结构写出正文

预计节省：30–50%（迭代场景）

6. 常开新窗口，别在旧对话里续写

每个对话窗口都有历史记录——你和 AI 来回聊得越多，下一条消息的输入 token 就越大，因为历史对话会被全量带入。一个拖了几十轮的对话窗口，光是”历史包袱”就能占掉大量 token。建议：

完成一个独立任务后，开新窗口处理下一个任务
不要在同一个窗口里既润色对话、又讨论大纲、又修改设定
如果一个窗口已经很长，需要重新生成内容时，优先开新窗口并只带入必要的上下文
可通过调用 SoloEnt.md 或 @ 具体文件来重新激活正确且必要的上下文

好习惯：一个窗口，一件事

预计节省：10–30%（长期积累）

7. 让 AI 只修改，不重写

不加约束时，AI 倾向于重新输出整段内容，所以尽量每次都明确告诉它只改什么部分。 会触发全文重写：

帮我改进这段文字

只输出修改部分：

只改第三段，把句子节奏放慢，输出修改后的段落即可，不需要其他内容

加上”不需要解释”、“不需要总结”——AI 的前缀和后缀也消耗 token。

预计节省：20–40%（润色场景）

进阶技巧 — 深度优化

8. 用 Workflow 固化高频流程

如果你每次写章节前都会做同样的工作：检查前情摘要、确认角色情绪、阅读本章章纲——把这个流程做成 Workflow，参数只填”章节编号”，其余由系统自动组装。每次调用的提示 token 是固定最小值，而不是每次手动要求的随机值。同时还能保证每次执行的一致性。

效果：一致性 + 省 token 双赢

9. 用本地模型做”草稿层”

用 LM Studio 在本地运行开源模型，生成初稿（边际成本为零）。初稿跑出来之后，只用云端模型做最后一轮精修——这一轮 token 消耗很少，但效果显著。 硬件参考：

内存	可运行模型	适用场景
16 GB	7B 参数模型	够用于打草稿
32 GB	13B 参数模型	质量更稳定

适合高产作者，云端消耗可降低 60% 以上。

一句话总结

控制上下文，精准输出你的需求，而不是优化提示词——这才是 token 省钱的核心。

Rules 写短、引用精准、模型按需选择，三件事同时做，月度 token 账单可以减少一半以上，而写作质量不会有任何损失。

介绍

快速入门

灵活写作

高质量写作

订阅与支付

免费资源

故障排除

前置项：保持客户端为最新版本

下载最新版本

核心逻辑

高影响 — 每次使用都应该省

1. 控制上下文窗口的范围

2. 用短指令替代长描述

3. 审查你在使用中的 Rules

中度影响 — 建立好的日常习惯

4. 轻任务用轻模型

5. 分步骤，不要一次要完整输出

6. 常开新窗口，别在旧对话里续写

7. 让 AI 只修改，不重写

进阶技巧 — 深度优化

8. 用 Workflow 固化高频流程

9. 用本地模型做”草稿层”

一句话总结

下一步

选择方案

管理订阅

介绍

快速入门

灵活写作

高质量写作

订阅与支付

免费资源

故障排除

Documentation Index

​前置项：保持客户端为最新版本

下载最新版本

​核心逻辑

​高影响 — 每次使用都应该省

​1. 控制上下文窗口的范围

​2. 用短指令替代长描述

​3. 审查你在使用中的 Rules

​中度影响 — 建立好的日常习惯

​4. 轻任务用轻模型

​5. 分步骤，不要一次要完整输出

​6. 常开新窗口，别在旧对话里续写

​7. 让 AI 只修改，不重写

​进阶技巧 — 深度优化

​8. 用 Workflow 固化高频流程

​9. 用本地模型做”草稿层”

​一句话总结

​下一步

选择方案

管理订阅

前置项：保持客户端为最新版本

核心逻辑

高影响 — 每次使用都应该省

1. 控制上下文窗口的范围

2. 用短指令替代长描述

3. 审查你在使用中的 Rules

中度影响 — 建立好的日常习惯

4. 轻任务用轻模型

5. 分步骤，不要一次要完整输出

6. 常开新窗口，别在旧对话里续写

7. 让 AI 只修改，不重写

进阶技巧 — 深度优化

8. 用 Workflow 固化高频流程

9. 用本地模型做”草稿层”

一句话总结

下一步