跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.soloent.ai/llms.txt

Use this file to discover all available pages before exploring further.

前置项:保持客户端为最新版本

我们在每个版本中都会持续优化上下文管理和 API 缓存,以保证随着模型更替,我们在成本控制上为你提供最优方案。

下载最新版本

前往官网下载最新版本的 SoloEnt 客户端

核心逻辑

Token 消耗 = 输入大小 × 调用次数
理解这个逻辑后,我们将从两个方向展开:如何控制每次输入的大小,以及如何降低无效调用。

高影响 — 每次使用都应该省

1. 控制上下文窗口的范围

只让 AI 看它真正需要的内容。写第 47 章时,AI 不需要看第 1 章;润色一段对话时,AI 不需要看整章。 实操建议
  • 当前任务只激活与当前场景相关的文档。比如写一章正文时,只需让 AI 阅读直接相关的设定、章纲和有限上下文
  • 通过建立 SoloEnt.md 帮助 AI 通过这一个文件就快速理解上下文,而不是每次都读取多份文档
  • @ 精准引用,或按住 shift 把相关文档拖入对话窗口,而不是默认打开或阅读所有文档
  • 修改对话时只选中目标段落,不要全章选中
  • 每个场景结束后,关闭不再需要的文档引用
预计节省:40–60%

2. 用短指令替代长描述

AI 不需要你的背景铺垫,它只需要知道”做什么”和”怎么做”。SoloEnt 已经提供了系统提示词,无需在会话中再次强调背景。 费 token 的写法
你是一个专业的小说写作助手,请帮我把这段对话改写得更有张力一些,
让读者感受到两个角色之间紧张的关系,同时保持人物性格的一致性……
省 token 的写法
改写对话:增加冲突张力,保持角色语气
把常用指令存成 Skill,一键调用,零描述成本。
预计节省:20–35%

3. 审查你在使用中的 Rules

Rules 是最容易被忽视的隐性 token 大户——它会在每次会话请求时强制加载。 精简原则
  • 写作正文相关的 Rules 仅在写正文时加载
  • 删除”你是……”式的角色扮演铺垫(AI 已经知道自己是谁)
  • 用列表代替段落——同样信息,token 减半
  • 每季度审查一次 Rules,清理已经内化、不再需要显式声明的内容
预计节省:15–30%

中度影响 — 建立好的日常习惯

4. 轻任务用轻模型

不是所有任务都需要最强的模型。
任务类型最优模型(要求高时使用)轻量模型(要求可放低时使用)
头脑风暴、提纲生成、一致性检查SonnetHaiku、glm
正文写作、对话润色、场景扩写Gemini豆包、Deepseek
复杂情节设计、风格深度仿写、长篇逻辑梳理OpusSonnet、glm
初稿生成、大纲草拟glm、Deepseek开源模型
预计节省:50–70%(轻任务部分)

5. 分步骤,不要一次要完整输出

不要反复试探性地进行生成任务:一次让 AI 生成 2000 字章节,不满意就重来——这种模式浪费最多 推荐流程(以章节写作为例):
1

先出章纲

让 AI 输出本章的结构与节拍
2

展开正文

对章纲满意后,再展开写正文
3

语气与风格微调

最后做局部润色
每一步的 token 都很小,确认对了再推进——总消耗反而远低于反复重生成。 善用 Plan 模式:在正式执行前,先切换到 Plan 模式,用几轮轻量对话把方向、结构、关键细节都确认清楚,再切回执行模式生成内容。Plan 模式的 token 消耗极低,而一次对齐好方向,可以省掉后续多次重生成的巨大开销。
[Plan 模式]
这一章我想写 A 和 B 和解,但要留下 C 的伏笔,你觉得有哪几种结构?
→ 对齐方向,确认节拍

[执行模式]
按第二种结构写出正文
预计节省:30–50%(迭代场景)

6. 常开新窗口,别在旧对话里续写

每个对话窗口都有历史记录——你和 AI 来回聊得越多,下一条消息的输入 token 就越大,因为历史对话会被全量带入。一个拖了几十轮的对话窗口,光是”历史包袱”就能占掉大量 token。 建议
  • 完成一个独立任务后,开新窗口处理下一个任务
  • 不要在同一个窗口里既润色对话、又讨论大纲、又修改设定
  • 如果一个窗口已经很长,需要重新生成内容时,优先开新窗口并只带入必要的上下文
  • 可通过调用 SoloEnt.md@ 具体文件来重新激活正确且必要的上下文
好习惯:一个窗口,一件事
预计节省:10–30%(长期积累)

7. 让 AI 只修改,不重写

不加约束时,AI 倾向于重新输出整段内容,所以尽量每次都明确告诉它只改什么部分 会触发全文重写
帮我改进这段文字
只输出修改部分
只改第三段,把句子节奏放慢,输出修改后的段落即可,不需要其他内容
加上”不需要解释”、“不需要总结”——AI 的前缀和后缀也消耗 token。
预计节省:20–40%(润色场景)

进阶技巧 — 深度优化

8. 用 Workflow 固化高频流程

如果你每次写章节前都会做同样的工作:检查前情摘要、确认角色情绪、阅读本章章纲——把这个流程做成 Workflow,参数只填”章节编号”,其余由系统自动组装。 每次调用的提示 token 是固定最小值,而不是每次手动要求的随机值。同时还能保证每次执行的一致性。
效果:一致性 + 省 token 双赢

9. 用本地模型做”草稿层”

LM Studio 在本地运行开源模型,生成初稿(边际成本为零)。初稿跑出来之后,只用云端模型做最后一轮精修——这一轮 token 消耗很少,但效果显著。 硬件参考
内存可运行模型适用场景
16 GB7B 参数模型够用于打草稿
32 GB13B 参数模型质量更稳定
适合高产作者,云端消耗可降低 60% 以上

一句话总结

控制上下文,精准输出你的需求,而不是优化提示词——这才是 token 省钱的核心。
Rules 写短、引用精准、模型按需选择,三件事同时做,月度 token 账单可以减少一半以上,而写作质量不会有任何损失。

下一步

选择方案

比较方案与定价

管理订阅

查看余额、发票与取消订阅