トークン節約術

前提：クライアントを最新の状態に保つ

私たちはバージョンごとにコンテキスト管理と API キャッシュを継続的に最適化しており、モデルの世代交代に合わせて、常に最良のコスト最適化をお届けしています。

基本の式

トークン消費量 = 入力サイズ × 呼び出し回数

これを理解すれば方針はシンプルです。1 回ごとの入力を小さくし、無駄な呼び出しを減らす、という 2 方向で進めます。

高インパクト — 毎回適用すべき

1. コンテキストウィンドウの範囲を絞る

AI には、本当に必要なものだけを見せます。第 47 章を書いているときに第 1 章は不要です。1 行のセリフを推敲するときに章全体は不要です。 実践ポイント：

現在のシーンに直接関係する資料のみを有効にする。本文を書くなら、必要な設定、章のあらすじ、限られた前後の文脈だけを読み込ませる
SoloEnt.md を整備して、AI が 1 ファイルだけで素早く全体像を把握できるようにし、毎回複数のドキュメントを読み込ませない
@ で精密に参照するか、shift を押しながら必要なファイルだけ会話にドラッグする。すべてを既定で開いたり読んだりしない
セリフを修正するときは対象の段落だけを選択し、章全体を選ばない
各シーンが終わったら、不要になったドキュメント参照を閉じる

節約見込み：40–60%

2. 長い説明を短い指示に置き換える

AI に背景説明は不要で、必要なのは「何を」「どうするか」だけです。SoloEnt はシステムプロンプトを既に提供しているので、会話で背景を繰り返す必要はありません。 トークンを浪費する書き方：

あなたはプロの小説執筆アシスタントです。このセリフをもっと張りつめた感じに書き直して、
読者に二人の緊張関係を感じさせてほしい。同時にキャラクターの性格の一貫性は保って……

トークンを節約する書き方：

セリフ書き直し：緊張感を強める、声色は維持

よく使う指示は Skill として保存し、ワンクリックで呼び出せばコストはほぼゼロです。

節約見込み：20–35%

3. 使っている Rules を見直す

Rules は見落とされがちな”見えない”トークン消費源です。会話のたびに強制的に読み込まれます。 整理の原則：

本文執筆用の Rules は本文を書くときだけ読み込む
「あなたは……」のような役割演出の前置きは削除する（AI は自分が何かを既に理解しています）
段落ではなくリストで書く。同じ情報量で、トークンは半分
四半期に 1 回 Rules を棚卸しし、すでに内在化していて明示が不要な内容を削除する

節約見込み：15–30%

中インパクト — 良い日常習慣をつくる

4. 軽いタスクには軽いモデルを

すべてのタスクに最強モデルが必要なわけではありません。

タスク種別	最適モデル（高品質が必要なとき）	軽量モデル（要件を下げてよいとき）
ブレインストーミング、あらすじ生成、一貫性チェック	Sonnet	Haiku、GLM
本文執筆、セリフ推敲、シーン拡張	Gemini	Doubao、DeepSeek
複雑なプロット設計、深いスタイル模倣、長編ロジック整理	Opus	Sonnet、GLM
初稿生成、あらすじ草案	GLM、DeepSeek	オープンソースモデル

節約見込み：50–70%（軽タスク部分）

5. 一度に全部出させず、ステップに分ける

「2,000 字の章を生成 → 気に入らなければやり直し」を繰り返すのは、最も浪費するパターンです。 おすすめの流れ（章執筆の例）：

まずあらすじ

本章の構造とビートを出す

本文を展開

あらすじに納得してから本文を書く

トーンとスタイル微調整

最後に局所的に磨く

各ステップのトークンは少なく、方向が合っていることを確認してから次へ進めます。総消費は、何度も全文再生成するより遥かに少なくなります。 Plan モードを活用する：実行前に Plan モードへ切り替え、軽量なやり取りで方向、構造、重要な細部を擦り合わせ、それから実行モードに戻して生成します。Plan モードのトークン消費は極めて小さく、一度方向を合わせておけば、後の再生成を大幅に減らせます。

[Plan モード]
この章は A と B が和解しつつ、C への伏線を残したい。どんな構成が考えられる？
→ 方向とビートを揃える

[実行モード]
2 番目の構成で本文を書いて

節約見込み：30–50%（反復シーン）

6. こまめに新規ウィンドウ、古い会話を引き伸ばさない

各会話ウィンドウには履歴が積み上がり、やり取りが長くなるほど次の入力トークンも大きくなります。何十ターンも続いたウィンドウは、「履歴の重み」だけで多くのトークンを使います。 おすすめ：

独立したタスクが終わったら、次は新しいウィンドウで開始する
同じウィンドウでセリフを推敲し、あらすじを議論し、設定も修正する、を全部やらない
ウィンドウが長くなったうえで再生成が必要なときは、新しいウィンドウで必要なコンテキストだけ持ち込む
SoloEnt.md の呼び出しや @ で個別ファイルを指定して、正しい必要なコンテキストを再起動する

良い習慣：1 ウィンドウ、1 タスク

節約見込み：10–30%（長期累積）

7. AI には書き直させず、修正させる

制約がないと AI は段落全体を再出力しがちです。毎回どこを変えるかを明示しましょう。 全文再生成を誘発：

この文を改善して

修正部分だけ出力：

3 段落目だけ、文のテンポを落として書き直し、修正後の段落だけ出力。
他は不要

「説明不要」「まとめ不要」も付け加える——AI の前置きや後書きもトークンを消費します。

節約見込み：20–40%（推敲シーン）

上級 — より深い最適化

8. 高頻度フローを Workflow で固定化する

章執筆前に毎回同じ作業（前回までのあらすじ確認、キャラ感情の確認、本章のあらすじ閲覧）をしているなら、それを Workflow にまとめます。引数は「章番号」だけにし、残りはシステムが自動で組み立てます。呼び出しごとのプロンプトトークンが、毎回手動でばらつく値ではなく固定の最小値になります。同時に実行の一貫性も担保できます。

効果：一貫性 + トークン節約の二重取り

9. ローカルモデルを「下書き層」にする

LM Studio でオープンソースモデルをローカル実行し、初稿を作ります（限界費用ゼロ）。初稿が出たら、クラウドモデルで最終仕上げを 1 回だけ行います。このパスはトークン消費が少ない一方、効果は大きいです。 ハードウェア目安：

メモリ	実行可能モデル	用途
16 GB	7B パラメータ	下書きには十分
32 GB	13B パラメータ	より安定した品質

多作な作家には特に有効で、クラウド消費を 60% 以上 削減できます。

一言でまとめると

プロンプトを最適化するのではなく、コンテキストを制御し、必要なことを正確に伝える——これがトークン節約の核心です。

短い Rules、的確な参照、用途に応じたモデル選択。この 3 つを同時にやれば、月額トークン費用は半分以上削減でき、執筆品質はまったく落ちません。

はじめに

クイックスタート

柔軟な執筆

高品質な執筆

サブスクリプションと支払い

無料リソース

トラブルシューティング

前提：クライアントを最新の状態に保つ

最新版をダウンロード

基本の式

高インパクト — 毎回適用すべき

1. コンテキストウィンドウの範囲を絞る

2. 長い説明を短い指示に置き換える

3. 使っている Rules を見直す

中インパクト — 良い日常習慣をつくる

4. 軽いタスクには軽いモデルを

5. 一度に全部出させず、ステップに分ける

6. こまめに新規ウィンドウ、古い会話を引き伸ばさない

7. AI には書き直させず、修正させる

上級 — より深い最適化

8. 高頻度フローを Workflow で固定化する

9. ローカルモデルを「下書き層」にする

一言でまとめると

次のステップ

プランを選ぶ

サブスクリプション管理

はじめに

クイックスタート

柔軟な執筆

高品質な執筆

サブスクリプションと支払い

無料リソース

トラブルシューティング

Documentation Index

​前提：クライアントを最新の状態に保つ

最新版をダウンロード

​基本の式

​高インパクト — 毎回適用すべき

​1. コンテキストウィンドウの範囲を絞る

​2. 長い説明を短い指示に置き換える

​3. 使っている Rules を見直す

​中インパクト — 良い日常習慣をつくる

​4. 軽いタスクには軽いモデルを

​5. 一度に全部出させず、ステップに分ける

​6. こまめに新規ウィンドウ、古い会話を引き伸ばさない

​7. AI には書き直させず、修正させる

​上級 — より深い最適化

​8. 高頻度フローを Workflow で固定化する

​9. ローカルモデルを「下書き層」にする

​一言でまとめると

​次のステップ

プランを選ぶ

サブスクリプション管理

前提：クライアントを最新の状態に保つ

基本の式

高インパクト — 毎回適用すべき

1. コンテキストウィンドウの範囲を絞る

2. 長い説明を短い指示に置き換える

3. 使っている Rules を見直す

中インパクト — 良い日常習慣をつくる

4. 軽いタスクには軽いモデルを

5. 一度に全部出させず、ステップに分ける

6. こまめに新規ウィンドウ、古い会話を引き伸ばさない

7. AI には書き直させず、修正させる

上級 — より深い最適化

8. 高頻度フローを Workflow で固定化する

9. ローカルモデルを「下書き層」にする

一言でまとめると

次のステップ