Guía para ahorrar tokens

Requisito previo: mantén tu cliente actualizado

Mejoramos continuamente la gestión de contexto y la caché de API en cada versión, para que conforme evolucionan los modelos sigamos ofreciéndote la mejor eficiencia en costes.

Descargar la última versión

Obtén el cliente más reciente de SoloEnt desde nuestro sitio web

La ecuación esencial

Consumo de tokens = tamaño de la entrada × número de llamadas

Una vez que interiorizas esto, el manual es simple: reduce cada entrada y elimina las llamadas innecesarias.

Alto impacto — aplícalo en cada sesión

1. Acota la ventana de contexto

Muestra a la IA solo lo que realmente necesita. Si estás escribiendo el capítulo 47, no necesita el capítulo 1. Si estás puliendo una línea de diálogo, no necesita el capítulo entero. Qué hacer:

Activa solo los documentos relevantes a la escena actual. Al redactar un capítulo, carga solo los ajustes directamente relevantes, el esquema del capítulo y un contexto limitado
Mantén un SoloEnt.md para que la IA absorba el contexto desde un único archivo en lugar de tener que abrir muchos
Usa @ para referencias precisas, o mantén shift y arrastra archivos concretos al chat — no abras o leas todo por defecto
Al editar un diálogo, selecciona solo el párrafo objetivo, no el capítulo entero
Cierra las referencias a documentos no usados al terminar cada escena

Ahorro estimado: 40–60%

2. Sustituye descripciones largas por instrucciones cortas

La IA no necesita tu introducción de contexto, solo necesita saber “qué hacer” y “cómo hacerlo”. SoloEnt ya proporciona el system prompt; no hace falta repetir el marco en la conversación. Forma cara en tokens:

Eres un asistente profesional de escritura de novela. Reescribe este diálogo
para que tenga más tensión, que el lector sienta la tirantez entre los dos
personajes, manteniendo la coherencia de cada voz…

Forma económica en tokens:

Reescribir diálogo: aumentar tensión, conservar voz

Guarda tus instrucciones recurrentes como Skill — un clic, coste descriptivo cero.

Ahorro estimado: 20–35%

3. Audita las Rules que estás cargando

Las Rules son el sumidero silencioso de tokens más ignorado: se cargan obligatoriamente en cada solicitud. Principios para depurarlas:

Carga las Rules de redacción de capítulos solo cuando estés escribiendo capítulos
Elimina los preámbulos de “Eres…” (la IA ya sabe qué es)
Usa listas en lugar de párrafos — la misma información, la mitad de tokens
Audita las Rules cada trimestre y elimina lo que la IA ya ha interiorizado

Ahorro estimado: 15–30%

Impacto medio — buenos hábitos diarios

4. Tareas ligeras con modelos ligeros

No todas las tareas requieren el modelo más potente.

Tipo de tarea	Modelo óptimo (cuando exige calidad)	Modelo ligero (cuando puedes bajar el listón)
Lluvia de ideas, generación de esquemas, comprobación de coherencia	Sonnet	Haiku, GLM
Redacción de prosa, pulido de diálogos, expansión de escenas	Gemini	Doubao, DeepSeek
Diseño de tramas complejas, imitación profunda de estilo, hilado lógico de obras largas	Opus	Sonnet, GLM
Generación de borradores, esbozo de esquemas	GLM, DeepSeek	Modelos open source

Ahorro estimado: 50–70% en cargas de tareas ligeras

5. Trabaja por pasos; no pidas la salida completa de una sola vez

No tantees regenerando: pedir un capítulo de 2000 palabras y reiniciar cada vez que no te guste es el patrón más derrochador que existe. Flujo recomendado (ejemplo de capítulo):

Primero el esquema

Que la IA produzca la estructura y los beats del capítulo

Luego desarrolla

Cuando el esquema sea correcto, redacta el cuerpo

Tono y estilo

Por último, pulir localmente

Cada paso cuesta pocos tokens, y solo continúa cuando confirmas la dirección — el gasto total es mucho menor que regenerar el texto completo varias veces. Aprovecha el modo Plan: antes de ejecutar, cambia al modo Plan y alinea dirección, estructura y detalles clave en unos pocos turnos ligeros. Luego vuelve a ejecutar. El modo Plan consume muy pocos tokens, y una sola alineación previa evita un gran gasto en regeneraciones repetidas.

[Modo Plan]
Este capítulo tiene a A y B reconciliándose, pero quiero plantar una semilla
para C. ¿Qué estructuras podrían funcionar?
→ Alinear dirección y beats

[Modo de ejecución]
Escribe el cuerpo con la estructura 2

Ahorro estimado: 30–50% en escenarios iterativos

6. Abre ventanas nuevas a menudo; no extiendas chats antiguos

Cada ventana arrastra su historial: cuanto más larga es la conversación, mayor es el coste de cada nueva entrada, porque la historia completa se reenvía. Una ventana con docenas de turnos puede gastar la mayor parte del presupuesto solo en “carga histórica”. Sugerencias:

Tras terminar una tarea autocontenida, abre una nueva ventana para la siguiente
No pulas diálogos, debatas esquemas y edites ajustes en la misma ventana
Si una ventana se ha vuelto larga y necesitas regenerar, prefiere una ventana nueva con solo el contexto necesario
Reactiva el contexto correcto invocando SoloEnt.md o haciendo @ a archivos concretos

Buen hábito: una ventana, una tarea

Ahorro estimado: 10–30% a largo plazo

7. Pide a la IA que edite, no que reescriba

Sin restricciones, la IA tiende a re-emitir el pasaje entero. Por eso, dile explícitamente qué cambiar. Dispara reescritura completa:

Mejora este texto

Solo edita:

Cambia solo el tercer párrafo, ralentiza el ritmo de las frases. Devuelve
solo el párrafo modificado; nada más.

Añade “sin explicaciones” / “sin resumen” — los preámbulos y cierres también consumen tokens.

Ahorro estimado: 20–40% en tareas de pulido

Avanzado — optimización profunda

8. Solidifica los flujos frecuentes como Workflow

Si cada vez que escribes un capítulo realizas el mismo ritual (revisar el resumen anterior, confirmar el estado emocional de los personajes, leer el esquema del capítulo), conviértelo en un Workflow. El único parámetro es el número de capítulo; el resto se ensambla automáticamente. Los tokens del prompt por llamada pasan a ser un mínimo fijo en vez de un valor inflado al azar, y se gana coherencia al mismo tiempo.

Resultado: coherencia + ahorro de tokens

9. Usa un modelo local como “capa de borrador”

Ejecuta un modelo open source localmente con LM Studio para producir el primer borrador (coste marginal cero). Después, usa el modelo en la nube para una única pasada de pulido — pocos tokens y gran impacto en la calidad. Referencia de hardware:

RAM	Modelo	Adecuado para
16 GB	7B parámetros	Borradores
32 GB	13B parámetros	Calidad más estable

Para autores prolíficos puede recortar el gasto en la nube en un 60% o más.

En una frase

Controla el contexto y expresa tu necesidad con precisión, en lugar de optimizar el prompt — ese es el núcleo del ahorro de tokens.

Reglas cortas, referencias precisas y el modelo adecuado para cada tarea: si haces las tres cosas a la vez, tu factura mensual de tokens puede reducirse a más de la mitad sin perder calidad de escritura.

Introducción

Inicio rápido

Escritura flexible

Escritura de alta calidad

Suscripción y pago

Recursos gratuitos

Solución de problemas

Requisito previo: mantén tu cliente actualizado

Descargar la última versión

La ecuación esencial

Alto impacto — aplícalo en cada sesión

1. Acota la ventana de contexto

2. Sustituye descripciones largas por instrucciones cortas

3. Audita las Rules que estás cargando

Impacto medio — buenos hábitos diarios

4. Tareas ligeras con modelos ligeros

5. Trabaja por pasos; no pidas la salida completa de una sola vez

6. Abre ventanas nuevas a menudo; no extiendas chats antiguos

7. Pide a la IA que edite, no que reescriba

Avanzado — optimización profunda

8. Solidifica los flujos frecuentes como Workflow

9. Usa un modelo local como “capa de borrador”

En una frase

Próximos pasos

Elige tu plan

Gestionar suscripción

Introducción

Inicio rápido

Escritura flexible

Escritura de alta calidad

Suscripción y pago

Recursos gratuitos

Solución de problemas

Documentation Index

​Requisito previo: mantén tu cliente actualizado

Descargar la última versión

​La ecuación esencial

​Alto impacto — aplícalo en cada sesión

​1. Acota la ventana de contexto

​2. Sustituye descripciones largas por instrucciones cortas

​3. Audita las Rules que estás cargando

​Impacto medio — buenos hábitos diarios

​4. Tareas ligeras con modelos ligeros

​5. Trabaja por pasos; no pidas la salida completa de una sola vez

​6. Abre ventanas nuevas a menudo; no extiendas chats antiguos

​7. Pide a la IA que edite, no que reescriba

​Avanzado — optimización profunda

​8. Solidifica los flujos frecuentes como Workflow

​9. Usa un modelo local como “capa de borrador”

​En una frase

​Próximos pasos

Elige tu plan

Gestionar suscripción

Requisito previo: mantén tu cliente actualizado

La ecuación esencial

Alto impacto — aplícalo en cada sesión

1. Acota la ventana de contexto

2. Sustituye descripciones largas por instrucciones cortas

3. Audita las Rules que estás cargando

Impacto medio — buenos hábitos diarios

4. Tareas ligeras con modelos ligeros

5. Trabaja por pasos; no pidas la salida completa de una sola vez

6. Abre ventanas nuevas a menudo; no extiendas chats antiguos

7. Pide a la IA que edite, no que reescriba

Avanzado — optimización profunda

8. Solidifica los flujos frecuentes como Workflow

9. Usa un modelo local como “capa de borrador”

En una frase

Próximos pasos