> ## Documentation Index
> Fetch the complete documentation index at: https://docs.soloent.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# Guía para ahorrar tokens

> Cómo usar los tokens de forma eficiente y reducir tu factura mensual de SoloEnt

## Requisito previo: mantén tu cliente actualizado

Mejoramos continuamente la gestión de contexto y la caché de API en cada versión, para que conforme evolucionan los modelos sigamos ofreciéndote la mejor eficiencia en costes.

<Card title="Descargar la última versión" icon="download" href="https://soloent.ai">
  Obtén el cliente más reciente de SoloEnt desde nuestro sitio web
</Card>

## La ecuación esencial

<Note>
  **Consumo de tokens = tamaño de la entrada × número de llamadas**
</Note>

Una vez que interiorizas esto, el manual es simple: reduce cada entrada y elimina las llamadas innecesarias.

## Alto impacto — aplícalo en cada sesión

### 1. Acota la ventana de contexto

Muestra a la IA solo lo que realmente necesita. Si estás escribiendo el capítulo 47, no necesita el capítulo 1. Si estás puliendo una línea de diálogo, no necesita el capítulo entero.

**Qué hacer**:

* Activa solo los documentos relevantes a la escena actual. Al redactar un capítulo, carga solo los ajustes directamente relevantes, el esquema del capítulo y un contexto limitado
* Mantén un [`SoloEnt.md`](../tips/SoloEnt) para que la IA absorba el contexto desde un único archivo en lugar de tener que abrir muchos
* Usa `@` para referencias precisas, o mantén `shift` y arrastra archivos concretos al chat — no abras o leas todo por defecto
* Al editar un diálogo, selecciona solo el párrafo objetivo, no el capítulo entero
* Cierra las referencias a documentos no usados al terminar cada escena

<Tip>
  Ahorro estimado: **40–60%**
</Tip>

### 2. Sustituye descripciones largas por instrucciones cortas

La IA no necesita tu introducción de contexto, solo necesita saber "qué hacer" y "cómo hacerlo". SoloEnt ya proporciona el system prompt; no hace falta repetir el marco en la conversación.

**Forma cara en tokens**:

```text theme={null}
Eres un asistente profesional de escritura de novela. Reescribe este diálogo
para que tenga más tensión, que el lector sienta la tirantez entre los dos
personajes, manteniendo la coherencia de cada voz…
```

**Forma económica en tokens**:

```text theme={null}
Reescribir diálogo: aumentar tensión, conservar voz
```

Guarda tus instrucciones recurrentes como [Skill](../tips/skills) — un clic, coste descriptivo cero.

<Tip>
  Ahorro estimado: **20–35%**
</Tip>

### 3. Audita las Rules que estás cargando

Las [Rules](../tips/rules) son el sumidero silencioso de tokens más ignorado: se cargan obligatoriamente en cada solicitud.

**Principios para depurarlas**:

* Carga las Rules de redacción de capítulos solo cuando estés escribiendo capítulos
* Elimina los preámbulos de "Eres…" (la IA ya sabe qué es)
* Usa listas en lugar de párrafos — la misma información, la mitad de tokens
* Audita las Rules cada trimestre y elimina lo que la IA ya ha interiorizado

<Tip>
  Ahorro estimado: **15–30%**
</Tip>

## Impacto medio — buenos hábitos diarios

### 4. Tareas ligeras con modelos ligeros

No todas las tareas requieren el modelo más potente.

| Tipo de tarea                                                                           | Modelo óptimo (cuando exige calidad) | Modelo ligero (cuando puedes bajar el listón) |
| --------------------------------------------------------------------------------------- | ------------------------------------ | --------------------------------------------- |
| Lluvia de ideas, generación de esquemas, comprobación de coherencia                     | Sonnet                               | Haiku, GLM                                    |
| Redacción de prosa, pulido de diálogos, expansión de escenas                            | Gemini                               | Doubao, DeepSeek                              |
| Diseño de tramas complejas, imitación profunda de estilo, hilado lógico de obras largas | Opus                                 | Sonnet, GLM                                   |
| Generación de borradores, esbozo de esquemas                                            | GLM, DeepSeek                        | Modelos open source                           |

<Tip>
  Ahorro estimado: **50–70%** en cargas de tareas ligeras
</Tip>

### 5. Trabaja por pasos; no pidas la salida completa de una sola vez

No tantees regenerando: pedir un capítulo de 2000 palabras y reiniciar cada vez que no te guste es **el patrón más derrochador que existe**.

**Flujo recomendado** (ejemplo de capítulo):

<Steps>
  <Step title="Primero el esquema">
    Que la IA produzca la estructura y los beats del capítulo
  </Step>

  <Step title="Luego desarrolla">
    Cuando el esquema sea correcto, redacta el cuerpo
  </Step>

  <Step title="Tono y estilo">
    Por último, pulir localmente
  </Step>
</Steps>

Cada paso cuesta pocos tokens, y solo continúa cuando confirmas la dirección — el gasto total es mucho menor que regenerar el texto completo varias veces.

**Aprovecha el [modo Plan](../tips/plan-mode)**: antes de ejecutar, cambia al modo Plan y alinea dirección, estructura y detalles clave en unos pocos turnos ligeros. Luego vuelve a ejecutar. El modo Plan consume muy pocos tokens, y una sola alineación previa evita un gran gasto en regeneraciones repetidas.

```text theme={null}
[Modo Plan]
Este capítulo tiene a A y B reconciliándose, pero quiero plantar una semilla
para C. ¿Qué estructuras podrían funcionar?
→ Alinear dirección y beats

[Modo de ejecución]
Escribe el cuerpo con la estructura 2
```

<Tip>
  Ahorro estimado: **30–50%** en escenarios iterativos
</Tip>

### 6. Abre ventanas nuevas a menudo; no extiendas chats antiguos

Cada ventana arrastra su historial: cuanto más larga es la conversación, mayor es el coste de cada nueva entrada, porque la historia completa se reenvía. Una ventana con docenas de turnos puede gastar la mayor parte del presupuesto solo en "carga histórica".

**Sugerencias**:

* Tras terminar una tarea autocontenida, abre una nueva ventana para la siguiente
* No pulas diálogos, debatas esquemas y edites ajustes en la misma ventana
* Si una ventana se ha vuelto larga y necesitas regenerar, prefiere una ventana nueva con solo el contexto necesario
* Reactiva el contexto correcto invocando [`SoloEnt.md`](../tips/SoloEnt) o haciendo `@` a archivos concretos

<Note>
  Buen hábito: **una ventana, una tarea**
</Note>

<Tip>
  Ahorro estimado: **10–30%** a largo plazo
</Tip>

### 7. Pide a la IA que edite, no que reescriba

Sin restricciones, la IA tiende a re-emitir el pasaje entero. Por eso, **dile explícitamente qué cambiar**.

**Dispara reescritura completa**:

```text theme={null}
Mejora este texto
```

**Solo edita**:

```text theme={null}
Cambia solo el tercer párrafo, ralentiza el ritmo de las frases. Devuelve
solo el párrafo modificado; nada más.
```

Añade "sin explicaciones" / "sin resumen" — los preámbulos y cierres también consumen tokens.

<Tip>
  Ahorro estimado: **20–40%** en tareas de pulido
</Tip>

## Avanzado — optimización profunda

### 8. Solidifica los flujos frecuentes como Workflow

Si cada vez que escribes un capítulo realizas el mismo ritual (revisar el resumen anterior, confirmar el estado emocional de los personajes, leer el esquema del capítulo), conviértelo en un [Workflow](../tips/workflows). El único parámetro es el número de capítulo; el resto se ensambla automáticamente.

Los tokens del prompt por llamada pasan a ser un mínimo fijo en vez de un valor inflado al azar, y se gana coherencia al mismo tiempo.

<Note>
  Resultado: **coherencia + ahorro de tokens**
</Note>

### 9. Usa un modelo local como "capa de borrador"

Ejecuta un modelo open source localmente con [LM Studio](../resources/local-llms) para producir el primer borrador (coste marginal cero). Después, usa el modelo en la nube para una única pasada de pulido — pocos tokens y gran impacto en la calidad.

**Referencia de hardware**:

| RAM   | Modelo         | Adecuado para       |
| ----- | -------------- | ------------------- |
| 16 GB | 7B parámetros  | Borradores          |
| 32 GB | 13B parámetros | Calidad más estable |

Para autores prolíficos puede recortar el gasto en la nube en un **60% o más**.

## En una frase

<Note>
  Controla el contexto y expresa tu necesidad con precisión, en lugar de optimizar el prompt — ese es el núcleo del ahorro de tokens.
</Note>

Reglas cortas, referencias precisas y el modelo adecuado para cada tarea: si haces las tres cosas a la vez, tu factura mensual de tokens puede reducirse a más de la mitad sin perder calidad de escritura.

## Próximos pasos

<CardGroup cols={2}>
  <Card title="Elige tu plan" icon="credit-card" href="./choose-your-plan">
    Compara planes y precios
  </Card>

  <Card title="Gestionar suscripción" icon="gear" href="./manage-subscription">
    Saldo, facturas y cancelación
  </Card>
</CardGroup>
