Saltar al contenido principal

Documentation Index

Fetch the complete documentation index at: https://docs.soloent.ai/llms.txt

Use this file to discover all available pages before exploring further.

Requisito previo: mantén tu cliente actualizado

Mejoramos continuamente la gestión de contexto y la caché de API en cada versión, para que conforme evolucionan los modelos sigamos ofreciéndote la mejor eficiencia en costes.

Descargar la última versión

Obtén el cliente más reciente de SoloEnt desde nuestro sitio web

La ecuación esencial

Consumo de tokens = tamaño de la entrada × número de llamadas
Una vez que interiorizas esto, el manual es simple: reduce cada entrada y elimina las llamadas innecesarias.

Alto impacto — aplícalo en cada sesión

1. Acota la ventana de contexto

Muestra a la IA solo lo que realmente necesita. Si estás escribiendo el capítulo 47, no necesita el capítulo 1. Si estás puliendo una línea de diálogo, no necesita el capítulo entero. Qué hacer:
  • Activa solo los documentos relevantes a la escena actual. Al redactar un capítulo, carga solo los ajustes directamente relevantes, el esquema del capítulo y un contexto limitado
  • Mantén un SoloEnt.md para que la IA absorba el contexto desde un único archivo en lugar de tener que abrir muchos
  • Usa @ para referencias precisas, o mantén shift y arrastra archivos concretos al chat — no abras o leas todo por defecto
  • Al editar un diálogo, selecciona solo el párrafo objetivo, no el capítulo entero
  • Cierra las referencias a documentos no usados al terminar cada escena
Ahorro estimado: 40–60%

2. Sustituye descripciones largas por instrucciones cortas

La IA no necesita tu introducción de contexto, solo necesita saber “qué hacer” y “cómo hacerlo”. SoloEnt ya proporciona el system prompt; no hace falta repetir el marco en la conversación. Forma cara en tokens:
Eres un asistente profesional de escritura de novela. Reescribe este diálogo
para que tenga más tensión, que el lector sienta la tirantez entre los dos
personajes, manteniendo la coherencia de cada voz…
Forma económica en tokens:
Reescribir diálogo: aumentar tensión, conservar voz
Guarda tus instrucciones recurrentes como Skill — un clic, coste descriptivo cero.
Ahorro estimado: 20–35%

3. Audita las Rules que estás cargando

Las Rules son el sumidero silencioso de tokens más ignorado: se cargan obligatoriamente en cada solicitud. Principios para depurarlas:
  • Carga las Rules de redacción de capítulos solo cuando estés escribiendo capítulos
  • Elimina los preámbulos de “Eres…” (la IA ya sabe qué es)
  • Usa listas en lugar de párrafos — la misma información, la mitad de tokens
  • Audita las Rules cada trimestre y elimina lo que la IA ya ha interiorizado
Ahorro estimado: 15–30%

Impacto medio — buenos hábitos diarios

4. Tareas ligeras con modelos ligeros

No todas las tareas requieren el modelo más potente.
Tipo de tareaModelo óptimo (cuando exige calidad)Modelo ligero (cuando puedes bajar el listón)
Lluvia de ideas, generación de esquemas, comprobación de coherenciaSonnetHaiku, GLM
Redacción de prosa, pulido de diálogos, expansión de escenasGeminiDoubao, DeepSeek
Diseño de tramas complejas, imitación profunda de estilo, hilado lógico de obras largasOpusSonnet, GLM
Generación de borradores, esbozo de esquemasGLM, DeepSeekModelos open source
Ahorro estimado: 50–70% en cargas de tareas ligeras

5. Trabaja por pasos; no pidas la salida completa de una sola vez

No tantees regenerando: pedir un capítulo de 2000 palabras y reiniciar cada vez que no te guste es el patrón más derrochador que existe. Flujo recomendado (ejemplo de capítulo):
1

Primero el esquema

Que la IA produzca la estructura y los beats del capítulo
2

Luego desarrolla

Cuando el esquema sea correcto, redacta el cuerpo
3

Tono y estilo

Por último, pulir localmente
Cada paso cuesta pocos tokens, y solo continúa cuando confirmas la dirección — el gasto total es mucho menor que regenerar el texto completo varias veces. Aprovecha el modo Plan: antes de ejecutar, cambia al modo Plan y alinea dirección, estructura y detalles clave en unos pocos turnos ligeros. Luego vuelve a ejecutar. El modo Plan consume muy pocos tokens, y una sola alineación previa evita un gran gasto en regeneraciones repetidas.
[Modo Plan]
Este capítulo tiene a A y B reconciliándose, pero quiero plantar una semilla
para C. ¿Qué estructuras podrían funcionar?
→ Alinear dirección y beats

[Modo de ejecución]
Escribe el cuerpo con la estructura 2
Ahorro estimado: 30–50% en escenarios iterativos

6. Abre ventanas nuevas a menudo; no extiendas chats antiguos

Cada ventana arrastra su historial: cuanto más larga es la conversación, mayor es el coste de cada nueva entrada, porque la historia completa se reenvía. Una ventana con docenas de turnos puede gastar la mayor parte del presupuesto solo en “carga histórica”. Sugerencias:
  • Tras terminar una tarea autocontenida, abre una nueva ventana para la siguiente
  • No pulas diálogos, debatas esquemas y edites ajustes en la misma ventana
  • Si una ventana se ha vuelto larga y necesitas regenerar, prefiere una ventana nueva con solo el contexto necesario
  • Reactiva el contexto correcto invocando SoloEnt.md o haciendo @ a archivos concretos
Buen hábito: una ventana, una tarea
Ahorro estimado: 10–30% a largo plazo

7. Pide a la IA que edite, no que reescriba

Sin restricciones, la IA tiende a re-emitir el pasaje entero. Por eso, dile explícitamente qué cambiar. Dispara reescritura completa:
Mejora este texto
Solo edita:
Cambia solo el tercer párrafo, ralentiza el ritmo de las frases. Devuelve
solo el párrafo modificado; nada más.
Añade “sin explicaciones” / “sin resumen” — los preámbulos y cierres también consumen tokens.
Ahorro estimado: 20–40% en tareas de pulido

Avanzado — optimización profunda

8. Solidifica los flujos frecuentes como Workflow

Si cada vez que escribes un capítulo realizas el mismo ritual (revisar el resumen anterior, confirmar el estado emocional de los personajes, leer el esquema del capítulo), conviértelo en un Workflow. El único parámetro es el número de capítulo; el resto se ensambla automáticamente. Los tokens del prompt por llamada pasan a ser un mínimo fijo en vez de un valor inflado al azar, y se gana coherencia al mismo tiempo.
Resultado: coherencia + ahorro de tokens

9. Usa un modelo local como “capa de borrador”

Ejecuta un modelo open source localmente con LM Studio para producir el primer borrador (coste marginal cero). Después, usa el modelo en la nube para una única pasada de pulido — pocos tokens y gran impacto en la calidad. Referencia de hardware:
RAMModeloAdecuado para
16 GB7B parámetrosBorradores
32 GB13B parámetrosCalidad más estable
Para autores prolíficos puede recortar el gasto en la nube en un 60% o más.

En una frase

Controla el contexto y expresa tu necesidad con precisión, en lugar de optimizar el prompt — ese es el núcleo del ahorro de tokens.
Reglas cortas, referencias precisas y el modelo adecuado para cada tarea: si haces las tres cosas a la vez, tu factura mensual de tokens puede reducirse a más de la mitad sin perder calidad de escritura.

Próximos pasos

Elige tu plan

Compara planes y precios

Gestionar suscripción

Saldo, facturas y cancelación