Configuración de LLM Local

Esta guía sobre LLMs Locales fue creada 100% por IA. Ajusta según tu uso real y requisitos.

¿Por qué usar modelos locales?

Privacidad

Tus datos nunca salen de tu computadora

Sin costos de API

Configuración única, uso ilimitado

Acceso sin conexión

Trabaja sin conexión a internet

Control total

Personaliza los parámetros del modelo

Requisitos

Los modelos locales requieren recursos de hardware significativos. Mínimo recomendado:

RAM: 16GB (32GB+ para modelos más grandes)
Almacenamiento: 10-50GB por modelo
GPU: Opcional pero altamente recomendado (NVIDIA con 8GB+ VRAM)

Soluciones populares

Ollama (Recomendado para principiantes)

Ejecutor de modelos local fácil de usar con CLI simple. Ventajas:

Instalación simple
Gestión automática de modelos
Comunidad activa
Optimizado para Apple Silicon

Mejores modelos:

Llama 3.1 (8B, 70B)
Qwen 2.5
DeepSeek Coder

Guía de configuración Ollama

Instrucciones de descarga e instalación

LM Studio

Aplicación de escritorio con GUI para ejecutar modelos locales. Ventajas:

Interfaz amigable
Descubrimiento y descarga de modelos
Multiplataforma (Mac, Windows, Linux)
Interfaz de chat integrada

Mejor para:

Usuarios que prefieren GUI sobre CLI
Probar múltiples modelos fácilmente
Comparación rápida de modelos

LM Studio

Descargar LM Studio

vLLM (Avanzado)

Motor de inferencia de alto rendimiento para despliegues en producción. Ventajas:

Velocidad de inferencia más rápida
Optimización de GPU
Listo para producción
Servidor API incluido

Mejor para:

Usuarios técnicos
Necesidades de alto rendimiento
Despliegues personalizados

Conexión a SoloEnt

Todas las soluciones locales exponen una API compatible con OpenAI:

Iniciar servidor local

Ejecuta tu solución elegida (Ollama, LM Studio, etc.)

Configurar en SoloEnt

Usa la configuración compatible con OpenAI:

Base URL: http://localhost:11434/v1  (valor predeterminado Ollama)
API Key: ollama  (o dejar en blanco)
Model ID: llama3.1  (nombre de tu modelo)

Probar conexión

Envía un mensaje de prueba para verificar la configuración.

Modelos recomendados por caso de uso

Escritura y narración

Modelo	Tamaño	RAM Requerida	Calidad
Llama 3.1 70B	40GB	64GB+	Excelente
Qwen 2.5 32B	20GB	32GB+	Muy buena
Llama 3.1 8B	5GB	16GB+	Buena

Contenido en chino

Modelo	Tamaño	RAM Requerida	Calidad
Qwen 2.5 72B	42GB	64GB+	Excelente
GLM-4 9B	6GB	16GB+	Muy buena
DeepSeek 67B	38GB	64GB+	Excelente

Código y técnico

Modelo	Tamaño	RAM Requerida	Calidad
DeepSeek Coder V2	16GB	32GB+	Excelente
CodeLlama 34B	20GB	32GB+	Muy buena
Qwen 2.5 Coder 7B	4GB	8GB+	Buena

Optimización de rendimiento

Usar aceleración GPU

Las GPUs NVIDIA mejoran dramáticamente la velocidad de inferencia. Asegúrate de que CUDA esté correctamente instalado.

Elegir tamaño de modelo apropiado

Modelos más grandes ≠ siempre mejores. Los modelos 7B-13B a menudo proporcionan el mejor equilibrio velocidad/calidad.

Cuantización

Usa modelos cuantizados Q4 o Q5 para reducir el uso de memoria con pérdida mínima de calidad.

Ajustar longitud del contexto

Ventanas de contexto más cortas (4K-8K) se ejecutan más rápido que contexto largo (32K+).

Problemas comunes

El modelo se ejecuta muy lentamente

Cambiar a modelo más pequeño (8B en lugar de 70B)
Usar versión cuantizada (Q4_K_M)
Habilitar aceleración GPU
Reducir tamaño de ventana de contexto

Sin memoria

Elegir modelo más pequeño
Cerrar otras aplicaciones
Actualizar RAM
Usar cuantización más alta (Q3, Q4)

Conexión rechazada

Verificar que el servidor local esté ejecutándose
Verificar URL base y número de puerto
Asegurarse de que no haya bloqueo del firewall
Probar http://127.0.0.1 en lugar de localhost

Calidad de salida pobre

Probar diferente formato de prompt
Ajustar configuración de temperature/top_p
Cambiar a modelo más grande o diferente
Verificar si el modelo es apropiado para tu idioma

Próximos pasos

Directorio API

Explorar proveedores de API en la nube

Claves API gratuitas

Obtener acceso gratuito a API en la nube

Introducción

Inicio rápido

Escritura flexible

Escritura de alta calidad

Recursos gratuitos

Solución de problemas

¿Por qué usar modelos locales?

Privacidad

Sin costos de API

Acceso sin conexión

Control total

Requisitos

Soluciones populares

Ollama (Recomendado para principiantes)

Guía de configuración Ollama

LM Studio

LM Studio

vLLM (Avanzado)

Conexión a SoloEnt

Modelos recomendados por caso de uso

Escritura y narración

Contenido en chino

Código y técnico

Optimización de rendimiento

Problemas comunes

Próximos pasos

Directorio API

Claves API gratuitas

Introducción

Inicio rápido

Escritura flexible

Escritura de alta calidad

Recursos gratuitos

Solución de problemas

​¿Por qué usar modelos locales?

Privacidad

Sin costos de API

Acceso sin conexión

Control total

​Requisitos

​Soluciones populares

​Ollama (Recomendado para principiantes)

Guía de configuración Ollama

​LM Studio

LM Studio

​vLLM (Avanzado)

​Conexión a SoloEnt

​Modelos recomendados por caso de uso

​Escritura y narración

​Contenido en chino

​Código y técnico

​Optimización de rendimiento

​Problemas comunes

​Próximos pasos

Directorio API

Claves API gratuitas

¿Por qué usar modelos locales?

Requisitos

Soluciones populares

Ollama (Recomendado para principiantes)

LM Studio

vLLM (Avanzado)

Conexión a SoloEnt

Modelos recomendados por caso de uso

Escritura y narración

Contenido en chino

Código y técnico

Optimización de rendimiento

Problemas comunes

Próximos pasos