Esta guía sobre LLMs Locales fue creada 100% por IA. Ajusta según tu uso real y requisitos.
¿Por qué usar modelos locales?
Privacidad
Tus datos nunca salen de tu computadora
Sin costos de API
Configuración única, uso ilimitado
Acceso sin conexión
Trabaja sin conexión a internet
Control total
Personaliza los parámetros del modelo
Requisitos
Soluciones populares
Ollama (Recomendado para principiantes)
Ejecutor de modelos local fácil de usar con CLI simple. Ventajas:- Instalación simple
- Gestión automática de modelos
- Comunidad activa
- Optimizado para Apple Silicon
- Llama 3.1 (8B, 70B)
- Qwen 2.5
- DeepSeek Coder
Guía de configuración Ollama
Instrucciones de descarga e instalación
LM Studio
Aplicación de escritorio con GUI para ejecutar modelos locales. Ventajas:- Interfaz amigable
- Descubrimiento y descarga de modelos
- Multiplataforma (Mac, Windows, Linux)
- Interfaz de chat integrada
- Usuarios que prefieren GUI sobre CLI
- Probar múltiples modelos fácilmente
- Comparación rápida de modelos
LM Studio
Descargar LM Studio
vLLM (Avanzado)
Motor de inferencia de alto rendimiento para despliegues en producción. Ventajas:- Velocidad de inferencia más rápida
- Optimización de GPU
- Listo para producción
- Servidor API incluido
- Usuarios técnicos
- Necesidades de alto rendimiento
- Despliegues personalizados
Conexión a SoloEnt
Todas las soluciones locales exponen una API compatible con OpenAI:Modelos recomendados por caso de uso
Escritura y narración
| Modelo | Tamaño | RAM Requerida | Calidad |
|---|---|---|---|
| Llama 3.1 70B | 40GB | 64GB+ | Excelente |
| Qwen 2.5 32B | 20GB | 32GB+ | Muy buena |
| Llama 3.1 8B | 5GB | 16GB+ | Buena |
Contenido en chino
| Modelo | Tamaño | RAM Requerida | Calidad |
|---|---|---|---|
| Qwen 2.5 72B | 42GB | 64GB+ | Excelente |
| GLM-4 9B | 6GB | 16GB+ | Muy buena |
| DeepSeek 67B | 38GB | 64GB+ | Excelente |
Código y técnico
| Modelo | Tamaño | RAM Requerida | Calidad |
|---|---|---|---|
| DeepSeek Coder V2 | 16GB | 32GB+ | Excelente |
| CodeLlama 34B | 20GB | 32GB+ | Muy buena |
| Qwen 2.5 Coder 7B | 4GB | 8GB+ | Buena |
Optimización de rendimiento
Usar aceleración GPU
Usar aceleración GPU
Las GPUs NVIDIA mejoran dramáticamente la velocidad de inferencia. Asegúrate de que CUDA esté correctamente instalado.
Elegir tamaño de modelo apropiado
Elegir tamaño de modelo apropiado
Modelos más grandes ≠ siempre mejores. Los modelos 7B-13B a menudo proporcionan el mejor equilibrio velocidad/calidad.
Cuantización
Cuantización
Usa modelos cuantizados Q4 o Q5 para reducir el uso de memoria con pérdida mínima de calidad.
Ajustar longitud del contexto
Ajustar longitud del contexto
Ventanas de contexto más cortas (4K-8K) se ejecutan más rápido que contexto largo (32K+).
Problemas comunes
El modelo se ejecuta muy lentamente
El modelo se ejecuta muy lentamente
- Cambiar a modelo más pequeño (8B en lugar de 70B)
- Usar versión cuantizada (Q4_K_M)
- Habilitar aceleración GPU
- Reducir tamaño de ventana de contexto
Sin memoria
Sin memoria
- Elegir modelo más pequeño
- Cerrar otras aplicaciones
- Actualizar RAM
- Usar cuantización más alta (Q3, Q4)
Conexión rechazada
Conexión rechazada
- Verificar que el servidor local esté ejecutándose
- Verificar URL base y número de puerto
- Asegurarse de que no haya bloqueo del firewall
- Probar http://127.0.0.1 en lugar de localhost
Calidad de salida pobre
Calidad de salida pobre
- Probar diferente formato de prompt
- Ajustar configuración de temperature/top_p
- Cambiar a modelo más grande o diferente
- Verificar si el modelo es apropiado para tu idioma