Saltar al contenido principal
Esta guía sobre LLMs Locales fue creada 100% por IA. Ajusta según tu uso real y requisitos.

¿Por qué usar modelos locales?

Privacidad

Tus datos nunca salen de tu computadora

Sin costos de API

Configuración única, uso ilimitado

Acceso sin conexión

Trabaja sin conexión a internet

Control total

Personaliza los parámetros del modelo

Requisitos

Los modelos locales requieren recursos de hardware significativos. Mínimo recomendado:
  • RAM: 16GB (32GB+ para modelos más grandes)
  • Almacenamiento: 10-50GB por modelo
  • GPU: Opcional pero altamente recomendado (NVIDIA con 8GB+ VRAM)

Soluciones populares

Ollama (Recomendado para principiantes)

Ejecutor de modelos local fácil de usar con CLI simple. Ventajas:
  • Instalación simple
  • Gestión automática de modelos
  • Comunidad activa
  • Optimizado para Apple Silicon
Mejores modelos:
  • Llama 3.1 (8B, 70B)
  • Qwen 2.5
  • DeepSeek Coder

Guía de configuración Ollama

Instrucciones de descarga e instalación

LM Studio

Aplicación de escritorio con GUI para ejecutar modelos locales. Ventajas:
  • Interfaz amigable
  • Descubrimiento y descarga de modelos
  • Multiplataforma (Mac, Windows, Linux)
  • Interfaz de chat integrada
Mejor para:
  • Usuarios que prefieren GUI sobre CLI
  • Probar múltiples modelos fácilmente
  • Comparación rápida de modelos

LM Studio

Descargar LM Studio

vLLM (Avanzado)

Motor de inferencia de alto rendimiento para despliegues en producción. Ventajas:
  • Velocidad de inferencia más rápida
  • Optimización de GPU
  • Listo para producción
  • Servidor API incluido
Mejor para:
  • Usuarios técnicos
  • Necesidades de alto rendimiento
  • Despliegues personalizados

Conexión a SoloEnt

Todas las soluciones locales exponen una API compatible con OpenAI:
1

Iniciar servidor local

Ejecuta tu solución elegida (Ollama, LM Studio, etc.)
2

Configurar en SoloEnt

Usa la configuración compatible con OpenAI:
Base URL: http://localhost:11434/v1  (valor predeterminado Ollama)
API Key: ollama  (o dejar en blanco)
Model ID: llama3.1  (nombre de tu modelo)
3

Probar conexión

Envía un mensaje de prueba para verificar la configuración.

Modelos recomendados por caso de uso

Escritura y narración

ModeloTamañoRAM RequeridaCalidad
Llama 3.1 70B40GB64GB+Excelente
Qwen 2.5 32B20GB32GB+Muy buena
Llama 3.1 8B5GB16GB+Buena

Contenido en chino

ModeloTamañoRAM RequeridaCalidad
Qwen 2.5 72B42GB64GB+Excelente
GLM-4 9B6GB16GB+Muy buena
DeepSeek 67B38GB64GB+Excelente

Código y técnico

ModeloTamañoRAM RequeridaCalidad
DeepSeek Coder V216GB32GB+Excelente
CodeLlama 34B20GB32GB+Muy buena
Qwen 2.5 Coder 7B4GB8GB+Buena

Optimización de rendimiento

Las GPUs NVIDIA mejoran dramáticamente la velocidad de inferencia. Asegúrate de que CUDA esté correctamente instalado.
Modelos más grandes ≠ siempre mejores. Los modelos 7B-13B a menudo proporcionan el mejor equilibrio velocidad/calidad.
Usa modelos cuantizados Q4 o Q5 para reducir el uso de memoria con pérdida mínima de calidad.
Ventanas de contexto más cortas (4K-8K) se ejecutan más rápido que contexto largo (32K+).

Problemas comunes

  • Cambiar a modelo más pequeño (8B en lugar de 70B)
  • Usar versión cuantizada (Q4_K_M)
  • Habilitar aceleración GPU
  • Reducir tamaño de ventana de contexto
  • Elegir modelo más pequeño
  • Cerrar otras aplicaciones
  • Actualizar RAM
  • Usar cuantización más alta (Q3, Q4)
  • Verificar que el servidor local esté ejecutándose
  • Verificar URL base y número de puerto
  • Asegurarse de que no haya bloqueo del firewall
  • Probar http://127.0.0.1 en lugar de localhost
  • Probar diferente formato de prompt
  • Ajustar configuración de temperature/top_p
  • Cambiar a modelo más grande o diferente
  • Verificar si el modelo es apropiado para tu idioma

Próximos pasos