跳转到主要内容
本地大模型指南 100% 由 AI 创建。请根据你的实际使用和需求进行调整。

为什么使用本地模型?

隐私

你的数据永远不会离开你的电脑

无 API 费用

一次设置,无限使用

离线访问

无需网络连接即可工作

完全控制

自定义模型参数

系统要求

本地模型需要大量硬件资源。推荐最低配置:
  • 内存:16GB(大型模型需要 32GB+)
  • 存储:每个模型 10-50GB
  • GPU:可选但强烈推荐(NVIDIA 8GB+ 显存)

热门方案

Ollama(推荐新手使用)

易于使用的本地模型运行器,具有简单的命令行界面。 优点:
  • 安装简单
  • 自动模型管理
  • 活跃的社区
  • 针对 Apple Silicon 优化
最佳模型:
  • Llama 3.1(8B、70B)
  • Qwen 2.5
  • DeepSeek Coder

Ollama 设置指南

下载和安装说明

LM Studio

具有图形界面的桌面应用程序,用于运行本地模型。 优点:
  • 友好的用户界面
  • 模型发现和下载
  • 跨平台(Mac、Windows、Linux)
  • 内置对话界面
适合:
  • 偏好 GUI 而非命令行的用户
  • 轻松测试多个模型
  • 快速模型比较

LM Studio

下载 LM Studio

vLLM(高级)

用于生产部署的高性能推理引擎。 优点:
  • 最快的推理速度
  • GPU 优化
  • 生产就绪
  • 包含 API 服务器
适合:
  • 技术用户
  • 高吞吐量需求
  • 自定义部署

连接到 SoloEnt

所有本地方案都暴露 OpenAI 兼容的 API:
1

启动本地服务器

启动你选择的方案(Ollama、LM Studio 等)
2

在 SoloEnt 中配置

使用 OpenAI 兼容配置:
Base URL: http://localhost:11434/v1  (Ollama 默认)
API Key: ollama  (或留空)
Model ID: llama3.1  (你的模型名称)
3

测试连接

发送测试消息验证设置。

按使用场景推荐模型

写作与叙事

模型大小所需内存质量
Llama 3.1 70B40GB64GB+优秀
Qwen 2.5 32B20GB32GB+很好
Llama 3.1 8B5GB16GB+良好

中文内容

模型大小所需内存质量
Qwen 2.5 72B42GB64GB+优秀
GLM-4 9B6GB16GB+很好
DeepSeek 67B38GB64GB+优秀

代码与技术

模型大小所需内存质量
DeepSeek Coder V216GB32GB+优秀
CodeLlama 34B20GB32GB+很好
Qwen 2.5 Coder 7B4GB8GB+良好

性能优化

NVIDIA GPU 显著提高推理速度。确保正确安装 CUDA。
更大的模型 ≠ 总是更好。7B-13B 模型通常提供最佳的速度/质量平衡。
使用 Q4 或 Q5 量化模型以减少内存使用,同时质量损失最小。
较短的上下文窗口(4K-8K)比长上下文(32K+)运行更快。

常见问题

  • 切换到更小的模型(8B 而非 70B)
  • 使用量化版本(Q4_K_M)
  • 启用 GPU 加速
  • 减少上下文窗口大小
  • 选择更小的模型
  • 关闭其他应用程序
  • 升级内存
  • 使用更高度量化(Q3、Q4)
  • 验证本地服务器正在运行
  • 检查 Base URL 和端口号
  • 确保没有防火墙阻止
  • 尝试使用 http://127.0.0.1 而非 localhost
  • 尝试不同的提示格式
  • 调整 temperature/top_p 设置
  • 切换到更大或不同的模型
  • 检查模型是否适合你的语言

下一步