本地大模型设置

本地大模型指南 100% 由 AI 创建。请根据你的实际使用和需求进行调整。

为什么使用本地模型？

隐私

你的数据永远不会离开你的电脑

无 API 费用

一次设置，无限使用

离线访问

无需网络连接即可工作

完全控制

自定义模型参数

系统要求

本地模型需要大量硬件资源。推荐最低配置：

内存：16GB（大型模型需要 32GB+）
存储：每个模型 10-50GB
GPU：可选但强烈推荐（NVIDIA 8GB+ 显存）

Ollama 设置指南

下载和安装说明

LM Studio

具有图形界面的桌面应用程序，用于运行本地模型。 优点：

友好的用户界面
模型发现和下载
跨平台（Mac、Windows、Linux）
内置对话界面

适合：

偏好 GUI 而非命令行的用户
轻松测试多个模型
快速模型比较

LM Studio

下载 LM Studio

vLLM（高级）

用于生产部署的高性能推理引擎。 优点：

最快的推理速度
GPU 优化
生产就绪
包含 API 服务器

适合：

技术用户
高吞吐量需求
自定义部署

连接到 SoloEnt

所有本地方案都暴露 OpenAI 兼容的 API：

启动本地服务器

启动你选择的方案（Ollama、LM Studio 等）

在 SoloEnt 中配置

使用 OpenAI 兼容配置：

Base URL: http://localhost:11434/v1  (Ollama 默认)
API Key: ollama  (或留空)
Model ID: llama3.1  (你的模型名称)

测试连接

发送测试消息验证设置。

按使用场景推荐模型

写作与叙事

模型	大小	所需内存	质量
Llama 3.1 70B	40GB	64GB+	优秀
Qwen 2.5 32B	20GB	32GB+	很好
Llama 3.1 8B	5GB	16GB+	良好

中文内容

模型	大小	所需内存	质量
Qwen 2.5 72B	42GB	64GB+	优秀
GLM-4 9B	6GB	16GB+	很好
DeepSeek 67B	38GB	64GB+	优秀

代码与技术

模型	大小	所需内存	质量
DeepSeek Coder V2	16GB	32GB+	优秀
CodeLlama 34B	20GB	32GB+	很好
Qwen 2.5 Coder 7B	4GB	8GB+	良好

性能优化

使用 GPU 加速

NVIDIA GPU 显著提高推理速度。确保正确安装 CUDA。

选择合适的模型大小

更大的模型 ≠ 总是更好。7B-13B 模型通常提供最佳的速度/质量平衡。

量化

使用 Q4 或 Q5 量化模型以减少内存使用，同时质量损失最小。

调整上下文长度

较短的上下文窗口（4K-8K）比长上下文（32K+）运行更快。

常见问题

模型运行太慢

切换到更小的模型（8B 而非 70B）
使用量化版本（Q4_K_M）
启用 GPU 加速
减少上下文窗口大小

内存不足

选择更小的模型
关闭其他应用程序
升级内存
使用更高度量化（Q3、Q4）

连接被拒绝

验证本地服务器正在运行
检查 Base URL 和端口号
确保没有防火墙阻止
尝试使用 http://127.0.0.1 而非 localhost

输出质量差

尝试不同的提示格式
调整 temperature/top_p 设置
切换到更大或不同的模型
检查模型是否适合你的语言

下一步

API 目录

浏览云端 API 供应商

免费 API Key

获取免费云端 API 访问

介绍

快速入门

灵活写作

高质量写作

免费资源

故障排除

为什么使用本地模型？

隐私

无 API 费用

离线访问

完全控制

系统要求

热门方案

Ollama（推荐新手使用）

Ollama 设置指南

LM Studio

LM Studio

vLLM（高级）

连接到 SoloEnt

按使用场景推荐模型

写作与叙事

中文内容

代码与技术

性能优化

常见问题

下一步

API 目录

免费 API Key

介绍

快速入门

灵活写作

高质量写作

免费资源

故障排除

​为什么使用本地模型？

隐私

无 API 费用

离线访问

完全控制

​系统要求

​热门方案

​Ollama（推荐新手使用）

Ollama 设置指南

​LM Studio

LM Studio

​vLLM（高级）

​连接到 SoloEnt

​按使用场景推荐模型

​写作与叙事

​中文内容

​代码与技术

​性能优化

​常见问题

​下一步

API 目录

免费 API Key

为什么使用本地模型？

系统要求

热门方案

Ollama（推荐新手使用）

LM Studio

vLLM（高级）

连接到 SoloEnt

按使用场景推荐模型

写作与叙事

中文内容

代码与技术

性能优化

常见问题

下一步