本地大模型指南 100% 由 AI 创建。请根据你的实际使用和需求进行调整。
为什么使用本地模型?
隐私
你的数据永远不会离开你的电脑
无 API 费用
一次设置,无限使用
离线访问
无需网络连接即可工作
完全控制
自定义模型参数
系统要求
热门方案
Ollama(推荐新手使用)
易于使用的本地模型运行器,具有简单的命令行界面。 优点:- 安装简单
- 自动模型管理
- 活跃的社区
- 针对 Apple Silicon 优化
- Llama 3.1(8B、70B)
- Qwen 2.5
- DeepSeek Coder
Ollama 设置指南
下载和安装说明
LM Studio
具有图形界面的桌面应用程序,用于运行本地模型。 优点:- 友好的用户界面
- 模型发现和下载
- 跨平台(Mac、Windows、Linux)
- 内置对话界面
- 偏好 GUI 而非命令行的用户
- 轻松测试多个模型
- 快速模型比较
LM Studio
下载 LM Studio
vLLM(高级)
用于生产部署的高性能推理引擎。 优点:- 最快的推理速度
- GPU 优化
- 生产就绪
- 包含 API 服务器
- 技术用户
- 高吞吐量需求
- 自定义部署
连接到 SoloEnt
所有本地方案都暴露 OpenAI 兼容的 API:按使用场景推荐模型
写作与叙事
| 模型 | 大小 | 所需内存 | 质量 |
|---|---|---|---|
| Llama 3.1 70B | 40GB | 64GB+ | 优秀 |
| Qwen 2.5 32B | 20GB | 32GB+ | 很好 |
| Llama 3.1 8B | 5GB | 16GB+ | 良好 |
中文内容
| 模型 | 大小 | 所需内存 | 质量 |
|---|---|---|---|
| Qwen 2.5 72B | 42GB | 64GB+ | 优秀 |
| GLM-4 9B | 6GB | 16GB+ | 很好 |
| DeepSeek 67B | 38GB | 64GB+ | 优秀 |
代码与技术
| 模型 | 大小 | 所需内存 | 质量 |
|---|---|---|---|
| DeepSeek Coder V2 | 16GB | 32GB+ | 优秀 |
| CodeLlama 34B | 20GB | 32GB+ | 很好 |
| Qwen 2.5 Coder 7B | 4GB | 8GB+ | 良好 |
性能优化
使用 GPU 加速
使用 GPU 加速
NVIDIA GPU 显著提高推理速度。确保正确安装 CUDA。
选择合适的模型大小
选择合适的模型大小
更大的模型 ≠ 总是更好。7B-13B 模型通常提供最佳的速度/质量平衡。
量化
量化
使用 Q4 或 Q5 量化模型以减少内存使用,同时质量损失最小。
调整上下文长度
调整上下文长度
较短的上下文窗口(4K-8K)比长上下文(32K+)运行更快。
常见问题
模型运行太慢
模型运行太慢
- 切换到更小的模型(8B 而非 70B)
- 使用量化版本(Q4_K_M)
- 启用 GPU 加速
- 减少上下文窗口大小
内存不足
内存不足
- 选择更小的模型
- 关闭其他应用程序
- 升级内存
- 使用更高度量化(Q3、Q4)
连接被拒绝
连接被拒绝
- 验证本地服务器正在运行
- 检查 Base URL 和端口号
- 确保没有防火墙阻止
- 尝试使用 http://127.0.0.1 而非 localhost
输出质量差
输出质量差
- 尝试不同的提示格式
- 调整 temperature/top_p 设置
- 切换到更大或不同的模型
- 检查模型是否适合你的语言