本地 LLM 服务
Doco Translate 支持使用本地 AI 模型在 Mac 上完全运行翻译。这保证了您的文档隐私——数据不会离开您的机器。
为什么使用本地模型?
- 隐私 — 您的文档永远不会离开您的 Mac。没有任何文本发送到外部服务器。
- 无 API 费用 — 无需支付按请求计费的翻译费用。
- 离线能力 — 无需互联网连接即可翻译文档(下载模型后)。
- 完全控制 — 精确选择使用哪个模型并配置其行为。
权衡: 本地模型通常比基于云的 AI 服务产生的翻译质量更低,翻译速度取决于您 Mac 的硬件(CPU、GPU 和内存)。
支持的本地服务
Ollama
Ollama 是一个流行的开源工具,用于在 macOS、Linux 和 Windows 上本地运行大语言模型。
- 默认主机:
http://localhost:11434 - API 密钥: 不需要(除非您的 Ollama 实例启用了身份验证)
- 网站: https://ollama.com
设置
- 安装 Ollama:
- 从 ollama.com 下载或通过 Homebrew 安装:
brew install ollama
- 从 ollama.com 下载或通过 Homebrew 安装:
- 拉取模型:
打开终端并运行:
ollama pull qwen3.6
翻译常用模型:qwen3.6— 多语言支持强,特别是中文和亚洲语言llama3.2— 通用型,速度和质量平衡良好gemma4— Google 的开源模型,适合欧洲语言
- 启动 Ollama:
Ollama 安装后自动运行。如果没有,请手动启动:
ollama serve - 在 Doco Translate 中配置:
- 前往设置 → 服务 → Ollama。
- 默认主机(
http://localhost:11434)应能开箱即用。 - 使用获取模型列表自动检测您已拉取的模型。
- 从下拉菜单中选择模型。
- 点击验证服务测试连接。
Ollama 使用技巧
- 模型大小很重要: 较大的模型(70B+)产生更好的翻译,但需要更多内存且运行更慢。从 7B–8B 模型开始以获得良好平衡。
- GPU 加速: Ollama 在 M 系列 Mac 上自动使用 Apple Silicon GPU 加速。
- 保持 Ollama 运行: 在 Doco Translate 中使用之前确保 Ollama 服务正在运行。
LM Studio
LM Studio 是一个桌面应用,用于通过图形界面发现、下载和运行本地 LLM。
- 默认主机:
http://localhost:1234 - API 密钥: 不需要
- 网站: https://lmstudio.ai
设置
- 安装 LM Studio:
- 从 lmstudio.ai 下载。
- 下载模型:
- 打开 LM Studio。
- 使用搜索栏查找模型(例如
qwen3.6、gemma4)。 - 在您首选的模型变体上点击下载。
- 启动本地服务器:
- 在 LM Studio 中,前往本地服务器选项卡(左侧边栏)。
- 选择您下载的模型。
- 点击启动服务器。
- 在 Doco Translate 中配置:
- 前往设置 → 服务 → LM Studio。
- 如果 LM Studio 的服务器正在运行,默认主机(
http://localhost:1234)应能正常工作。 - 使用获取模型列表检测已加载的模型,或手动输入模型名称。
- 点击验证服务测试连接。
LM Studio 使用技巧
- 一次只能加载一个模型: LM Studio 一次将一个模型加载到内存中。切换模型需要先卸载当前模型。
- 量化: LM Studio 支持各种量化级别(Q4、Q5、Q8)。较低量化(Q4)使用更少内存但可能降低质量。
- 服务器必须运行: LM Studio 本地服务器必须处于活动状态,Doco Translate 才能连接。
配置本地服务
Doco Translate 中的本地服务设置与云 AI 服务类似,但有一些区别:
- 无需 API 密钥 — 本地服务默认不需要身份验证。如果您在本地服务上配置了身份验证,可以输入凭据。
- 自定义主机 — 如果您的本地服务运行在不同的端口或机器上,可以更改主机。
- 模型选择 — 使用获取模型列表自动检测可用模型,或手动添加模型。
自定义本地服务
如果您运行的是与 OpenAI API 格式兼容的其他本地 LLM 服务器:
- 前往设置 → 服务并点击自定义服务。
- 为您的服务输入名称。
- 选择 OpenAI 协议。
- 输入本地服务器的主机地址。
- 根据需要配置模型名称和其他设置。
这适用于任何 OpenAI 兼容服务器,包括:
- vLLM
- text-generation-webui
- LocalAI
- llama.cpp server
- 任何自定义 API 服务器
性能考量
使用本地模型的翻译速度取决于几个因素:
| 因素 | 影响 |
|---|---|
| 模型大小 | 较小的模型(7B)更快;较大的模型(70B+)更慢但更准确 |
| 量化 | 较低量化 = 更快但不太准确 |
| 硬件 | Apple Silicon M 系列芯片提供最佳性能 |
| 内存 | 较大的模型需要更多内存(8B ≈ 5GB,70B ≈ 40GB) |
| 并发 | 较低的并发设置(1–2)更适合本地模型以避免过载 |
建议: 从 7B–8B 模型开始,仅在质量不足时增加模型大小。将本地服务的最大并发页面数设置为 1 或 2,以避免 Mac 过载。
