本地 LLM 服务

Doco Translate 支持使用本地 AI 模型在 Mac 上完全运行翻译。这保证了您的文档隐私——数据不会离开您的机器。

为什么使用本地模型?

  • 隐私 — 您的文档永远不会离开您的 Mac。没有任何文本发送到外部服务器。
  • 无 API 费用 — 无需支付按请求计费的翻译费用。
  • 离线能力 — 无需互联网连接即可翻译文档(下载模型后)。
  • 完全控制 — 精确选择使用哪个模型并配置其行为。

权衡: 本地模型通常比基于云的 AI 服务产生的翻译质量更低,翻译速度取决于您 Mac 的硬件(CPU、GPU 和内存)。

支持的本地服务

Ollama

Ollama 是一个流行的开源工具,用于在 macOS、Linux 和 Windows 上本地运行大语言模型。

  • 默认主机: http://localhost:11434
  • API 密钥: 不需要(除非您的 Ollama 实例启用了身份验证)
  • 网站: https://ollama.com

设置

  1. 安装 Ollama:
    • ollama.com 下载或通过 Homebrew 安装:
      brew install ollama
      
  2. 拉取模型: 打开终端并运行:
    ollama pull qwen3.6
    

    翻译常用模型:
    • qwen3.6 — 多语言支持强,特别是中文和亚洲语言
    • llama3.2 — 通用型,速度和质量平衡良好
    • gemma4 — Google 的开源模型,适合欧洲语言
  3. 启动 Ollama: Ollama 安装后自动运行。如果没有,请手动启动:
    ollama serve
    
  4. 在 Doco Translate 中配置:
    • 前往设置 → 服务 → Ollama
    • 默认主机(http://localhost:11434)应能开箱即用。
    • 使用获取模型列表自动检测您已拉取的模型。
    • 从下拉菜单中选择模型。
    • 点击验证服务测试连接。

Ollama 使用技巧

  • 模型大小很重要: 较大的模型(70B+)产生更好的翻译,但需要更多内存且运行更慢。从 7B–8B 模型开始以获得良好平衡。
  • GPU 加速: Ollama 在 M 系列 Mac 上自动使用 Apple Silicon GPU 加速。
  • 保持 Ollama 运行: 在 Doco Translate 中使用之前确保 Ollama 服务正在运行。

LM Studio

LM Studio 是一个桌面应用,用于通过图形界面发现、下载和运行本地 LLM。

设置

  1. 安装 LM Studio:
  2. 下载模型:
    • 打开 LM Studio。
    • 使用搜索栏查找模型(例如 qwen3.6gemma4)。
    • 在您首选的模型变体上点击下载
  3. 启动本地服务器:
    • 在 LM Studio 中,前往本地服务器选项卡(左侧边栏)。
    • 选择您下载的模型。
    • 点击启动服务器
  4. 在 Doco Translate 中配置:
    • 前往设置 → 服务 → LM Studio
    • 如果 LM Studio 的服务器正在运行,默认主机(http://localhost:1234)应能正常工作。
    • 使用获取模型列表检测已加载的模型,或手动输入模型名称。
    • 点击验证服务测试连接。

LM Studio 使用技巧

  • 一次只能加载一个模型: LM Studio 一次将一个模型加载到内存中。切换模型需要先卸载当前模型。
  • 量化: LM Studio 支持各种量化级别(Q4、Q5、Q8)。较低量化(Q4)使用更少内存但可能降低质量。
  • 服务器必须运行: LM Studio 本地服务器必须处于活动状态,Doco Translate 才能连接。

配置本地服务

Doco Translate 中的本地服务设置与云 AI 服务类似,但有一些区别:

  • 无需 API 密钥 — 本地服务默认不需要身份验证。如果您在本地服务上配置了身份验证,可以输入凭据。
  • 自定义主机 — 如果您的本地服务运行在不同的端口或机器上,可以更改主机。
  • 模型选择 — 使用获取模型列表自动检测可用模型,或手动添加模型。

自定义本地服务

如果您运行的是与 OpenAI API 格式兼容的其他本地 LLM 服务器:

  1. 前往设置 → 服务并点击自定义服务
  2. 为您的服务输入名称。
  3. 选择 OpenAI 协议。
  4. 输入本地服务器的主机地址。
  5. 根据需要配置模型名称和其他设置。

这适用于任何 OpenAI 兼容服务器,包括:

  • vLLM
  • text-generation-webui
  • LocalAI
  • llama.cpp server
  • 任何自定义 API 服务器

性能考量

使用本地模型的翻译速度取决于几个因素:

因素影响
模型大小较小的模型(7B)更快;较大的模型(70B+)更慢但更准确
量化较低量化 = 更快但不太准确
硬件Apple Silicon M 系列芯片提供最佳性能
内存较大的模型需要更多内存(8B ≈ 5GB,70B ≈ 40GB)
并发较低的并发设置(1–2)更适合本地模型以避免过载

建议: 从 7B–8B 模型开始,仅在质量不足时增加模型大小。将本地服务的最大并发页面数设置为 1 或 2,以避免 Mac 过载。


上一步: AI 服务 · 下一步: 自定义服务