模型配置
模型配置
概述
模型配置页面用于管理 LLM 供应商和模型参数。APP 端支持多供应商同时配置,系统根据所选模型自动切换 API 格式和能力检测。

供应商支持
| 供应商 | API 格式 | 说明 |
|---|---|---|
| Anthropic | anthropic | Claude 系列模型 |
| OpenAI | openai | GPT / o 系列模型 |
| DeepSeek | openai | DeepSeek-chat / reasoner |
| Qwen(通义千问) | openai | Qwen-plus / Qwen-max |
| Gemini | openai | Google Gemini 系列 |
| 自定义 | openai / anthropic | 兼容 OpenAI 或 Anthropic 格式的第三方服务 |
配置项
| 参数 | 说明 |
|---|---|
| 供应商选择 | 从下拉列表选择 LLM 供应商 |
| API Key | 供应商 API 密钥(加密存储) |
| Base URL | API 端点地址(自定义供应商必填) |
| apiFormat | API 协议格式:anthropic 或 openai |
| 模型选择 | 从供应商可用模型列表中选择 |
| tokensRespLimit | 每轮最大输出 token 数 |
模型能力标记
系统通过 resolveCapabilities 自动检测模型能力,影响多模态输入处理:
| 能力 | 说明 | 影响 |
|---|---|---|
| vision | 图片理解 | 是否接受图片输入 |
| document | 文档理解 | 是否接受 PDF 等文档输入 |
| audio | 音频理解 | 是否接受音频输入 |
| tool_use | 工具调用 | 是否支持 function calling |
上下文窗口
各模型的默认上下文窗口大小:
| 模型 | 上下文窗口 |
|---|---|
| Claude Sonnet 4 / Opus 4 / Claude 4 | 200,000 tokens |
| GPT-4o / GPT-4o-mini / GPT-4-turbo | 128,000 tokens |
| GPT-4.1 | 1,000,000 tokens |
| o3 / o4-mini | 200,000 tokens |
| DeepSeek-chat / DeepSeek-reasoner | 64,000 tokens |
| Qwen-plus / Qwen-max | 128,000 tokens |
完整模型列表请参考 支持的模型列表。
操作指南
如何配置模型
- 打开 APP → 左侧设置菜单 → 模型
- 在供应商列表中选择你要使用的 LLM 供应商(如 Anthropic)
- 填入该供应商提供的 API Key
- (可选)如果使用第三方兼容服务,修改 Base URL 为服务商提供的端点地址
- 在模型下拉列表中选择具体模型(如 Claude Sonnet 4)
- 点击保存
注意:API Key 以加密形式存储在本地,不会上传到云端。切勿将 API Key 分享给他人或提交到代码仓库。
如何切换模型
配置多个供应商后,随时可以切换当前使用的模型。切换后,下一次对话将使用新模型。已有对话的历史记录不受影响。
模型选型建议
不同场景适合不同的模型,以下是推荐组合:
| 使用场景 | 推荐模型 | 原因 |
|---|---|---|
| 日常对话与轻量任务 | GPT-4o-mini / Qwen-plus | 响应快速、成本低 |
| 复杂推理与长文档分析 | Claude Opus 4 / Claude Sonnet 4 | 推理能力强、200K 长上下文、支持 document 输入 |
| 代码开发与调试 | DeepSeek-chat / Claude Sonnet 4 | 代码理解能力突出 |
| 超长上下文(整个代码库) | GPT-4.1 | 1M token 上下文窗口 |
| 需要图片理解 | Claude Sonnet 4 / GPT-4o | 支持 vision 能力 |
| 成本敏感 | Qwen-plus / DeepSeek-chat | 价格最低 |
| 需要深度推理(数学/逻辑) | o3 / DeepSeek-reasoner | 推理链模型,但 DeepSeek-reasoner 不支持工具调用 |
提示:如果不确定选哪个,建议从 Claude Sonnet 4 开始 —— 它在推理、代码、工具调用和多模态方面表现均衡。
上下文窗口对用户的实际影响
上下文窗口决定了 Agent 单次对话中能"记住"多少内容:
| 窗口大小 | 大约等于 | 适用场景 |
|---|---|---|
| 64K tokens | ~100 页纯文本 或 ~5 个中型代码文件 | 简短对话、单文件操作 |
| 128K tokens | ~200 页纯文本 或 ~10 个代码文件 | 中等复杂度项目、多文件操作 |
| 200K tokens | ~300 页纯文本 或 ~15 个代码文件 | 复杂项目、长对话、PDF 文档分析 |
| 1M tokens | ~1500 页纯文本 或 ~70 个代码文件 | 超大代码库分析、全书级文档 |
当对话内容接近窗口上限时,系统会自动触发上下文压缩,智能保留最重要的信息。
tokensRespLimit 的影响
tokensRespLimit 控制 Agent 每轮回复的最大 token 数:
| 设置值 | 影响 |
|---|---|
| 太小(如 500) | Agent 的回复可能被截断,复杂分析或长代码生成会不完整 |
| 适中(如 4096,推荐默认) | 平衡回复完整性和响应速度 |
| 太大(如 32000) | Agent 可以给出很长的回复,但会增加等待时间和费用 |
建议:保持默认值即可。如果频繁遇到回复被截断的情况,可以适当增大。
常见问题
API Key 无效
- 确认 Key 是否正确复制(注意前后空格)
- 确认 Key 对应的供应商是否选择正确
- 确认 Key 是否已过期或被吊销
请求超时
- 检查网络连接
- 如果使用自定义 Base URL,确认地址可达
- 部分模型在高负载时可能响应较慢,可稍后重试
模型回复质量不佳
- 尝试切换到更强的模型(如从 GPT-4o-mini 切换到 Claude Sonnet 4)
- 检查 tokensRespLimit 是否设置过小
- 优化你的提示词,提供更明确的指令
