博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

  1. 文章
  2. Local Deep Research:本地运行的开源深度研究助手

Local Deep Research:本地运行的开源深度研究助手

2026年5月17日·约 13 分钟·3758 字·11 次阅读
AI 工具与产品
Local Deep Research:本地运行的开源深度研究助手

目录

  • 1. 什么是 Local Deep Research?
  • 2. 核心性能:本地硬件也能打
  • 3. 工作原理:多策略研究流水线
  • 3.1 研究流程总览
  • 3.2 LangGraph Agent 策略(旗舰)
  • 3.3 多引擎搜索覆盖
  • 4. 知识库:从研究工具到长期知识积累
  • 5. 安全性:你的数据只属于你
  • 5.1 零追踪政策
  • 5.2 SQLCipher 数据库级加密
  • 5.3 供应链安全
  • 6. 安装与快速上手
  • 方式一:Docker(推荐,最快)
  • 方式二:pip 安装(跨平台)
  • 7. Python API 使用
  • REST API
  • 8. MCP Server:让 Claude 也用上 LDR
  • Claude Desktop 配置
  • 可用 MCP 工具
  • 9. 期刊质量评估系统(Journal Quality System)
  • 10. 与同类方案对比
  • 11. 技术架构亮点
  • 12. 适用场景
  • 13. 总结

Local Deep Research:本地运行的开源深度研究助手

项目地址:https://github.com/LearningCircuit/local-deep-research
Stars:GitHub 社区持续增长中
许可证:MIT License
特色:首个在单张 RTX 3090(Qwen3.6-27B)上实现 ~95% SimpleQA 准确率的开源项目


1. 什么是 Local Deep Research?

Local Deep Research(以下简称 LDR)是一个本地运行的 AI 驱动深度研究助手,它能够自主完成复杂主题的信息检索、交叉验证和报告生成——完全不依赖任何外部云服务。

与 OpenAI Deep Research 等商业产品相比,LDR 的核心差异在于数据主权和成本控制:

维度OpenAI Deep ResearchLocal Deep Research
数据隐私查询发送到 OpenAI 服务器完全本地处理
LLM 选择仅限 OpenAI 模型Ollama / LM Studio / 任何 OpenAI 兼容端点
搜索隐私服务器端记录查询零追踪、零遥测
运行成本API 按次计费GPU 算力成本(一次性)
可定制性黑盒闭源全源码开源

2. 核心性能:本地硬件也能打

LDR 是首个在单卡消费级 GPU 上报告 ~95% SimpleQA 准确率(n=500)的开源研究助手项目。以下是社区基准测试的核心结果:

模型SimpleQAxbench-DeepSearch
Qwen3.6-27B95.7% (287/300)77.0% (77/100)
Qwen3.5-9B91.2% (182/200)59.0% (59/100)
gpt-oss-20B85.4% (295/346)–

💡 消费级 RTX 3090 即可运行 Qwen3.6-27B,获得与商业方案相当的准确率。

为什么关注 SimpleQA? SimpleQA 是由 OpenAI 提出的大模型事实性问答评估基准,涵盖范围广、无污染风险,是衡量研究助手真实能力的重要指标。LDR 在 langgraph-agent 策略下借助 Serper 搜索,在本地硬件上达到了与商业产品正面竞争的水平。


3. 工作原理:多策略研究流水线

LDR 支持20+ 种研究策略,覆盖从 30 秒快速摘要到 30 分钟专业报告的所有场景。

3.1 研究流程总览

用户提问
   ↓
选择研究策略(Quick Summary / Detailed / Report / LangGraph Agent)
   ↓
多引擎并行搜索(Web、学术数据库、本地文档)
   ↓
LLM 交叉验证与信息整合
   ↓
生成带引用的研究报告

3.2 LangGraph Agent 策略(旗舰)

langgraph-agent 是 LDR 的旗舰研究策略,其核心是一个自主决策的智能体:

  • 自主规划搜索路径:LLM 根据已发现的信息动态决定下一步搜索方向
  • 自适应切换搜索引擎:在 arXiv、PubMed、Semantic Scholar、Wikipedia 等专业引擎之间智能跳转
  • 收集显著更多的信息源:相比传统管道式策略,agent 策略能发现并引用 3-5 倍以上的相关来源

这正是 LDR 能在 SimpleQA 上达到 ~95% 准确率的技术基础。

3.3 多引擎搜索覆盖

免费引擎:

  • 学术:arXiv、PubMed、Semantic Scholar
  • 通用:Wikipedia、SearXNG
  • 技术:GitHub、Elasticsearch
  • 历史:Wayback Machine
  • 新闻:The Guardian、Wikinews

付费引擎:Tavily(AI 优化搜索)、Google(SerpAPI)、Brave Search

自定义源:

  • 本地文档(PDF/TXT/MD)+ AI 向量化语义搜索
  • LangChain Retriever 集成(FAISS、Chroma、Pinecone、Weaviate、Elasticsearch)

4. 知识库:从研究工具到长期知识积累

LDR 不仅仅是一个一次性研究工具,更是一个可积累的个人知识库:

研究会话 → 下载来源 → 本地加密图书馆
                            ↓
                       文本提取 + 向量化索引
                            ↓
              下次研究时同时检索"网络 + 本地文档"
                            ↓
                   知识随时间持续复利增长

每次研究都会收集大量有价值的学术文献和网页内容。LDR 支持一键将来源下载到本地加密图书馆(SQLCipher AES-256 加密),自动提取文本、建立向量索引,让你的知识库随时可被语义检索。

下次研究同一个领域时,你的本地文档会与实时网络结果一起被 LLM 联合参考,实现"站在自己肩膀上的研究"。


5. 安全性:你的数据只属于你

LDR 在安全设计上堪称教科书级别:

5.1 零追踪政策

  • ❌ 无遥测(telemetry)
  • ❌ 无分析 SDK
  • ❌ 无崩溃报告
  • ❌ 无外部 phone-home 调用
  • ❌ 唯一网络流量 = 你主动发起的搜索查询和 LLM API 调用

5.2 SQLCipher 数据库级加密

每个用户拥有独立的加密数据库(256-bit AES),由 Signal 协议同款加密算法保护。即使服务器管理员无法读取你的数据。无密码找回机制——这是真正的零知识架构。

5.3 供应链安全

  • Docker 镜像通过 Cosign 签名
  • SLSA provenance 证明
  • SBOM(软件物料清单)附件
  • 20+ 项自动化安全扫描(CodeQL、Semgrep、OpenSSF Scorecard、OWASP ZAP 等)

验证 Docker 镜像:

cosign verify localdeepresearch/local-deep-research:latest

6. 安装与快速上手

方式一:Docker(推荐,最快)

Linux + NVIDIA GPU:

# 拉取并启动 Ollama
docker run -d -p 11434:11434 --name ollama ollama/ollama
docker exec ollama ollama pull gpt-oss:20b

# 拉取并启动 SearXNG 搜索服务
docker run -d -p 8080:8080 --name searxng searxng/searxng

# 拉取并启动 Local Deep Research
docker run -d -p 5000:5000 --network host   --name local-deep-research   --volume "deep-research:/data"   -e LDR_DATA_DIR=/data   localdeepresearch/local-deep-research

Docker Compose(Mac/Windows/Linux 通用):

curl -O https://raw.githubusercontent.com/LearningCircuit/local-deep-research/main/docker-compose.yml
curl -O https://raw.githubusercontent.com/LearningCircuit/local-deep-research/main/docker-compose.gpu.override.yml
docker compose -f docker-compose.yml -f docker-compose.gpu.override.yml up -d

启动后访问 http://localhost:5000

方式二:pip 安装(跨平台)

pip install local-deep-research
python -m local_deep_research.web.app

需要自行安装 Ollama 和 SearXNG——详细步骤参考官方安装指南。


7. Python API 使用

LDR 提供简洁的 Python SDK:

from local_deep_research.api import LDRClient, quick_query

# 最简用法:一行研究
summary = quick_query("username", "password", "What is quantum computing?")
print(summary)

# 客户端用法:多次研究
client = LDRClient()
client.login("username", "password")
result = client.quick_research("What are the latest advances in quantum computing?")
print(result["summary"])

REST API

LDR 提供完整的 HTTP API,支持有状态会话和跨平台集成:

import requests
from bs4 import BeautifulSoup

session = requests.Session()
login_page = session.get("http://localhost:5000/auth/login")
soup = BeautifulSoup(login_page.text, "html.parser")
login_csrf = soup.find("input", {"name": "csrf_token"}).get("value")

# 登录
session.post("http://localhost:5000/auth/login",
            data={"username": "user", "password": "***", "csrf_token": login_csrf})
csrf = session.get("http://localhost:5000/auth/csrf-token").json()["csrf_token"]

# 发起研究
response = session.post("http://localhost:5000/api/start_research",
                        json={"query": "Your research question"},
                        headers={"X-CSRF-Token": csrf})

8. MCP Server:让 Claude 也用上 LDR

LDR 提供 MCP(Model Context Protocol)服务器,让 Claude Desktop 和 Claude Code 能直接调用 LDR 的研究能力:

pip install "local-deep-research[mcp]"

Claude Desktop 配置

{
  "mcpServers": {
    "local-deep-research": {
      "command": "ldr-mcp",
      "env": {
        "LDR_LLM_PROVIDER": "openai",
        "LDR_LLM_OPENAI_API_KEY": "sk-..."
      }
    }
  }
}

可用 MCP 工具

工具描述耗时LLM 成本
search指定引擎的原始搜索结果5-30s无
quick_research快速研究摘要1-5 min有
detailed_research综合分析报告5-15 min有
generate_report完整 Markdown 报告10-30 min有
analyze_documents搜索本地文档集合30s-2 min有

9. 期刊质量评估系统(Journal Quality System)

LDR v1.6.0 引入了专业的期刊质量评分系统,解决学术研究中的关键痛点:

  • 212,000+ 学术来源索引:基于 OpenAlex(CC0)、DOAJ(CC0)和 Stop Predatory Journals(MIT)
  • 掠夺性期刊自动检测:识别风险期刊并发出警告
  • 质量仪表板:直观查看研究来源的整体学术质量分布

10. 与同类方案对比

功能LDROther local research toolsChatGPT Deep Research
完全本地运行✅部分支持❌
多引擎并行搜索✅❌部分
LangGraph Agent 策略✅❌✅
知识库积累✅部分❌
SQLCipher 加密✅❌N/A
MCP Server✅❌❌
多搜索策略可选20+1-3固定
社区基准测试✅❌❌

11. 技术架构亮点

LDR 的架构设计有几个值得关注的工程亮点:

异步搜索聚合:多个搜索查询并行发出,结果统一由 LLM 做交叉验证和去重,避免单一引擎的偏差。

自适应速率限制:内置智能重试系统,学习各搜索 API 的最优等待时间,最大化吞吐量而不触发限流。

研究历史持久化:每次研究结果自动存档,支持按时间、关键词检索历史会话。

WebSocket 实时推送:研究进度通过 WebSocket 实时推送,前端可显示各阶段的详细进展。


12. 适用场景

  • 记者与调查人员:敏感话题研究,所有查询不离本地
  • 学术研究者:持续跟踪特定领域的最新进展,构建个人文献库
  • 企业情报团队:私有知识库 + 公开信息的联合研究
  • 隐私敏感用户:不愿让商业公司记录搜索历史的任何人
  • AI 开发者和研究者:benchmark 本地模型在研究任务上的真实能力

13. 总结

Local Deep Research 的核心价值在于将数据主权和研究能力一并交还给用户。它不只是一个研究工具,更是一种隐私优先的 AI 工作流理念的体现——你拥有你的数据,也拥有对工具的完全控制权。

在 benchmark 上,LDR 用单张 RTX 3090 证明了本地模型在深度研究任务上已经有能力与商业方案正面竞争。随着开源模型能力的持续提升(Qwen3 系列的进展尤为显著),本地深度研究的体验还会继续逼近甚至超越云端方案。

如果你关心数据隐私、偏好本地部署、或者希望在研究工作中积累属于自己的知识资产,Local Deep Research 是目前同类开源项目中完成度最高、功能最全面的选择。

项目链接:https://github.com/LearningCircuit/local-deep-research

社区资源:

  • Discord:https://discord.gg/ttcqQeFcJ3
  • Reddit:https://www.reddit.com/r/LocalDeepResearch/
  • HuggingFace 基准数据集:https://huggingface.co/datasets/local-deep-research/ldr-benchmarks

本文内容基于 Local Deep Research 项目公开资料编写,发布前已验证所有核心功能和性能数据的准确性。

相关文章

  • Claude for Financial Services:Anthropic 出品金融工作流 AI 智能体全家桶5月17日
  • ViMax:一个多智能体协同的 AI 视频生成框架5月17日
  • 【工具推荐】Understand-Anything:用知识图谱读懂任意代码库5月13日

评论

加载评论中…

发表评论

返回文章列表