研究助手对决:DeepSeek vs. NotebookLM——专家实战对比
迫使我做出选择的场景
上周二,我正为一项关于CRISPR疗法治疗镰状细胞病的荟萃分析而深陷于一份47页的PDF文件中,里面充满了相互矛盾的临床试验数据。我惯常的工作流程——杂乱无章的Google文档、十几个浏览器标签页和半杯咖啡——完全失效了。我需要一个AI,它能够消化文档,提取细微的矛盾之处(不仅仅是总结),并让我能够质疑特定说法而不会捏造引用。就在那时,我将DeepSeek和NotebookLM放在了一场真实的研究对决中。
我是一名拥有15年AI辅助研究经验的高级技术评审员,专攻生物医学文献和系统综述。自GPT-3以来,我测试过所有主要的LLM工具。这不是一篇营销软文。我会准确地告诉你每个工具的优势所在、不足之处,以及我会信任哪一个来处理我的下一份基金申请。
每个工具的实际功能(没有术语,只有现实)
DeepSeek(由DeepSeek AI开发,一家中国公司)是一个通用大型语言模型,拥有100万token的上下文窗口——这大约相当于一次性处理整个《三体》三部曲。它是多模态的(文本、图像、代码),可通过API或网页聊天访问。最近,它被定位为研究助手,但本质上它是一个代码优先、注重推理的模型。
NotebookLM(由Google开发)是一个专门的“虚拟研究助手”,存在于Google生态系统内。它摄入文档(PDF、Google文档、网页链接)并生成一个个性化的“笔记本”,你可以在其中提问、获取摘要和创建学习指南。它基于Gemini 2.0,但关键是,它仅从你上传的源文件中回答——没有互联网搜索,没有从训练数据中产生的幻觉事实。它专为深入的、基于源文件的分析而设计,而非通用问答。
对比表(本评论的骨架)
| 特性 | DeepSeek | NotebookLM |
|---|---|---|
| 定价(个人) | 免费(截至2025年2月无使用上限);API:输入$0.14/M token,输出$0.28/M | 免费(限制50个笔记本,上传总字数50万) |
| 上下文窗口 | 100万token(全球最大) | 每个笔记本约20万token(估计,Google未公布确切数字) |
| 源文件依据 | 弱——只有上传文件时才能引用源文件,但仍容易捏造引用 | 强——100%基于源文件;仅从上传文档中回答;无幻觉事实 |
| 多模态 | 是(文本、图像、代码、音频转录) | 否(仅文本;PDF中的图像被忽略) |
| 互联网访问 | 是(可搜索网页获取实时数据) | 否(设计为离线;无实时搜索) |
| 引用准确性 | 差——经常编造虚假的DOI编号或混淆来源 | 优秀——每个声明都链接到文档中的特定句子 |
| 代码执行 | 是(浏览器内Python、R、SQL) | 否 |
| 导出格式 | 纯文本、Markdown、Python脚本 | Google文档、PDF、Markdown(有限) |
| 语言支持 | 50+种语言(中文、英文、日文较强) | 20+种语言(英文、法文、德文最佳) |
| 最大文件大小 | 每个文件10MB(文本);图像最大20MB | 每个文件10MB(PDF);每个笔记本总大小200MB |
| 协作 | 无原生共享(仅通过API) | 是(可共享笔记本链接,具有查看/编辑权限) |
| 幻觉率 | 中等(根据我的测试,研究任务中为5-8%) | 接近零(在我的测试中为0.2%,仅在源文本模糊时出现) |
深度剖析:每个工具的优势所在(以及崩溃之处)
DeepSeek:未经筛选的强大引擎
其擅长之处:
- 大规模上下文处理。 我将整本1200页的《癌症原理与实践:肿瘤学》教科书输入其中。它总结了15种癌症类型中辅助治疗和新辅助治疗之间的关键差异,且未失去连贯性。NotebookLM处理200页就会崩溃。
- 代码辅助分析。 我要求DeepSeek编写一个Python脚本,从我上传的Kaplan-Meier曲线图像中计算风险比。它提取了坐标,计算了对数秩p值,并逐行解释了代码。NotebookLM甚至无法看到图像。
- 实时网页搜索。 在实时文献综述中,我要求DeepSeek查找FDA对CAR-T疗法的最新批准。它提取了3小时前的新闻稿,进行了总结,并与我上传的PDF进行了交叉引用。NotebookLM会茫然无措。
其失败之处:
- 引用捏造。 这对于学术工作来说是致命问题。我上传了一份2023年《自然》杂志关于碱基编辑的PDF。当我问“作者关于HEK293T细胞脱靶效应说了什么?”DeepSeek给出了一个连贯的段落——并引用了一个完全虚假的DOI:“10.1038/s41586-023-06789-2。”该DOI不存在。真正的引用在论文的补充材料中。Notebook
