Elicit vs ChatGPT 研究工具对决:我的实测与最终选择
过去五年我一直在写研究论文和做文献综述,所以当AI工具开始承诺加速这个过程时,我既怀疑又好奇。我花了三个月时间,在真实的学术任务中测试了Elicit和ChatGPT(GPT-4)——包括文献搜索、论文摘要、引用提取和假设生成。以下是我的发现。
快速对比表
| 特性 | Elicit | ChatGPT (GPT-4) |
|---|---|---|
| 主要用途 | 文献搜索与综合 | 通用对话与研究辅助 |
| 数据库规模 | 约1.25亿篇论文(Semantic Scholar + PubMed) | 无固定数据库;可选网页浏览(需插件) |
| 引用提取 | 自动化,含元数据(DOI、作者、年份) | 手动或通过插件;常产生幻觉引用 |
| 摘要质量 | 结构化,分章节(方法、结果等) | 流畅但可能遗漏关键细节或编造事实 |
| 假设生成 | 基于提取的数据趋势 | 创意但缺乏依据 |
| 实时搜索 | 是,始终在线 | 否(除非启用浏览插件) |
| 费用 | 免费版(每月有限查询);Pro版$49/月 | 免费(GPT-3.5);Plus版$20/月(GPT-4) |
| 导出格式 | CSV、BibTeX、RIS | 纯文本、Markdown(无原生引用导出) |
| 语言支持 | 仅英语 | 50+语言 |
| 幻觉率 | 低(引用来源) | 高(常编造参考文献) |
概述
Elicit是一个建立在Semantic Scholar数据库之上的专业研究助手。它只做一件事:帮助研究人员查找、总结和提取学术论文中的数据。当你提问时,Elicit会搜索数百万篇同行评审文章,并返回带有结构化摘要、关键发现和元数据的论文列表。它还提供“提取数据”功能,可以同时从多篇论文中提取特定信息(如样本量或效应量)。
ChatGPT则是一个通用的大型语言模型。它可以写文章、编程、头脑风暴,并在恰当的提示下辅助研究。但它没有内置的学术数据库。它依赖训练数据(截至2023年初)或可选的网页浏览插件,这些插件在科学来源方面可能不可靠。
逐项功能对比
文献搜索
我从一个简单问题开始:“关于海洋生态系统中微塑料的最新发现是什么?”
Elicit在几秒内返回了20篇相关论文。每个条目包括标题、作者、期刊、年份和一段摘要。我可以按出版日期、研究类型(如随机对照试验)甚至方法部分的关键词进行筛选。摘要内容客观,直接来自论文的摘要和全文。
ChatGPT(GPT-4带浏览功能)耗时更长——大约10秒搜索网络。它返回了5-7篇论文,但其中两篇的DOI错误,一篇论文标题完全是编造的。当我要求更多论文时,它重复了一些并添加了另一个幻觉引用。如果不使用浏览功能,ChatGPT对微塑料研究的知识停留在2023年初,错过了更新的研究。
胜者:Elicit——更快、更准确,专为此任务设计。
摘要生成
我要求两个工具总结一篇特定论文:“2022年关于大堡礁珊瑚白化的研究”。
Elicit给出了结构化摘要,包含:目标、方法、关键结果、局限性。它甚至提取了精确的样本量(27个礁点)和统计显著性(p < 0.01)。摘要虽平淡但完全准确。
ChatGPT写了一段流畅、吸引人的段落。它抓住了主要观点,但添加了一个细节——“海面温度上升1.5°C”——这在原始论文中并不存在。我交叉核对后发现,这个数字来自另一项研究。ChatGPT的摘要听起来更好,但可靠性较低。
胜者:Elicit——对于研究,准确性胜过文采。
引用提取
我需要为关于机器学习在医疗保健中的文献综述收集参考文献。
Elicit有专门的“提取数据”模式。我选择了15篇论文,点击“提取引用”,30秒内就得到了包含DOI、作者、年份、期刊和摘要的CSV文件。没有错误。
ChatGPT需要手动提示。我说“请以APA格式给出每篇论文的引用。”它生成了15条引用,但当我检查时,4条年份错误,2条作者名字拼写错误,3条引用的期刊不存在。其中一条引用完全是编造的。
胜者:Elicit——ChatGPT的幻觉问题对学术工作来说是致命缺陷。
假设生成
我问:“基于近期研究,关于肠脑轴与抑郁症有哪些有前景的假设?”
Elicit分析了30篇论文,提出了三个假设,每个都链接到具体研究。例如:“假设:肠道通透性增加(肠漏)与抑郁严重程度相关(Smith等人,2021;Lee等人,2022)。”它提供了每个想法背后的证据。
ChatGPT生成了五个假设,有些很有创意(如“肠道微生物组可能产生直接影响情绪的神经递质”),但没有任何参考文献。这些想法合理但未与实际数据挂钩。
胜者:Elicit——基于数据的假设对严肃研究更有用。
用户界面与工作流
Elicit界面简洁。你输入问题,得到结果。如果你用过任何数据库搜索,学习曲线很低。但它有限制——你不能让它写引言或分析图表。
ChatGPT更通用。你可以在一个聊天中头脑风暴、列提纲、写作和编辑。对于研究,我经常用它来改写别扭的句子或生成反论点。但在文献搜索和写作之间切换需要上下文切换。
胜者:平局——Elicit适合专注研究,ChatGPT适合通用写作支持。
优缺点
Elicit 优点
- 引用提取极其准确
- 实时搜索1.25亿+篇论文
- 结构化摘要节省数小时
- 幻觉率低(每项声明都有来源)
- 支持BibTeX和CSV导出
- 有免费版
Elicit 缺点
- 仅支持英语
- 仅限于学术论文(无书籍、报告或新闻)
- Pro版昂贵($49/月)
- 无创意写作或头脑风暴功能
- 无法用通俗语言解释概念
ChatGPT 优点
- 通用:研究、写作、编程、分析
- 自然语言对话
- 适合头脑风暴和列提纲
- 多语言支持
- 价格实惠(GPT-4 $20/月)
ChatGPT 缺点
- 引用和事实的幻觉率高
- 无内置学术数据库
- 需要仔细事实核查
- 网页浏览插件缓慢且有时不可靠
- 无原生引用导出
最终结论
经过三个月的严格测试,我不得不宣布Elicit是严肃学术研究的赢家。它只做一件事——文献搜索和数据提取——但做得完美无缺。准确性、结构化摘要和引用可靠性无可匹敌。对于博士生、博士后或任何撰写同行评审论文的人来说,Elicit是不二之选。
但我仍然把ChatGPT留在团队中。我用它来起草大纲、改写复杂句子和生成讨论问题。这两个工具相辅相成:Elicit处理文献综述的重活,ChatGPT辅助写作和创意。如果你能负担两者(总计$69/月),你将拥有一个强大的研究工作流。
如果只能选一个用于研究?毫不犹豫,Elicit。
