Elicit vs Consensus：学者最佳AI研究工具对比

过去两周，我同时测试了Elicit和Consensus，翻阅了数百篇研究论文，进行了文献综述，并试图回答一些复杂的学术问题。如果你是一名研究生、博士后或教职人员，被PDF文件淹没，你可能已经听说过这两个名字。但哪一个能真正节省你的时间，又不会产生幻觉引用或遗漏关键研究？以下是我的真实分析。

快速对比表

Elicit和Consensus都是基于大型学术数据库（PubMed、Semantic Scholar、Crossref等）构建的AI驱动研究工具。两者都不能替代Google Scholar或PubMed——它们是助手，帮助你更快地查找、总结和提取见解。

Elicit最初是为系统性综述类工作设计的工具。你提出一个研究问题，它会找到相关论文，然后让你将特定数据列（例如样本量、干预措施、结果）提取到表格中。它专为综合而建。

Consensus更像是一个科学问答引擎。你输入一个问题，比如“间歇性禁食能否改善老年人的认知功能？”，它会返回一个带有引用论文的摘要答案，以及一份支持和矛盾的文献列表。它专为快速回答而建。

两者底层都使用大型语言模型，但应用方式不同。Elicit更像是一个带有总结功能的数据提取工具。Consensus是一个带有数据提取作为辅助功能的总结工具。

Elicit的搜索即使在模糊查询下也能出奇地找到相关论文。我测试了“蓝光对睡眠的影响”，得到了30篇按相关性排序的论文，每篇旁边都有简短摘要。然后你可以按研究类型（随机对照试验、荟萃分析等）、出版年份以及论文是否有全文进行筛选。

Consensus也使用语义搜索，但针对直接问题进行了优化。当我问“睡前蓝光会减少褪黑素分泌吗？”时，它返回了一个共识声明：“是的，蓝光会抑制人类褪黑素分泌”，并附有12项支持研究和2项矛盾研究。答案包括一个基于研究数量和质量的置信度评分（高、中、低）。

胜者：Elicit适合广泛发现，Consensus适合具体问题。

这是Elicit的亮点。你可以创建一个自定义表格，列如“人群”、“干预措施”、“结果”、“样本量”、“效应量”和“P值”。Elicit会自动从你选择的论文中提取这些信息。我在10篇关于生酮饮食与癫痫的论文上测试了这一点。它正确提取了9/10的样本量和7/10的效应量。错误主要是由于p值格式问题。