Kimi、密塔、Gemini“深度研究”能力横评

本文最后更新于 1 个月前,文中所描述的信息可能已发生改变。

到目前为止,我个人的 AI 使用习惯基本已经定型:轻量级交给 Kimi,搜索和信息整理类交给密塔,中度任务、强调数理逻辑的任务用 DeepSeek,最困难的则交给 Gemini 的 2.5 pro,只要不拿来重度编程,这套方案有上限,保下限,并且几乎零成本。

基础能力方面,各家几乎都没什么需要额外操心的,但最近我需要研究一些更系统的问题,开始关注 Deep Research 功能,在搜集资料时,我偶然发现 AI 领域的头部自媒体“数字生命卡兹克”,在几个月前给出过这样一张图:

配图
各家 Research 能力象限图

当然,这张图并非严格意义的 Deep Research 水平对比,图中某些模型根本没有 Deep Research 模式,充其量只能算 Research 能力的对比。并且,AI 领域瞬息万变,几个月之后,图上的很多内容已经过时了。

比如,图中拿密塔当时的“研究模式”来对比其他家的 Deep Research,但实际上,密塔自己只将其戏称为“浅度研究”,真正的 Deep Research 模式在几个月后才正式推出。

前些天,Kimi 的“深度研究”也已经进入内测,我提交的申请也通过了:

配图
深度研究体验资格

既然除去 DeepSeek,我常用的模型平台都有了 Deep Research 能力,那么,何不拉出来一较高下?

任务:信息验证

我们先从简单的开始。

前些天,我从 某篇公众号文章 了解到著名浏览器插件“沉浸式翻译”被曝光出一些问题,针对文中提到的几点 (假开源、强制收集用户数据、封禁所谓“未经认证的 API、泄露用户隐私) ,我希望能通过深度研究功能求证相关指控是否属实,最好能有来自权威信源的“实锤”证据。

这个任务主要考验以下能力:

  • URL 内容抓取(从微信公众号链接拉取正文)
  • 互联网搜索(尤其是针对中文互联网)
  • 信息的比对、整理与综合判断(可视为模型思考能力的体现)

本来以为这个任务对现阶段的各家平台应该不算很难,结果,第一步发送指令就让我吓了一跳:

除了 kimi,其他几家竟然直接抓不到通过 URL 提供的文本!

信息

Google 甚至在自家的 Google AI Studio 中还有个明晃晃的“URL context”开关,结果到 Gemini 页面里就拉了胯,不知道该说什么好。

配图

想来也许是腾讯有针对 AI 的反爬机制,恰好对这些国外 AI 比较管用吧 🤣

总而言之,为了统一变量,我不得不全员手动发一遍文章内容,最后得到的报告结果放在这里:

平台文档交互式报告
KimiPDF 文件在线链接
密塔PDF 文件
在线链接
在线链接
GeminiPDF 文件
在线链接
在线链接

结果

先说结论:

对几项指控的核查完成度:密塔 > Gemini >> Kimi

泄露用户隐私假开源封禁 API收集隐私数据
Kimi✔️
Gemini✔️✔️
密塔✔️✔️✔️找到侧面证据

信息收集阶段,搜索起家的 Google Gemini 没能打过密塔,让人颇感意外,这么多年过去了,只能说 Google 还是在中文互联网检索方面有短板。

至于 Kimi,研究阶段有一些亮点(后面再提),但最后呈现的结果还是有点惨不忍睹。整篇报告只提到一个方面,其他相关信息找不到,于是直接把自己找到的信息标榜为“核心问题”(虽然从严重性、影响和证据链完整度上来说确实如此,但还是让人比较难绷)。

当然,人家的功能还在“内测”,还是有很大进步空间的。

报告整体的专业性、完整性:Gemini > 密塔 >> Kimi

三份内容,真正让我感觉结构完整、像是正经报告的,只有 Gemini。

从引言、背景、调查目标到文章层级结构、总结,乃至于遣词造句,Gemini 的风格非常“学术”,很完整,而密塔写得相对精炼,更多是对信息的呈现、梳理、总结,缺少一点“思考”和“提炼”。就我的感觉而言,前者像是写给决策层,后者更像是写给技术人员的东西。

具体到内容层面,三家的报告里都有相关事件的时间线、信源交叉对比、影响和结论等板块,乍看似乎都挑不出大毛病,然而,翻看原文,我们会注意到,文中还提到了“沉浸式翻译”的替代插件,而对这些插件进行了比对分析,在报告里提供了选择建议的,只有 Gemini 一家。

即:在没有对研究思路进行大调的情况下,只有 Gemini 遵循了原始输入的信息脉络。

至于 Kimi,内容专业度是有的,但完整性实在扣分太多,只能坐小孩那桌。

交互式报告/网页的设计水平:Gemini > Kimi > 密塔

质量如何是一方面,展示效果如何又是另一个方面。三家既然都提供了将报告制作为交互式网页的选项,最终的设计水平当然也应该作为考量的标准之一。网页链接已经在上面提供,直接上图:

配图
Gemini 生成
配图
Kimi 生成
配图
密塔生成-左侧目录处 css 有明显间距问题

国内两家的展示风格差不多,干净清爽的双栏布局,要是做好了其实也能算合格,只是 Kimi 的 banner 头图不知为何出现了布局偏移,一直乱动,让人相当难绷,密塔的目录则明显出现了样式间距问题。

而 Gemini 的网页相比之下不仅没有肉眼可见的硬伤,还有雷达图、半透明导航栏等加分的小巧思,最下面还有一个可点击互动的“平替选择”栏目,无论完成度和美观度都远超前两者,狠狠扳回一城。

因此,这一次的 Deep Research 综合排名是:Gemini > 密塔 > Kimi

亮点

当然,不论几家最终的结果如何,过程中都各自有一些让我眼前一亮的点。比如,Kimi 在提交深度研究之后,会像 chatGPT 的深度研究一样,再主动追问用户一轮,确定细节:

配图
Kimi 的追问

而密塔则会在研究过程中生成一张“思维路线图”,向用户展示模型多线迭代,直到形成闭环的思维过程,可以直观看到模型的思考方向,对可能的二次提问或重新发起研究很有帮助:

配图
真正的“思维导图”

而 Gemini 的强大首先在于,其研究方案可以完全自定义,对于 AI 规划出的路径,用户能够随心所欲修改:

配图
“需不需要改”和“能不能改”是两回事

其次,Gemini 背后是 Google 一整套完整的 AI 生态,两者的深度融合允许报告本身直接导出至 Google 文档进行团队共享、二次编辑、多格式导出,或是导出至 Google NotebookLM 生成语音播客,亦或是直接生成幻灯片……

在我看来,这种完整,才是 Gemini 真正的护城河。

总结

当然,一次 Deep Research 任务能反映出的东西还是有限,后续我又试过一些不同难度、各有侧重的任务,几家的表现也有所浮动,这里由于篇幅原因不再展示。

综合来看,Gemini 仍是第一梯队的水平,密塔的报告本身也是高度可用的,至于该功能仍在内测阶段的 Kimi,只能说期待以后的表现吧 😭

总之,希望国产 AI 越走越远,越来越好!

置顶文件
构建自己的学术工作流