Perplexity AI:当OpenAI研究员意识到搜索引擎从来没有真正回答过问题

Aravind Srinivas 在 OpenAI 做研究时意识到:人们在搜索框里输入的是问题,但搜索引擎给出的从来都是链接,而不是答案。这个看似简单的观察,成了 Perplexity 的起点。

Perplexity AI:当OpenAI研究员意识到搜索引擎从来没有真正回答过问题

Perplexity AI:当OpenAI研究员意识到搜索引擎从来没有真正回答过问题

2022年初,Aravind Srinivas 还在 OpenAI 担任研究科学家,研究大型语言模型和信息检索的交叉领域。

那段时期,他每天都在用 Google 搜索,然后也每天都在用 GPT 系列模型做实验。这两种体验的并置,让他开始思考一个他越来越难以忽视的问题:搜索引擎和语言模型服务的是同一个用户需求,但方式截然不同——为什么没有人把两者整合成一个东西?

更具体地说:当一个用户在 Google 搜索框里输入”为什么锻炼后肌肉会酸痛”,他们真正想要的是一个清晰的解释,而不是十个关于这个话题的网页链接。搜索引擎的设计,本质上是把”找答案”的任务转交给了用户——你去点链接,你去阅读,你去综合判断。这个设计在互联网诞生之初有其合理性,但在语言模型已经能够理解复杂问题并给出连贯回答的2022年,这个设计显得过时了。

Srinivas 意识到:问题不是 Google 做得不好,而是 Google 从来没有把”直接回答问题”设为自己的目标。它的目标是”帮你找到可能包含答案的网页”。这是两个不同的目标,而在大语言模型出现之前,直接回答问题在技术上是不可能的,所以前者是合理的妥协。但现在,这个妥协变成了可以改变的东西。

从OpenAI离职,组建团队

2022年8月,Srinivas 从 OpenAI 离职,开始创建 Perplexity。他招募了三个人:Denis Yarats,来自 Meta AI,专注于强化学习研究;Johnny Ho,国际信息学奥林匹克竞赛金牌得主,对算法和系统有极深的理解;以及 Artem Sergeyev,专注于 AI 基础设施。

四人团队的第一个挑战,不是技术,而是概念的清晰度。他们要构建的东西叫什么?怎么向外界描述它?

“搜索引擎”是一个被理解的概念,但 Perplexity 不只是一个更好的搜索引擎。“AI 助手”是一个更接近的描述,但它缺乏对”实时信息”这个关键特性的强调——ChatGPT 是一个 AI 助手,但它的训练数据有截止日期,无法回答关于昨天发生的事情的问题。Perplexity 需要做的,是把语言模型的回答能力,和实时网络搜索的信息时效性结合起来。

Srinivas 最终选择了”答案引擎”(Answer Engine)这个词来描述 Perplexity。这个词的选择有其精确性:它不是在说 Perplexity 比搜索引擎更好,而是在说 Perplexity 做的是一件不同的事——搜索引擎帮你找网页,答案引擎直接给你答案。

核心技术架构:检索增强生成

Perplexity 的技术核心,是一个被称为 RAG(Retrieval-Augmented Generation,检索增强生成)的架构。

基本流程是:用户输入一个问题,系统实时检索互联网上的相关内容,把这些内容作为上下文提供给语言模型,让语言模型基于这些上下文生成一个连贯的、有来源引用的答案。

这个架构解决了语言模型用于问答时的两个主要问题:第一,知识截止日期问题——通过实时检索,答案可以基于最新的信息;第二,“幻觉”问题——通过强制要求每一个关键陈述都有来源引用,用户可以验证答案的准确性,而不是盲目相信语言模型的输出。

来源引用这个设计,是 Perplexity 用户体验里最重要的细节之一。每一个答案都附带具体的引用链接,告诉用户哪句话来自哪个来源。这不只是透明度的问题,它改变了用户与答案的关系:你不再需要盲目相信一个”AI说的”,你可以点进去验证,你可以看到原始来源,你可以判断信息的可靠性。

2022年底:第一笔融资和早期产品验证

Perplexity 在成立后不到几个月,就向投资人寻求融资。这个过程比 Srinivas 预期的困难一些。

2022年是风险投资的寒冬期,大量 AI 项目都在找钱,但多数投资人对于把 AI 和搜索结合的想法持保守态度——Google 在搜索领域的护城河看起来难以撼动。

Srinivas 遭遇了大量拒绝,但也遇到了 Index Ventures。Index 对 Perplexity 的判断,不是基于它能否打败 Google,而是基于一个更具体的观察:有一类用户(研究人员、学生、知识工作者)需要一种比 Google 更高效的信息获取方式,而 Perplexity 正好服务这个群体。

2022年底,Perplexity 完成了 2560 万美元的 A 轮融资。

产品在内测期间的用户反馈,验证了 Srinivas 最初的假设。用户对”直接给出答案+来源引用”这个组合的反应,是一种真实的惊喜:这正是他们用 Google 搜索时期望得到但从来没有得到的体验。

2023年:产品公测和增长加速

2023年初,Perplexity 向公众开放。

在早期的使用场景里,Perplexity 最受欢迎的是那些需要综合性答案的问题——而不是那些用 Google 搜索已经足够高效的问题(比如直接找一个网站的链接)。当用户需要了解一个复杂话题的背景、比较多个选项、获取一个有时间深度的事件的概况,Perplexity 的”给你一个综合答案”的价值就变得非常清晰。

这个使用模式的清晰度,帮助 Perplexity 找到了自己的用户定位:不是试图替代 Google 的所有使用场景,而是在”需要理解性答案而不是链接列表”的场景里,提供一个更好的选择。

2023年底,Perplexity 的月活跃用户数达到数百万,收入开始增长(来自 Pro 订阅,提供更多次的高级模型访问)。估值在这一年的融资中突破了10亿美元,NVIDIA 的黄仁勋在公开场合表示 Perplexity 是他”最喜欢的 AI 产品之一”。

Google 的反应和”搜索的未来”之争

2024年,Google 在 I/O 大会上发布了”AI Overviews”,在搜索结果页面顶部直接显示 AI 生成的答案。

这个发布被很多媒体解读为”Google 终于开始正面回应 Perplexity 的挑战”。但 Srinivas 在回应媒体时,做出了一个精准的区分:Google 做的是”Search + AI”——在原有的搜索结果页面上附加一个 AI 摘要;而 Perplexity 做的是”AI + Search”——把 AI 作为界面的核心,搜索作为底层的信息获取机制。

这个顺序差异,产生了完全不同的用户体验。Google 的 AI Overviews 是搜索结果的附加层,用户依然在一个以链接列表为核心的界面里;Perplexity 的界面,是一个对话框,输入问题,得到答案。

Google 发布 AI Overviews 后不久,出现了一批关于 AI 生成错误信息的媒体报道——AI Overviews 在某些问题上给出了明显错误的答案(例如建议用胶水固定比萨上的奶酪)。这些错误部分来自 AI 的”幻觉”,部分来自 Google 把 AI 摘要和网络内容混合展示时产生的信息质量问题。这些报道在客观上强化了”AI 搜索需要有来源引用”这个设计理念的重要性。

信息真实性的边界

Perplexity 在发展过程中,也遭遇了一类有价值的批评:几篇新闻报道指出,Perplexity 在回答某些话题时抓取了媒体网站的内容,但在引用方式上未能完全满足这些网站的要求。这引发了关于 AI 工具和内容版权之间关系的讨论。

这个争议揭示了一个 Perplexity 必须长期面对的结构性张力:作为一个实时检索并综合信息的工具,它的价值依赖于互联网上的内容;但如果它的存在减少了用户访问原始内容来源的意愿,那么它实际上是在消耗它依赖的生态系统。

Perplexity 对此的回应,是在产品里强化了对原始来源的链接显示,让用户更容易访问答案背后的原始文章。但这个问题没有一个简单的技术解决方案,它需要随着产品的成长持续被思考和处理。

答案引擎作为一种新的信息接口

Perplexity 从2022年的四人团队,到2024年超过10亿美元估值、全球数百万用户的公司,花了不到两年时间。

这个速度,部分来自于时机——2022到2024年是 AI 应用层快速迭代的时期,大量用户对 AI 产品的接受度急剧上升。但更重要的是,Perplexity 解决的问题是真实的:搜索引擎的设计逻辑在技术上有更好的替代方案之前,是合理的;在有了更好的替代方案之后,继续沿用旧逻辑是一种惯性,而不是最优选择。

Srinivas 在接受采访时说过一句话,概括了 Perplexity 的核心命题:“Google 很擅长帮你找网页。Perplexity 在尝试帮你找答案。这是两件不同的事。”

这个区分,是否足以支撑一个能长期与 Google 竞争的商业实体,在2024年还没有一个确定的答案。但它确实提出了一个有价值的问题:在信息获取这件事上,“给你更多内容”和”给你更准确的答案”,哪个才是用户真正想要的?

“我们不是在和 Google 竞争。我们是在重新定义搜索应该意味着什么——不是找更多链接,而是直接得到答案。” —— Aravind Srinivas, Perplexity AI 联合创始人