Descript:Groupon创始人被视频编辑折磨之后,他决定改掉这件事

Andrew Mason 在 Groupon 被解雇五年后,开始录制播客。当他面对 Adobe Audition 的时间轴界面时,他意识到:这件事之所以这么难,是因为所有人都默认了它应该这么难。Descript 的核心想法,就是质疑这个默认。

Descript:Groupon创始人被视频编辑折磨之后,他决定改掉这件事

Descript:Groupon创始人被视频编辑折磨之后,他决定改掉这件事

2013年,Andrew Mason 以一种不常见的方式离开了他创立的公司 Groupon。

董事会以业绩不及预期为由解除了他的 CEO 职务。他在离职信里写了一句话,后来被广泛引用:“在我的失败中,我一无所获地离开了,除了一些不错的教训和对自己骨骼结构的欣赏。”

这种幽默,是 Mason 面对困境时的典型反应。

离开 Groupon 之后,Mason 创立了一家叫 Detour 的公司,做基于地理位置的音频导览——用户戴着耳机在城市里漫步,听到实时触发的音频内容介绍周围的历史和故事。这个想法很有趣,但商业化困难。

在 Detour 运营期间,Mason 开始大量录制音频内容。他意识到音频编辑工具有一个根本性的问题,而这个问题的解决方案,最终成为了 Descript。

时间轴界面的问题

音频和视频编辑工具,从几十年前开始,就建立在一个共同的界面范式上:时间轴(Timeline)。

时间轴的逻辑是:把录音或录像看作一条时间线上的波形,用鼠标在波形上选择区域,进行剪切、复制、粘贴等操作。这个范式的诞生,是因为早期的数字音频工作站(DAW)是从磁带剪辑的操作逻辑演变而来的,时间轴是对物理磁带的数字模拟。

时间轴对于专业的录音师和视频剪辑师来说是自然的——他们接受过专业训练,知道如何在波形图里识别一段呼吸声、一个停顿、一句说错的话。但对于一个想要录制播客或者做 YouTube 视频的非专业内容创作者来说,时间轴是一道学习曲线。

Mason 在编辑 Detour 的音频内容时深刻体验了这道学习曲线。他需要在几十分钟的录音里找到一个说错的句子,然后把它删掉。在时间轴上,这意味着:找到那个时间点(通常需要来回播放多次),精确选择那一段波形(需要放大时间轴才能操作),确保选择区域的边界不会包含前后的呼吸声或字词(需要再次精确调整),然后删除。

Mason 觉得有些不对劲。他的问题不是”如何用时间轴”,而是”为什么一定要用时间轴”。

“用文本编辑音频”的洞察

这个问题的答案,在某个时刻对 Mason 来说变得清晰:语音的自然单位是词,而不是时间段

当你想删除一句说错的话,你知道这句话说的是什么——你知道那是”嗯,我觉得”这几个字,你知道它出现在某个讨论主题之后。你想要做的,是找到”嗯,我觉得”这几个字,然后删掉它们。

如果有一个工具能把录音自动转录成文字,然后让你在文字上直接编辑——删除哪几个字,那几个字对应的音频就自动被删除——这个过程会变成什么样子?它会变得和在 Word 里编辑文档一样直观。

2017年,Mason 开始把这个想法变成一个真实的产品。他关闭了 Detour,创立了 Descript,招募了一支工程师团队,开始构建这个”以文本为界面的音频编辑器”。

核心技术挑战是:高精度的语音转录,以及精确的文字-时间戳对齐。如果转录出错,或者文字和音频的对应关系有偏差,用户在文本上的编辑就无法准确映射到音频上。Descript 早期花了大量的工程资源在提升这两个技术指标上。

Overdub:语音克隆的伦理地雷和技术突破

2019年,Descript 推出了一个让人目瞪口呆的功能:Overdub。

Overdub 的功能是:录制用户本人大约十分钟的语音样本,用这些样本训练一个专属的 AI 语音模型,然后允许用户输入任何文字,让 AI 用他们自己的声音读出来。

应用场景是实用的:你在录播客时说错了一句话,你不需要重新录制,只需要在文本里纠正那句话,Overdub 会自动生成你的声音读出正确的版本,并无缝替换原来的录音。

这个功能在展示时,通常让人第一反应是惊喜,第二反应是不安。你可以用别人的声音说他们没有说过的话——这个技术能力的滥用空间是显而易见的。

Descript 对这个问题的处理是建立了一套使用条款:Overdub 只能用于用户自己的声音模型,不允许克隆他人声音,而且用户在使用 Overdub 生成音频时需要主动确认这段音频是 AI 生成的。这些规则的执行有技术和合规两个层面,但它们也反映了 Mason 对这个技术的主动反思——不是回避风险,而是直接面对它并建立使用规范。

Overdub 在播客制作者群体里产生了广泛的口碑效应。一个之前需要重新录制整段音频才能修正一句错误的流程,现在变成了在文本里修改几个字。这个效率提升是具体可量化的,而且足够强烈,让用户愿意主动告诉别人。

2020年:从播客工具到视频编辑

Descript 在2018到2019年主要专注于播客制作场景,核心用户是音频内容创作者。2020年,产品扩展到视频。

这个扩展在技术上的难度,远大于从无到有构建音频编辑器。视频编辑除了音频的复杂性,还引入了画面:文字删除不只需要同步删除音频,还需要处理对应的视频帧。更复杂的是,视频通常有多个音频轨道(人声、背景音乐、音效),如何在文本界面里表达这种多轨结构,需要重新设计。

但视频版的 Descript 在2020年正式发布时,找到了它的节奏。2020年也是 COVID-19 导致远程工作和在线内容创作爆发的年份——大量原本不做视频内容的公司开始需要录制 Zoom 会议、制作营销视频、发布产品演示。这个新涌现的非专业视频制作需求,和 Descript 的核心价值主张高度吻合:快速、门槛低、不需要学习专业的视频剪辑软件。

到2021年,Descript 的用户已经涵盖了从独立播客主到大型媒体公司的多种规模,单月活跃用户达到数十万。

Andreessen Horowitz 的1亿美元

Descript 的融资历史,反映了投资人对这个产品方向价值的评估变化。

早期,Mason 需要向投资人解释这个看起来”太简单”的想法为什么是一个大商业机会。“用文本编辑视频”的概念在直觉上是对的,但投资人需要理解:这不只是对专业工具的简化,而是对一个完全不同的用户群体(非专业内容创作者)的服务,而这个用户群体的规模,远大于专业视频编辑师的市场。

2021年,Descript 完成了由 Andreessen Horowitz 领投的 5000 万美元 C 轮融资;2022年,OpenAI 的初始基金也参与了投资。到2022年,Descript 的总融资额超过 1 亿美元,估值达到 5.5 亿美元左右。

这些投资的背后,是投资人对”AI 重塑内容创作工具”这个趋势的判断,以及对 Mason 作为连续创业者的判断——他曾经把一个团购网站从0做到2011年 IPO,尽管 CEO 的任期以不太光彩的方式结束,但那个经历证明了他能够在混乱中推动一个产品快速增长。

文本编辑范式的影响

Descript 之后,音频和视频编辑领域出现了越来越多采用类似界面逻辑的工具。Adobe 在2022年发布的 Premiere Pro 更新里,引入了基于转录的文本编辑功能;CapCut 和其他面向普通用户的视频工具,也开始支持通过文字删除视频片段。

这些功能的出现,某种程度上是对 Descript 核心假设的行业验证:用文本编辑音视频,确实比用时间轴更直观,值得成为一种标准功能而不是一个小工具的差异化卖点。

但 Descript 和这些后来者之间的差距,在于它是围绕这个核心理念构建的整套创作工作流——转录、编辑、合成、发布,都在同一个地方完成。这种整合性,在竞争开始激烈之后,依然给 Descript 提供了差异化的价值。

从那个在 Detour 时期被音频编辑折磨的 Mason,到一家重新定义了内容编辑工作流的公司,Descript 的故事本质上是一个关于质疑”理所当然”的故事:时间轴之所以是编辑工具的标准,不是因为它对用户最直观,而是因为它是从磁带时代继承下来的历史惯例。当有人认真质疑这个惯例,并给出了一个更直观的替代方案,市场会作出回应。

“最好的技术不是让你学会新技能,而是让你忘记技术的存在。” —— Andrew Mason