ElevenLabs：两位波兰工程师如何用AI重建人类与技术的情感连接

导语：2022年，波兰华沙的一间公寓里，Piotr Dąbkowski和Mati Staniszewski正为一部好莱坞电影的糟糕配音而皱眉。作为前Google机器学习工程师和Palantir部署策略师，他们意识到现有的语音合成技术远不能满足真实情感表达的需求。那些机械、单调的配音不仅毁掉了观影体验，更暴露了整个行业的技术瓶颈。两人决定不再忍受这种现状——他们要创造能真正理解并表达人类情感的AI语音。从零开始，在狭小的办公室里日夜工作，他们从自己的积蓄开始，最终打造出ElevenLabs——一个能准确发音复杂人名、表达愤怒、悲伤、喜悦等细微情感的AI语音平台，成为AI语音领域的独角兽，估值超过30亿美元。

时代背景：语音技术的长期停滞与AI的突破

语音是人类最自然的交流方式，但让机器说话一直是计算机科学中最困难的挑战之一。

从1960年代的机械式语音合成器，到1980年代的规则驱动系统，再到2000年代的统计参数合成，语音合成技术经历了多次革命。但直到2010年代，合成语音仍然明显”机械”——语调单一、情感缺失、发音不自然。你可以听出那是机器在说话。

2016年，深度学习开始改变这个领域。

Google的WaveNet是转折点。这个基于深度神经网络的模型能够生成非常自然的语音，接近人类水平。随后，Tacotron、DeepVoice等模型相继出现，语音合成的质量大幅提升。

但这些技术仍然有限制：

首先，情感表达。大多数TTS（Text-to-Speech）系统只能生成”中性”语调，无法表达喜怒哀乐。它们可以”读”文本，但不能”表达”文本。

其次，声音多样性。每个TTS系统通常只能生成几种预设的声音，无法模拟特定说话人的声音特征。

第三，多语言支持。大多数系统只支持主流语言，对于小语种、口音、方言支持有限。

第四，实时性。高质量的语音合成需要大量计算，难以在消费级设备上实时运行。

2020年代初，这些问题开始被解决，但商业化产品仍然滞后。

Amazon Polly、Google Cloud Text-to-Speech、Microsoft Azure Speech——这些大厂的TTS服务提供了不错的质量，但仍然缺乏情感深度和个性化。它们适合阅读新闻、播报天气，但不适合讲故事、播客、有声书——任何需要情感表达的场景。

这就是ElevenLabs要解决的问题。

产品诞生：从电影配音的不满到创业火花

Piotr Dąbkowski的故事开始于波兰。

他在华沙长大，对数学和计算机科学表现出早期天赋。在波兰完成学业后，他来到英国，在剑桥大学学习计算机科学。毕业后，他加入了Google，成为机器学习工程师，参与了多个大型AI项目。

Mati Staniszewski也有类似的路径。他在波兰学习经济学和数学，然后来到伦敦，在帝国理工学院深造。毕业后，他加入了Palantir——著名的数据分析和情报公司，负责部署策略和客户成功。

**两人相识于伦敦的科技圈，很快成为朋友。**他们经常讨论AI的未来，分享对技术的热情。但他们也都有一个共同的困扰：作为非英语母语者，他们在英国经常遇到语言障碍，特别是对内容的本地化感到不满。

“我们看了一部好莱坞电影，配音质量简直糟糕透了，“Dąbkowski回忆道，“那不仅仅是翻译问题，声音完全没有情感，语调完全错误。这让我们意识到，语音合成技术还有巨大的改进空间。”

这个观察点燃了他们的想象力。如果他们能创建一个AI系统，不仅能生成自然的语音，还能理解上下文、表达情感、模拟不同说话人的风格，会怎样？

2022年初，两人决定开始这个项目。

他们辞去了工作，回到华沙，在Dąbkowski的公寓里开始了全职开发。没有融资，没有团队，只有两人自己的积蓄和对技术的信念。

他们从头开始构建语音合成模型。这不是简单的微调现有模型，而是全新的架构设计。核心创新包括：

上下文感知：模型不仅看当前的句子，还理解整个段落、章节、甚至全文的语境。这让语音能够根据内容的情感基调调整语调。

情感建模：模型学会了识别和表达多种情感——快乐、悲伤、愤怒、恐惧、惊讶——并能根据文本内容自动选择适当的情感。

声音克隆：通过少量样本（几秒钟到几分钟），模型就能学习特定说话人的声音特征，生成高度相似的合成语音。

多语言支持：模型采用了一种新的多语言架构，能够处理数十种语言，并且允许跨语言声音克隆（用一个人的声音说另一种语言）。

**“我们不只是想创造更好的语音合成工具，“**Staniszewski解释道，“我们想重建人类与技术之间的情感连接。当AI说话时，它应该能表达情感，就像真人一样。“

第一个关键突破：beta版本的病毒式传播

2023年1月，ElevenLabs推出了beta版本。

这个版本只包含基本功能：文本转语音、声音克隆、几种预设声音。界面简陋，没有营销，只是在一个开发者论坛上发了个帖子。

但效果出乎意料。

用户们首先被声音的自然度震惊。与Amazon Polly或Google TTS相比，ElevenLabs的声音明显更自然、更有表现力。它不仅能正确发音复杂词汇，还能根据标点符号调整语调和停顿。

然后是声音克隆功能。

用户上传几秒钟的音频样本，ElevenLabs就能生成几乎一模一样的合成语音。这个功能的潜力立即显现：内容创作者可以用自己的声音生成无限内容，游戏开发者可以为角色创建定制声音，翻译公司可以让配音演员”说”任何语言。

beta版本在几周内吸引了数万用户。社交媒体上开始流传ElevenLabs生成的语音样本——从名人的声音克隆到虚拟角色的对话，从多语言播客到AI歌曲创作。

风险投资迅速跟进。

2023年1月，ElevenLabs完成了200万美元的种子轮融资，由Concept Ventures领投。对于成立仅几个月的公司，这是罕见的快速融资。

2023年6月，公司完成了1900万美元的A轮融资，由Andreessen Horowitz（a16z）和Nat Friedman（GitHub前CEO）领投，估值 reportedly 达到1亿美元。

投资者的热情反映了对AI语音市场前景的看好。如果ElevenLabs能继续保持技术领先，语音合成市场的规模将是巨大的——从有声书和播客，到游戏和电影，从客服到教育，几乎每个内容行业都需要高质量的语音技术。

扩张阶段：从工具到平台的转变

融资让ElevenLabs能够快速扩张。

团队从2人增长到几十人，在纽约和伦敦设立了办公室。公司吸引了来自Google、Amazon、Apple的语音技术专家，以及音频工程师、机器学习研究员、产品设计师。

产品也在快速迭代。ElevenLabs推出了多项重要功能：

Projects：一个完整的音频编辑和生成平台，让用户可以管理长篇内容（如有声书、播客），进行精细的编辑和控制。

API：让开发者能够将ElevenLabs的技术整合到自己的应用中。这个API迅速被数千家公司采用，从内容平台到教育应用，从游戏公司到呼叫中心。

** dubbing studio**：自动化的视频配音工具，可以将视频从一种语言配音成另一种语言，保持原始说话人的声音特征。

voice library：一个市场，用户可以分享和交易他们训练的声音模型。

这些功能让ElevenLabs从一个简单的TTS工具，演变成一个完整的语音内容创作平台。

商业上，ElevenLabs采取了分层定价策略。

免费层提供基本功能，吸引用户试用。付费层（从5美元/月开始）提供更多功能、更高质量、商业使用权。企业版则提供定制模型、API访问、优先支持。

这个策略非常成功。到2023年底，ElevenLabs reportedly 拥有超过100万注册用户，数千家付费企业客户。收入增长迅速，公司已经接近盈利。

但快速增长也带来了挑战，特别是内容安全问题。

关键竞争：与科技巨头的声音战争

ElevenLabs的成功引起了科技巨头的注意。

Amazon、Google、Microsoft都拥有自己的TTS服务，虽然在情感表达和声音克隆方面落后，但在企业市场有巨大的渠道优势。随着ElevenLabs证明市场的存在，这些巨头开始加速投资语音AI。

Amazon推出了更高级的TTS服务，增加了情感表达和更自然的声音。

Google更新了Cloud Text-to-Speech，加入了WaveNet和Neural2等高质量声音。

Microsoft通过Azure Speech服务和收购Nuance，加强了在企业语音市场的地位。

OpenAI也进入了这个领域，2024年推出了自己的语音合成和识别功能，整合进ChatGPT。

ElevenLabs如何在竞争中保持领先？

**首先，技术领先。**ElevenLabs在情感表达和声音克隆方面的技术仍然领先。当竞争对手刚刚跟上时，ElevenLabs已经推出了下一代模型，支持更复杂的情感控制和更精准的声音克隆。

**其次，专注。**ElevenLabs只做语音，而且做到极致。相比于科技巨头的”一站式”平台，ElevenLabs的专业性吸引了许多对语音质量有极高要求的客户。

**第三，社区和生态。**Voice Library创建了一个创作者社区，用户生成的声音模型丰富了平台的内容。这种网络效应是后来者难以复制的。

**第四，开发者友好。**ElevenLabs的API设计简洁，文档完善，对开发者极其友好。许多公司选择ElevenLabs不是因为技术绝对领先，而是因为集成更简单。

到2024年，ElevenLabs已经成为AI语音领域的事实标准。从独立创作者到大型企业，从播客制作到游戏开发，ElevenLabs的声音无处不在。

拐点：从语音合成到全方位音频AI

2024年，ElevenLabs开始从语音合成公司向全方位音频AI平台转型。

这一转型的第一个重要产品是ElevenLabs Music——一个能够生成歌曲和音乐的AI系统。与语音合成不同，音乐生成需要处理更复杂的时序结构、和声关系、风格变化。但ElevenLabs在语音技术上的积累——特别是情感表达和声音控制——为音乐生成奠定了基础。

另一个重要方向是语音到语音（Voice-to-Voice）转换。

这项技术允许实时改变说话人的声音，保持内容和情感，但改变音色和风格。应用场景包括：实时翻译（保持说话人声音特征）、游戏配音（一个演员扮演多个角色）、隐私保护（匿名化声音）。

更大的野心是”通用音频AI”。

ElevenLabs的愿景不仅是语音，而是所有音频内容的AI生成和编辑。从音效到背景音乐，从配音到歌曲，从播客到有声书——ElevenLabs想成为音频创作的基础设施。

融资继续加速。

2024年，ElevenLabs reportedly 完成了8000万美元的B轮融资，估值达到11亿美元，正式进入独角兽行列。投资者包括a16z、Nat Friedman、Daniel Gross等。

但这还不是终点。2025年初，新一轮融资 reportedly 将估值推高至30亿美元以上，使ElevenLabs成为AI语音领域最有价值的私营公司。

收入 reportedly 达到数千万美元，主要来自企业API调用和订阅服务。虽然还小于科技巨头的语音业务，但对于一个成立仅三年的公司来说，增长速度令人印象深刻。

结果：重新定义人机交互的声音维度

截至2025年初，ElevenLabs已经服务了数百万用户和数万家企业。它从一个解决配音问题的小工具，成长为全球最具影响力的音频AI平台之一。

从商业角度看，ElevenLabs的成功证明了垂直AI应用的价值。在OpenAI、Google等巨头覆盖广泛市场的同时，ElevenLabs通过深度专注语音领域，建立了强大的护城河。

从技术角度看，ElevenLabs推动了语音合成技术的情感化革命。在它之前，TTS主要是功能性工具；在它之后，AI语音成为了创造性媒介。

但ElevenLabs的真正影响可能超越了商业和技术。

它降低了内容创作的门槛。

独立创作者现在可以用自己的声音（或AI生成的声音）制作专业质量的播客、有声书、视频配音。语言不再是障碍——内容可以被自动翻译成数十种语言，保持原始说话人的声音特征。这创造了一个全新的内容民主化浪潮。

它引发了关于声音所有权和身份的深刻讨论。

声音克隆技术带来了伦理和法律挑战。谁拥有一个人声音的权利？如何防止声音被滥用？如何保护声音身份？ElevenLabs在这些问题上采取了积极措施—— watermarking技术、使用政策、与权利方合作——但这些问题的最终解决需要整个行业和社会共同努力。

它探索了人机交互的新可能。

当AI助手可以像真人一样说话、表达情感时，人机交互会发生什么变化？ElevenLabs的技术让AI从”工具”向”伴侣”的演变成为可能，开启了一个全新的交互范式。

当然，挑战依然存在。技术竞争加剧，科技巨头加大投入。监管不确定性——特别是关于声音克隆的法规——可能影响商业模式。AI音频的伦理问题——如 deepfake 风险——需要持续关注和应对。

但ElevenLabs已经证明，在AI时代，深度垂直化和情感化可以创造巨大的价值。当机器能真正”说话”时，世界将变得不同。

规律总结：ElevenLabs故事的关键启示

回顾ElevenLabs的发展历程，我们可以总结出几个关键的产品和公司发展规律：

1. 从个人痛点发现市场机会

ElevenLabs的故事始于两位创始人对配音质量的不满。这个个人痛点实际上代表了一个巨大的市场机会——高质量、情感化的AI语音。

2. 情感化是AI产品差异化的关键

在功能性的TTS市场，ElevenLabs通过情感表达实现了差异化。当技术成熟后，情感连接往往是产品竞争的决定因素。

3. 声音克隆是网络效应的催化剂

Voice Library和声音克隆功能创建了一个创作者社区，用户生成的内容丰富了平台，形成了强大的网络效应。

4. 专注垂直领域可以对抗巨头

面对Amazon、Google等巨头，ElevenLabs通过深度专注语音领域取得了胜利。垂直领域的专业性和敏捷性是挑战全栈巨头的有效策略。

5. API优先策略加速生态建设

ElevenLabs早期就投入API开发，让第三方开发者能够轻松集成。这种开放策略加速了生态系统的建设，扩大了市场覆盖。

6. 伦理先行可以建立长期信任

面对声音克隆的伦理风险，ElevenLabs采取了积极的措施—— watermarking、使用政策、透明度。这种负责任的态度有助于建立长期的品牌信任。

“我们不是在创造更好的语音合成工具，而是在重建人类与技术之间的情感连接。当AI说话时，它不应该只是传递信息，而应该传递情感。声音是人类最原始的表达方式，当技术能够理解和表达这种表达时，我们将会看到一个全新的创造力时代。”

—— Mati Staniszewski，ElevenLabs联合创始人兼CEO