Snowflake的冰封革命:三位Oracle老兵如何融化数据仓库

2012年,三位Oracle数据库专家在硅谷咖啡馆里画下了一个颠覆性架构,彻底改变了数据仓库行业...

Snowflake的冰封革命:三位Oracle老兵如何融化数据仓库

导语

2012年6月的一个炎热午后,加州圣卡洛斯的 Peet’s Coffee 里,三位中年工程师围着一张小桌子,桌上摊开着一沓 napkins(餐巾纸)。Benoit Dageville 正用马克笔在一张 napkin 上画着架构图——存储层、计算层、元数据层,三者分离,各自独立扩展。Thierry Cruanes 在旁边点头,Marcin Żukowski 盯着图若有所思。他们刚从Oracle辞职,放弃了高薪和股票,准备从零开始创建一个数据仓库。“这能行吗?“有人低声问。Dageville 抬起头,眼神坚定:“传统数据仓库的架构已经死了,我们只是还没告诉它们。“8年后,Snowflake 以 330 亿美元估值 IPO,成为史上最大的软件公司上市案之一。那张 napkin,如今被装裱在 Snowflake 总部的大厅里。


时代背景(Why now)

2012年的数据仓库市场,看似繁荣,实则危机四伏。

传统数据仓库的统治

Oracle、Teradata、IBM、Microsoft 统治着企业数据仓库市场。这些系统通常部署在企业自己的数据中心,由专门的 DBA 团队维护。

它们的工作方式是:

  • 购买昂贵的专用硬件(通常是 Teradata 的专有设备或 Oracle Exadata)
  • 预先规划存储和计算资源(通常3-5年的容量规划)
  • 复杂的 ETL 流程,将数据从源系统导入数据仓库
  • 有限的并发查询能力(通常几十个用户同时查询)

云时代的到来

AWS S3 于 2006 年发布,EC2 于 2008 年发布。到2012年,云计算已经从”实验性技术”变成”企业选项”。

但传统数据库厂商对云的态度是矛盾的。Oracle 的 Larry Ellison 曾公开嘲笑云计算是”时尚”和”荒谬”。他们将云视为对自己商业模式的威胁——如果客户可以在云上运行数据库,为什么还要购买昂贵的许可证和硬件?

数据爆炸

社交媒体、移动应用、物联网正在产生前所未有的数据量。企业不再只是存储交易数据,还要存储用户行为、传感器读数、日志文件、点击流。

传统数据仓库的架构(存储与计算绑定)无法应对这种规模。当数据量增长时,你不得不同时扩展存储和计算,即使你的查询负载并没有增加。

Hadoop 的兴起

Hadoop 提供了一种廉价存储和处理大数据的方式。但 Hadoop 复杂、慢、难以使用。它吸引了技术实力强的互联网公司,但传统企业望而却步。

企业想要的是:Hadoop 的规模和成本,传统数据仓库的易用性和性能。

AWS Redshift 的试水

2012年,AWS 推出了 Redshift——第一个云原生数据仓库。Redshift 证明了两件事:

  1. 数据仓库可以在云上运行
  2. 市场渴望云数据仓库

但 Redshift 也有局限:它仍然是一个”集群”模型,需要预先配置节点数,扩展时会有停机时间。

这正是 Snowflake 的机会:一个真正的云原生数据仓库,存储与计算完全分离,完全弹性,完全托管。


产品诞生(Origin Story)

Benoit Dageville、Thierry Cruanes 和 Marcin Żukowski 的故事,要从 Oracle 说起。

Dageville 和 Cruanes 是法国人,都曾在 Oracle 担任数据库架构师,参与了 Oracle 数据库核心引擎的开发。他们是多年好友,都对传统数据库架构的局限感到沮丧。

Żukowski 是波兰裔加拿大人,计算机科学博士,曾在 Oracle 做高级研究,专注于查询优化。

三人在 Oracle 相识,经常讨论数据库的未来。2012年初,他们意识到云将彻底改变数据库行业。

“在 Oracle,我们受制于现有架构,“Dageville 回忆道,“如果我们想真正创新,必须从零开始。”

2012年6月,三人相继离开 Oracle。他们甚至还没有明确的商业计划,只有一个坚定的信念:云需要一个全新的数据仓库架构。

他们在圣卡洛斯的咖啡馆里度过了几个月,用 napkin 画架构图,讨论技术方案。最终,他们形成了 Snowflake 的核心设计原则:

1. 存储与计算分离

这是最关键的设计决策。传统数据仓库中,存储和计算绑定在同一台服务器上。Snowflake 将它们完全分离:

  • 数据存储在 S3(后来支持 Azure Blob、GCP Storage)
  • 计算由独立的虚拟仓库(Virtual Warehouse)提供
  • 两者通过高速网络连接

这意味着:存储可以无限扩展(S3 是无限的),计算可以根据需要启动和关闭(按秒计费)。

2. 纯 SaaS 模式

用户不需要管理任何基础设施。没有服务器需要配置,没有软件需要安装,没有补丁需要打。他们只需要一个 Web 浏览器,就可以使用完整的数据仓库。

3. 完整 SQL 支持

虽然底层架构完全不同,但 Snowflake 支持标准 SQL。这意味着企业可以迁移现有的查询和工具,无需重新培训团队。

4. 零运维

自动调优、自动扩展、自动修复、自动安全更新。用户专注于数据和分析,而不是运维。

融资与启动

2012年10月,Snowflake Computing(后来的 Snowflake Inc.)正式成立。

2012年12月,公司完成种子轮融资,由 Sutter Hill Ventures 领投。Bob Muglia 被聘为 CEO(他后来于2014年离开,由 Frank Slootman 接任)。

团队开始秘密开发产品,目标是先在一个行业(通常是科技或金融)验证,然后再扩展。


第一个关键突破(First Breakthrough)

Snowflake 的第一个突破,来自于它的架构验证。

2014年,Snowflake 开始 beta 测试。早期客户包括一些中型科技公司,他们有数据仓库需求,但无法承受 Teradata 或 Oracle 的成本。

反馈非常积极:

  • 加载数据比传统数据仓库快 10 倍
  • 查询速度快 10-100 倍
  • 成本降低 50-90%
  • 几乎零运维工作

但真正的技术突破发生在架构层面。

微分区(Micro-partition)和聚簇(Clustering)

Snowflake 发明了一种新的数据组织方式:

  • 数据被自动分成小的、不可变的微分区(通常 50-500 MB)
  • 每个微分区的元数据(列的最小/最大值)被缓存
  • 查询时,系统可以跳过不相关的微分区(分区裁剪)

这实现了惊人的查询性能,而不需要用户手动分区或索引。

时间旅行(Time Travel)和克隆(Clone)

利用云存储的廉价性,Snowflake 保留了数据的多个版本(默认 7 天,可配置为 90 天)。用户可以:

  • 查询历史数据(“昨天这个时候这张表是什么状态?”)
  • 恢复误删除的数据
  • 创建数据的零拷贝克隆(用于测试和开发)

这些功能在传统数据仓库中几乎不可能实现,但在云架构中变得简单。

2014年正式发布

2014年底,Snowflake 正式 GA(General Availability)。产品已经准备好迎接企业级工作负载。

早期客户包括 Capital One、Adobe、Netflix 等。这些公司验证了 Snowflake 可以处理大规模、关键业务的工作负载。


扩张阶段(Growth)

2015年至2019年,Snowflake 经历了爆炸式增长。

融资历程

Snowflake 的融资历程堪称惊人:

  • 2014年:A 轮 2600 万美元
  • 2015年:B 轮 4500 万美元
  • 2017年:D 轮 1.05 亿美元,估值 12 亿美元(独角兽)
  • 2018年:E 轮 4.5 亿美元,估值 39 亿美元
  • 2020年2月:G 轮 4.79 亿美元,估值 124 亿美元

投资者包括 Redpoint Ventures、Altimeter Capital、Iconiq Capital、Sequoia 等顶级 VC。

CEO 更替

2019年,Frank Slootman 接任 CEO。Slootman 是数据领域的传奇人物,曾带领 Data Domain 和 ServiceNow 成功上市。

Slootman 带来了企业销售的经验和纪律。他重组了销售团队,制定了激进的扩张计划,为 IPO 做准备。

产品演进

Snowflake 持续扩展产品功能:

  • 数据共享(Data Sharing):安全地在组织间共享数据,无需复制
  • Snowpark:支持 Python、Java、Scala 在 Snowflake 内部运行代码
  • Streams 和 Tasks:数据流和任务调度
  • Snowpipe:连续数据加载
  • 原生 JSON 支持:半结构化数据处理

多云战略

Snowflake 早期只在 AWS 上运行,后来扩展到 Azure(2018年)和 GCP(2019年)。这让客户可以选择他们偏好的云平台,同时避免供应商锁定。


关键竞争(Competition)

Snowflake 的崛起,引来了激烈的竞争。

AWS Redshift

Redshift 是第一个云数据仓库,也是 Snowflake 最直接的竞争对手。

Redshift 的优势:

  • 与 AWS 生态深度集成
  • 价格较低(特别是对于已经使用 AWS 的客户)
  • 品牌认知度

Redshift 的劣势:

  • 需要预先配置集群大小,扩展时有停机时间
  • 存储和计算绑定
  • 并发查询能力有限

Redshift 后来推出了 Serverless 版本,试图追赶 Snowflake,但 Snowflake 的先发优势明显。

Google BigQuery

BigQuery 是 Google 的分析数据仓库,采用完全无服务器架构。

BigQuery 的优势:

  • 完全无服务器,无需管理基础设施
  • 与 Google 的 ML 和数据科学工具集成
  • 按查询付费模式

BigQuery 的劣势:

  • 对 Google Cloud 的依赖
  • 某些场景下性能不如 Snowflake
  • 企业功能相对较弱

Azure Synapse Analytics

Microsoft 的数据仓库解决方案,结合了 SQL 池、Spark 池和数据湖功能。

Synapse 的优势:

  • 与 Microsoft 生态(Power BI、Azure ML)深度集成
  • 统一的数据湖和数据仓库体验

Synapse 的劣势:

  • 产品复杂,学习曲线陡峭
  • 市场份额落后于 Snowflake

Databricks

Databricks 是 Snowflake 的新兴竞争对手。虽然 Databricks 定位更偏向”数据智能平台”而非纯粹的数据仓库,但两者在湖仓一体(Lakehouse)领域直接竞争。

Snowflake 的差异化

Snowflake 保持竞争优势的关键:

  • 真正的多租户 SaaS:完全托管,无需任何运维
  • 存储计算分离:独立扩展,成本优化
  • 数据共享:创新的数据交换能力
  • 性能:自动优化,无需调优
  • 标准 SQL:最低的迁移成本

拐点(Turning Point)

Snowflake 的关键转折点出现在2019年至2020年。

数据云(Data Cloud)战略

Snowflake 意识到,它不仅仅是一个数据仓库,而是一个数据平台。2019年,公司提出”数据云”(Data Cloud)战略:

  • 数据仓库:核心分析工作负载
  • 数据湖:原始数据存储和处理
  • 数据工程:ETL/ELT 管道
  • 数据科学:ML 模型开发和部署
  • 数据应用:构建数据驱动的应用
  • 数据共享:跨组织的数据交换

这个战略转变让 Snowflake 从一个工具变成了一个平台,增加了客户粘性和扩展空间。

数据共享与 Marketplace

Snowflake 的数据共享功能是一个颠覆性创新。传统的数据共享需要:

  1. 导出数据到文件
  2. 通过 FTP、邮件或云存储传输
  3. 接收方导入到自己的系统

Snowflake 的数据共享:

  • 无需复制数据
  • 接收方立即看到共享的数据
  • 数据提供方控制访问权限
  • 数据始终是最新的

Snowflake Marketplace 让客户可以发现和订阅第三方数据集(天气、人口统计、金融等),进一步增强了平台价值。

2020年 IPO

2020年9月16日,Snowflake 在纽交所上市,股票代码 SNOW。发行价 120 美元,首日收盘价 253.93 美元,市值超过 700 亿美元。

这是史上最大的软件公司 IPO 之一。值得注意的是,沃伦·巴菲特的伯克希尔·哈撒韦公司参与了 IPO,这是巴菲特罕见的对科技公司的直接投资。


结果(Outcome)

到2024年,Snowflake 已经成为云数据领域的巨头。

市场地位:

  • 市值约 500 亿美元(2024年)
  • 服务超过 9,800 家企业客户
  • Forbes Cloud 100 榜单常客
  • Gartner 数据仓库魔力象限的领导者

财务数据(2024财年):

  • 收入:27.9 亿美元,同比增长 36%
  • 净收入留存率(NRR):128%
  • 非 GAAP 毛利率:70%+
  • 客户数:9,800+

产品演进(2023-2024):

Snowflake Cortex 2023年底推出,将生成式 AI 能力引入数据云:

  • 大语言模型(LLM)集成
  • 向量搜索和 RAG 支持
  • AI 驱动的分析功能

Snowpark Container Services 允许客户在 Snowflake 内部运行容器化应用,进一步扩展平台能力。

Iceberg Tables 原生支持 Apache Iceberg 表格式,与其他数据湖兼容。

Unistore 支持事务性工作负载(OLTP),扩展到操作型数据处理。

Dynamic Tables 物化视图的演进,简化数据管道。


规律总结(Lessons)

Snowflake 的故事,是云原生软件创业的经典案例。

1. 架构创新胜过功能堆砌

Snowflake 的核心优势不是功能多,而是架构新。存储与计算分离、纯 SaaS 模式、微分区——这些架构创新让它在性能、成本和易用性上全面超越传统数据仓库。

2. 抓住云转型的窗口期

2012年是云转型的早期。Oracle 等老牌厂商还在犹豫,AWS 还在探索。Snowflake 抓住了这个窗口期,建立了先发优势。

3. 完全托管的价值

Snowflake 的”零运维”承诺是其最大卖点。企业愿意为便利性付费,特别是在数据仓库这类运维复杂的系统上。完全托管是云原生软件的核心价值主张。

4. 标准的力量

Snowflake 支持标准 SQL,这降低了迁移成本。企业不需要重新培训团队,不需要重写查询。这种对标准的尊重,让 Snowflake 成为传统数据仓库的最佳替代方案。

5. 数据共享的网络效应

Snowflake 的数据共享功能创造了网络效应。一个客户与合作伙伴共享数据,合作伙伴可能成为新客户。Marketplace 让数据提供商和消费者的生态形成。

6. 平台战略的威力

从”数据仓库”到”数据云”,Snowflake 展示了平台战略的威力。通过扩展功能边界,增加客户粘性,提高转换成本,Snowflake 构建了一个可持续的竞争优势。

7. 企业销售的艺术

Frank Slootman 的加入和 IPO 的成功,证明了企业软件销售的重要性。技术产品需要强大的销售机器来实现规模化。

8. 适应 AI 浪潮

Cortex 的推出表明 Snowflake 正在适应生成式 AI 的浪潮。向量搜索、LLM 集成——这些功能让 Snowflake 保持在技术前沿。


“我们不是在改进数据库,我们是在重新定义数据的可能性。当存储与计算分离,当数据可以自由流动,当分析不再需要等待,我们开启了一个全新的数据时代。”

—— Benoit Dageville,Snowflake 联合创始人