MosaicML在成立仅2年的时间内,每名员工的价值达到了2100万美元,那么它是如何能够卖出13亿美元的呢?

MosaicML仅成立2年,员工价值2100万美元,却能卖出13亿美元,如何做到的?

Databricks收购MosaicML,推动生成式AI技术的民主化

最近,生成式AI技术领域掀起了一股投资收购热潮。全球知名企业Salesforce向Anthropic注资4.5亿美元,Runway成功筹集到了1.41亿美元的资金,而中国国内巨头美团则以20.65亿美元收购了AI公司光年之外。然而,在众多收购案中,最引人瞩目的交易无疑是Databricks收购初创公司MosaicML。据了解,MosaicML以约13亿美元的价格被大数据巨头Databricks收购,其估值在本次交易中翻了六倍,成为了今年上半年最大的收购案。仅成立2年时间,拥有60多名员工,是什么撑起了MosaicML的高估值?

Databricks收购MosaicML,加速生成式AI技术民主化

Databricks是一家以处理数据为核心的公司,起源于UC伯克利,并曾参与ALianGuaiche SLianGuairk项目的开发。作为数据存储和分析领域的巨头,Databricks的估值已达到310亿美元,在处理数据方面为许多大型公司如AT&T、壳牌、Walgreens等提供了帮助。Databricks最近开源了自己的大模型Dolly,旨在以更少参数实现与ChatGPT类似的效果。在云计算愈发普及的今天,Databricks提出的“湖仓一体”理念深受一批大数据初创企业的影响。自2013年成立以来,Databricks迅速成长为全球最热门的数据基础设施公司。去年,Databricks公布的年收入已超过10亿美元,并在2021年8月完成最新一轮融资,最新估值达到380亿美元。

而MosaicML则是一家相对年轻的生成式AI公司,于2021年成立于旧金山,目前仅公开披露过一轮融资,员工仅62人。在上一轮融资中,其估值为2.2亿美元。此次被Databricks收购,MosaicML的估值直接翻了六倍,成为今年上半年最大的收购案。这也是目前生成式AI领域内所公布的最大一笔收购案之一。从MosaicML的高估值可以看出,这家公司在生成式AI技术上有着非常引人注目的优势。

MosaicML MPT系列模型的优势

MosaicML的MPT系列模型是在HuggingFace PretrainedModel基类的基础上进行子类化的,与HuggingFace生态系统完全兼容。MPT-7B模型是MosaicML最受欢迎的模型之一,拥有数十亿个参数,可以处理超过2,000种自然语言处理任务。MPT-7B的优化层包括FlashAttention和低精度层范数等,可以使该模型的训练速度比传统方法快2-7倍。这种资源的近线性可伸缩性确保了具有数十亿参数的模型可以在几小时内训练,而不是过去的几天。此外,MosaicML还发布了新的可商用的开源大语言模型MPT-30B,拥有300亿参数,并且性能优于GPT-3。

MPT系列模型的优势在于它们的高效性和低成本。使用大量数据进行“训练”的人工智能模型的复杂度急剧上升,训练一个模型现在至少要花费数百万美元。除了大公司之外,其他中小型企业普遍都无法承受这样的成本。然而,MosaicML的MPT系列模型可以让企业以较低的成本和更高的效率训练自己的语言模型,从而更轻松地应用生成式AI技术,实现更好的业务表现。大多数开源语言模型只能处理最多具有几千个tokens的序列。但是,借助MosaicML平台和单个节点上的多个8xA100-40GB,用户可以轻松微调MPT-7B以处理高达65k的上下文长度。这种处理极端上下文长度的能力是通过ALiBi实现的,它是MPT-7B的一个关键架构选择之一。

以《了不起的盖茨比》的全文为例,其仅有不到68k个Token。在一个测试中,模型StoryWriter阅读了《了不起的盖茨比》并生成了一个尾声。由于上下文长度较长,StoryWriter的“打字”速度较慢,约为每分钟105个单词。尽管StoryWriter的上下文长度为65k进行了微调,但ALiBi使模型能够推断出比训练更长的输入:在《了不起的盖茨比》的情况下为68k个Token,在测试中高达84k个标记。

生成式AI技术的普及

生成式AI技术是人工智能的一种分支,它利用大量的数据和深度学习算法,能够自动生成原始文本、图像和计算机代码等内容。这种技术的出现,让人们可以更加便捷地处理数据、分析数据,更好地服务于人类的需求。随着大数据和人工智能技术的快速发展,生成式AI技术已经被广泛应用于自然语言处理、图像识别和虚拟现实等领域。

在自然语言处理领域中,GPT-4已成为最受欢迎的生成式AI模型之一,可以用于生成文章、翻译语言和回答问题等任务。在图像识别领域,StyleGAN2能够生成高质量的图像,可以用于游戏开发、影视制作和虚拟现实等领域。

MosaicML的CEO Naveen Rao表示,使用大量数据进行“训练”的人工智能模型的复杂度自2018年以来急剧上升,训练一个模型现在至少需要数百万美元。除了大公司之外,其他中小型企业普遍无法承受这样的成本。然而,Databricks的收购将使生成式AI技术的民主化程度进一步提高。企业可以使用自己的专有数据以简单、快速、低成本的方式训练和构建生成式AI模型,在获得数据控制权和所有权的同时,进行自定义AI模型开发。

根据Databricks的说法,在Databricks和MosaicML的平台和技术支持下,企业训练和使用大型语言模型的成本将显著降低,预计降至数千美元左右。这为生成式AI技术的普及提供了便利。

Databricks收购MosaicML的意义

Databricks收购MosaicML的主要目的是加速生成式AI技术的发展和民主化。通过将两家公司的技术和资源整合起来,Databricks可以更好地满足客户的需求,提供更高效、更便捷的解决方案。具体而言,该收购将带来以下几个方面的改变:

  1. 更高效的大语言模型:Databricks收购MosaicML后,可以将MPT系列模型集成到其Lakehouse平台中,为客户提供更高效、更低成本的大语言模型。这将有助于企业更好地处理自然语言处理任务,提高业务效率和准确性。

  2. 更快的模型训练速度:MosaicML的MPT系列模型具有快速训练的特点,这将有助于Databricks提供更快速的模型训练服务。这对于需要快速响应市场需求的企业来说尤为重要,可以帮助他们更好地满足客户的需求。

  3. 更高的民主化程度:Databricks收购MosaicML也意味着生成式AI技术的民主化程度将会进一步提高。MosaicML的MPT系列模型可以让中小型企业更轻松地训练自己的语言模型,从而可以更好地应用生成式AI技术,实现更好的业务表现。这将有助于推动生成式AI技术的发展和应用,促进人工智能技术的普及和发展。

综上所述,Databricks收购MosaicML的意义不仅在于加速生成式AI技术的发展和民主化,更在于将两家公司的技术和资源整合起来,为客户提供更高效、更便捷的解决方案。随着人工智能技术的快速发展和应用,生成式AI技术将扮演着越来越重要的角色,Databricks收购MosaicML的举动也体现了各企业对于这个方向的重视和投资。从Snowflake和Databricks接连的收购步伐来看,大型科技公司对于生成式AI技术正在从自主研发、战略投资逐步迈向兼并收购阶段。