3 月 27 日, AI 初创公司 Databricks 宣布,这家公司的 Mosaic Research 团队开发的通用大模型 DBRX 发布并开源。

Databricks 联合创始人兼首席执行官 Ali Ghodsi 表示:“我们对 DBRX 感到兴奋有三个主要原因:首先,它在最先进的行业基准上击败了开源模型。其次,它在大多数基准测试中都击败了 GPT-3.5,随着组织用开源模型取代专有模型,这应该会加速我们在客户群中看到的趋势。最后,DBRX 使用混合专家架构,使该模型在每秒令牌数方面速度极快,并且服务成本效益高。”

Databricks 客户可以通过 API 使用 DBRX,从零开始预训练自己的 DBRX 同类模型,或者使用其构建该模型的同款工具和技术在选定的检查点之上继续训练。

该公司以 Apache Spark 为核心,发布了一系列基准测试,声称其通用 LLM(称为 DBRX)在语言理解、编程和数学方面击败了开源竞争对手。

在语言理解、编程、数学和逻辑等行业基准方面,DBRX 比 Llama 2 70B 和 Mixtral-8x7B 等其他开源 LLM 更快地提供结果。

开发团队还声称,它在相同的指标上击败了 OpenAI 专有模型 GPT-3.5。

DBRX 是由Databricks以 13 亿美元收购的Mosaic AI 开发,并在 Nvidia DGX Cloud 上进行训练。

Databricks 声称它通过优化了 DBRX 的效率,并采用基于MegaBlocks的专家混合 (MoE) 架构优化了 DBRX 的效率,在该架构中,多个专家网络或学习者划分一个问题。

Databricks 解释说,此模型拥有 1320 亿个参数,但只有 360 亿个参数在任一输入上处于活动状态。

Databricks 负责营销的副总裁 Joel Minnick 这样描述自己的产品:

“这些数据是该模型能够如此高效运行的一个重要原因,而且运行速度非常快。实际上,如果你使用任何一种主要的聊天机器人,今天就在那里,您可能习惯于等待并观看答案的生成。使用 DBRX,这几乎是实时的。”

但模型本身的性能还不是 Databricks 的重点。目前已经在GitHub和Hugging Face上免费提供 DBRX 。以下为地址:

Databricks 希望客户使用该模型作为他们自己大模型的基础设施。当发生这种情况越来越多时,它会继续改进客户聊天机器人或内部问答,同时还展示 DBRX 是如何使用 Databricks 的专有工具构建的。

Databricks 将开发 DBRX 的数据集合并在一起,使用 Apache Spark 和 Databricks Notebook 进行数据处理,使用 Unity Catalog 进行数据管理和治理,并使用 MLflow 进行实验跟踪。

Minnick透露,企业对大模型的投资因对第三方所有权和治理权的担忧而被推迟。“必须将数据转移给第三方,没有模型权重的所有权,无法完全控制端到端的数据治理——这些都会减慢他们的部署速度”。

“我们着手构建的是一个极其高效的模型,企业可以使用该模型将其引入自己的应用程序中,以适应自己的特定用例。”

Amalgam Insights 首席执行官兼首席分析师 Hyun Park 观察到 DBRX 的重要性在于一些技术参数,包括Databricks 可以展示模型是如何一步步构建的,作为其他企业可以遵循和微调的流程。

“在端到端模型调整、测试和操作化中,沿袭性、可见性、可重复性和模型所有权的结合非常重要。”

Park 指出,Databricks 已经为客户构建了超过 50000 个定制模型。他说:

“正是模型构建经验与大规模构建高性能模型的能力相结合,与最好的私有和开源工作相媲美,从企业 IT 的角度来看,这一公告对我来说非常引人注目。”

DBRX 消息是在 Databricks 不断变化的竞争背景下发布的。该公司与微软建立了长期战略合作伙伴关系,从而诞生了Azure Databricks——其中向用户承诺提供与微软这家微软巨头的云平台紧密相关的集成数据服务。

自 2017 年推出该服务以来,微软也已经进入 Databricks 的 Lakehouse 市场(用户可以在一个环境中获得数据仓库与数据湖),并通过其价值 100 亿美元的OpenAI 合作伙伴关系向用户承诺企业级大模型。在其 Fabric 环境中,微软还可以从其事务数据库系统 Azure Cosmos DB 和 Azure SQL DB 提供“镜像”,从而无需移动数据即可访问数据分析服务。

Keyword: Kling