Click:sustainable design

向量嵌入在人工智能中至关重要,它可以将复杂的非结构化数据转换为机器可以处理的数字向量。这些嵌入可以捕获数据中的语义含义与关系,从而实现更有效的分析和内容生成。

ChatGPT 的所属企业 OpenAI 提供了多种嵌入模型,这些模型可提供高质量的向量表示,可用于各种应用程序,包括语义搜索、聚类和异常检测。本指南将探讨如何利用 OpenAI 的文本嵌入模型来构建智能且响应迅速的 AI 系统。

何为向量嵌入与嵌入模型?


在我们深入讨论这些之前,先来了解几个术语。首先,什么是向量嵌入?它们是许多 AI 概念的基石。向量嵌入是数据的数字表示,特别是文本、视频、音频、图像和其他数字媒体等非结构化数据。它们捕捉数据中的语义含义和关系,并为存储系统和 AI 模型提供一种有效的方式来理解、处理、存储和检索复杂且高维的非结构化数据。


那么,如果嵌入是数据的数字表示,那么如何将数据转换为向量嵌入?这就是嵌入模型的作用所在。


嵌入模型是一种将非结构化数据转换为向量嵌入的专门算法。它的目标是在于学习数据中的模式和关系,然后在高维空间中表达它们。其关键思想是相似的数据将具有相似的向量表示,并且在高维空间中彼此更接近,从而使 AI 模型能够更有效地处理和分析数据。


比如,在自然语言处理 (NLP) 的背景下,嵌入模型可能会了解到单词“king”和“queen”是相关的,并且应该在向量空间中彼此靠近,而单词“banana”则应该放在较远的位置。


向量空间中的这种接近性反映了单词之间的语义关系。


嵌入模型和向量嵌入的常见用途是在检索增强生成( RAG ) 系统中。

RAG 系统并非仅仅依赖大型语言模型( LLM ) 中的预训练知识,而是在生成输出之前为 LLM 提供额外的上下文信息。这些额外的数据使用嵌入模型转换为向量嵌入,然后存储在Milvus等向量数据库中(它也可通过Zilliz Cloud作为完全托管的服务提供)。

RAG 非常适合需要详细、基于事实的查询响应的组织和开发人员,这使其在各个业务领域都具有价值。

OpenAI 文本嵌入模型


OpenAI提供了多种嵌入模型,非常适合语义搜索、聚类、推荐系统、异常检测、多样性测量和分类等任务。


有鉴于 OpenAI 的受欢迎程度,许多开发人员可能会使用其模型尝试 RAG 概念。虽然这些概念通常适用于嵌入模型,但还是让我们关注 OpenAI 具体提供的内容。


当谈到 NLP 时,这些 OpenAI 嵌入模型尤其重要。包括:

  • text-embedding-ada-002

  • text-embedding-3-small

  • text-embedding-3-large


以下表格对这些模型进行了直接的比较。

模型 描述 输出维度 最大输入 价格 text-embedding-3-large 同时适合英语和非英语任务的嵌入模型 3,072 8.191 0.13 美元 / 100 万个token text-embedding-3-small 比第二代ada嵌入模型提高了性能 8.191 8.191 0.10美元/100万个token text-embedding-ada-002 性能最强的第二代嵌入模型,取代16个第一代模型 1,536 8.191

<td width="32" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0); padding: 5px; outline-style: initial; outline-width: 0px; word-break: break-all; hyphens: auto; border-width: 1px 0px 0px 1px; border-top-style: solid; border-right-style: initial; border-bottom-style: initial; border-left-style: solid; border-top-color: rgb(165, 169, 176); border-right-color: init

Keyword: ChatGPT