OpenAI 文本嵌入式模型之初学者指南

Click:sustainable design

向量嵌入在人工智能中至关重要，它可以将复杂的非结构化数据转换为机器可以处理的数字向量。这些嵌入可以捕获数据中的语义含义与关系，从而实现更有效的分析和内容生成。

ChatGPT 的所属企业 OpenAI 提供了多种嵌入模型，这些模型可提供高质量的向量表示，可用于各种应用程序，包括语义搜索、聚类和异常检测。本指南将探讨如何利用 OpenAI 的文本嵌入模型来构建智能且响应迅速的 AI 系统。

何为向量嵌入与嵌入模型？

在我们深入讨论这些之前，先来了解几个术语。首先，什么是向量嵌入？它们是许多 AI 概念的基石。向量嵌入是数据的数字表示，特别是文本、视频、音频、图像和其他数字媒体等非结构化数据。它们捕捉数据中的语义含义和关系，并为存储系统和 AI 模型提供一种有效的方式来理解、处理、存储和检索复杂且高维的非结构化数据。

那么，如果嵌入是数据的数字表示，那么如何将数据转换为向量嵌入？这就是嵌入模型的作用所在。

嵌入模型是一种将非结构化数据转换为向量嵌入的专门算法。它的目标是在于学习数据中的模式和关系，然后在高维空间中表达它们。其关键思想是相似的数据将具有相似的向量表示，并且在高维空间中彼此更接近，从而使 AI 模型能够更有效地处理和分析数据。

比如，在自然语言处理 (NLP) 的背景下，嵌入模型可能会了解到单词“king”和“queen”是相关的，并且应该在向量空间中彼此靠近，而单词“banana”则应该放在较远的位置。

向量空间中的这种接近性反映了单词之间的语义关系。

嵌入模型和向量嵌入的常见用途是在检索增强生成( RAG ) 系统中。

RAG 系统并非仅仅依赖大型语言模型( LLM ) 中的预训练知识，而是在生成输出之前为 LLM 提供额外的上下文信息。这些额外的数据使用嵌入模型转换为向量嵌入，然后存储在Milvus等向量数据库中（它也可通过Zilliz Cloud作为完全托管的服务提供）。

RAG 非常适合需要详细、基于事实的查询响应的组织和开发人员，这使其在各个业务领域都具有价值。

OpenAI 文本嵌入模型

OpenAI提供了多种嵌入模型，非常适合语义搜索、聚类、推荐系统、异常检测、多样性测量和分类等任务。

有鉴于 OpenAI 的受欢迎程度，许多开发人员可能会使用其模型尝试 RAG 概念。虽然这些概念通常适用于嵌入模型，但还是让我们关注 OpenAI 具体提供的内容。

当谈到 NLP 时，这些 OpenAI 嵌入模型尤其重要。包括：

text-embedding-ada-002
text-embedding-3-small
text-embedding-3-large

以下表格对这些模型进行了直接的比较。

模型描述 输出维度 最大输入 价格 text-embedding-3-large 同时适合英语和非英语任务的嵌入模型 3,072 8.191 0.13 美元 / 100 万个token text-embedding-3-small 比第二代ada嵌入模型提高了性能 8.191 8.191 0.10美元/100万个token text-embedding-ada-002 性能最强的第二代嵌入模型，取代16个第一代模型 1,536 8.191

<td width="32" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0); padding: 5px; outline-style: initial; outline-width: 0px; word-break: break-all; hyphens: auto; border-width: 1px 0px 0px 1px; border-top-style: solid; border-right-style: initial; border-bottom-style: initial; border-left-style: solid; border-top-color: rgb(165, 169, 176); border-right-color: init

Keyword: ChatGPT