1.4.2 表示学习的常用方式_AIGC原理与实践：零基础学大语言模型、扩散模型和多模态模型-都市小说

书名：AIGC原理与实践：零基础学大语言模型、扩散模型和多模态模型
作者名：吴茂贵
本章字数：745字
更新时间：2025-02-27 01:14:34

1.4.2 表示学习的常用方式

在表示学习中，表示的对象是指待学习的数据，可以是图片、文本、音频等不同类型的数据。这些数据在原始形式下可能很难直接被计算机有效地理解和处理，因为它们可能是高维度、复杂且包含噪声的。表示学习的目标就是找到一种更加有意义和表征性强的表示形式，将原始数据转换为计算机更容易处理的形式。

在表示学习中，可以根据学习的方式和特点将表示分为多种类型。以下是一些常见的表示方式。

（1）整数表示

整数表示（Integer Representation）将类别特征映射为整数值。例如，对于颜色特征，可以将“红色”表示为0，“蓝色”表示为1，依此类推。但需要注意的是，这种表示方式会引入一个假象的顺序关系，因此在某些情况下可能不适用。

（2）独热编码表示

独热编码表示（One-Hot Encoding Representation）将类别特征映射为只有一个元素为1、其余元素都为0的一个二进制向量。每个类别都对应一个唯一的向量。独热编码适用于没有顺序关系的类别特征。

（3）分布式表示

分布式表示（Distributed Representation）将数据表示为其所属分布的参数。常见的方法包括使用均值和方差表示高斯分布，使用概率密度函数或累积分布函数表示离散分布。

（4）连续表示

连续表示（Continuous Representation）是与整数或独热编码等离散表示相对的一种表示方式，它将数据表示为连续的实数向量。在连续表示中，数据在特征空间中可以形成连续的流形结构，使得相似的数据在表示空间中更加接近。深度学习中的神经网络通常使用连续表示。

（5）词嵌入表示

词嵌入表示（Word Embedding Representation）是一种将离散的词语转换为低维实数向量的表示方法。它通过学习词语之间的语义关系，将具有相似语义的词语在向量空间中映射到相近的位置。词嵌入具有两个重要特点：一是能够保留词语的语义信息，比如上下文和语义相似性；二是能够捕捉词语之间的线性关系，比如类比关系。这些特点使得词嵌入在自然语言处理等领域中得到广泛应用。