14.5. 全局向量的词嵌入(GloVe)
Open the notebook in Colab
Open the notebook in SageMaker Studio Lab

上下文窗口内的词共现可以携带丰富的语义信息。例如,在一个大型语料库中,“固体”比“气体”更有可能与“冰”共现,但“气体”一词与“蒸汽”的共现频率可能比与“冰”的共现频率更高。此外,可以预先计算此类共现的全局语料库统计数据:这可以提高训练效率。为了利用整个语料库中的统计信息进行词嵌入,让我们首先回顾 14.1.3节中的跳元模型,但是使用全局语料库统计(如共现计数)来解释它。

14.5.1. 带全局语料统计的跳元模型

qij表示词wj的条件概率P(wjwi),在跳元模型中给定词wi,我们有:

(14.5.1)qij=exp(ujvi)kVexp(ukvi),

其中,对于任意索引i,向量viui分别表示词wi作为中心词和上下文词,且V={0,1,,|V|1}是词表的索引集。

考虑词wi可能在语料库中出现多次。在整个语料库中,所有以wi为中心词的上下文词形成一个词索引的多重集Ci,该索引允许同一元素的多个实例。对于任何元素,其实例数称为其重数。举例说明,假设词wi在语料库中出现两次,并且在两个上下文窗口中以wi为其中心词的上下文词索引是k,j,m,kk,l,k,j。因此,多重集Ci={j,j,k,k,k,k,l,m},其中元素j,k,l,m的重数分别为2、4、1、1。

现在,让我们将多重集Ci中的元素j的重数表示为xij。这是词wj(作为上下文词)和词wi(作为中心词)在整个语料库的同一上下文窗口中的全局共现计数。使用这样的全局语料库统计,跳元模型的损失函数等价于:

(14.5.2)iVjVxijlogqij.

我们用xi表示上下文窗口中的所有上下文词的数量,其中wi作为它们的中心词出现,这相当于|Ci|。设pij为用于生成上下文词wj的条件概率xij/xi。给定中心词wi(14.5.2)可以重写为:

(14.5.3)iVxijVpijlogqij.

(14.5.3)中,jVpijlogqij计算全局语料统计的条件分布pij和模型预测的条件分布qij的交叉熵。如上所述,这一损失也按xi加权。在 (14.5.3)中最小化损失函数将使预测的条件分布接近全局语料库统计中的条件分布。

虽然交叉熵损失函数通常用于测量概率分布之间的距离,但在这里可能不是一个好的选择。一方面,正如我们在 14.2节中提到的,规范化qij的代价在于整个词表的求和,这在计算上可能非常昂贵。另一方面,来自大型语料库的大量罕见事件往往被交叉熵损失建模,从而赋予过多的权重。

14.5.2. GloVe模型

有鉴于此,GloVe模型基于平方损失 (Pennington et al., 2014)对跳元模型做了三个修改:

  1. 使用变量pij=xijqij=exp(ujvi) 而非概率分布,并取两者的对数。所以平方损失项是(logpijlogqij)2=(ujvilogxij)2

  2. 为每个词wi添加两个标量模型参数:中心词偏置bi和上下文词偏置ci

  3. 用权重函数h(xij)替换每个损失项的权重,其中h(x)[0,1]的间隔内递增。

整合代码,训练GloVe是为了尽量降低以下损失函数:

(14.5.4)iVjVh(xij)(ujvi+bi+cjlogxij)2.

对于权重函数,建议的选择是:当x<c(例如,c=100)时,h(x)=(x/c)α(例如α=0.75);否则h(x)=1。在这种情况下,由于h(0)=0,为了提高计算效率,可以省略任意xij=0的平方损失项。例如,当使用小批量随机梯度下降进行训练时,在每次迭代中,我们随机抽样一小批量非零xij来计算梯度并更新模型参数。注意,这些非零的xij是预先计算的全局语料库统计数据;因此,该模型GloVe被称为全局向量

应该强调的是,当词wi出现在词wj的上下文窗口时,词wj也出现在词wi的上下文窗口。因此,xij=xji。与拟合非对称条件概率pij的word2vec不同,GloVe拟合对称概率logxij。因此,在GloVe模型中,任意词的中心词向量和上下文词向量在数学上是等价的。但在实际应用中,由于初始值不同,同一个词经过训练后,在这两个向量中可能得到不同的值:GloVe将它们相加作为输出向量。

14.5.3. 从条件概率比值理解GloVe模型

我们也可以从另一个角度来理解GloVe模型。使用 14.5.1节中的相同符号,设pij=defP(wjwi)为生成上下文词wj的条件概率,给定wi作为语料库中的中心词。 tab_glove根据大量语料库的统计数据,列出了给定单词“ice”和“steam”的共现概率及其比值。

大型语料库中的词-词共现概率及其比值(根据 (Pennington et al., 2014)中的表1改编)

表14.5.1 label:tab_glove

wk=

solid

gas

water

fashion

p1=P(wkice)

0.00019

0.000066

0.003

0.000017

p2=P(wksteam)

0.000022

0.00078

0.0022

0.000018

p1/p2

8.9

0.085

1.36

0.96

tab_glove中,我们可以观察到以下几点:

  • 对于与“ice”相关但与“steam”无关的单词wk,例如wk=solid,我们预计会有更大的共现概率比值,例如8.9。

  • 对于与“steam”相关但与“ice”无关的单词wk,例如wk=gas,我们预计较小的共现概率比值,例如0.085。

  • 对于同时与“ice”和“steam”相关的单词wk,例如wk=water,我们预计其共现概率的比值接近1,例如1.36.

  • 对于与“ice”和“steam”都不相关的单词wk,例如wk=fashion,我们预计共现概率的比值接近1,例如0.96.

由此可见,共现概率的比值能够直观地表达词与词之间的关系。因此,我们可以设计三个词向量的函数来拟合这个比值。对于共现概率pij/pik的比值,其中wi是中心词,wjwk是上下文词,我们希望使用某个函数f来拟合该比值:

(14.5.5)f(uj,uk,vi)pijpik.

f的许多可能的设计中,我们只在以下几点中选择了一个合理的选择。因为共现概率的比值是标量,所以我们要求f是标量函数,例如f(uj,uk,vi)=f((ujuk)vi)。在 (14.5.5)中交换词索引jk,它必须保持f(x)f(x)=1,所以一种可能性是f(x)=exp(x),即:

(14.5.6)f(uj,uk,vi)=exp(ujvi)exp(ukvi)pijpik.

现在让我们选择exp(ujvi)αpij,其中α是常数。从pij=xij/xi开始,取两边的对数得到ujvilogα+logxijlogxi。我们可以使用附加的偏置项来拟合logα+logxi,如中心词偏置bi和上下文词偏置cj

(14.5.7)ujvi+bi+cjlogxij.

通过对 (14.5.7)的加权平方误差的度量,得到了 (14.5.4)的GloVe损失函数。

14.5.4. 小结

  • 诸如词-词共现计数的全局语料库统计可以来解释跳元模型。

  • 交叉熵损失可能不是衡量两种概率分布差异的好选择,特别是对于大型语料库。GloVe使用平方损失来拟合预先计算的全局语料库统计数据。

  • 对于GloVe中的任意词,中心词向量和上下文词向量在数学上是等价的。

  • GloVe可以从词-词共现概率的比率来解释。

14.5.5. 练习

  1. 如果词wiwj在同一上下文窗口中同时出现,我们如何使用它们在文本序列中的距离来重新设计计算条件概率pij的方法?提示:参见GloVe论文 (Pennington et al., 2014)的第4.2节。

  2. 对于任何一个词,它的中心词偏置和上下文偏置在数学上是等价的吗?为什么?