2019 CS224N Assignment 2: word2vec

文章目录

Written: Understanding word2vec
Coding: Implementing word2vec

Written: Understanding word2vec

注：下面的答案中，各向量和矩阵的形式按照题目中所说。 $U 和 V$ 都是词向量矩阵，列向量为单词对应的词向量，同样 $v_c、u_o、u_w$ 等都是列向量。 $y$ 为 one-hot的行向量， $\hat y$ 表示softmax之后的结果，也为行向量， $\hat y$ 长度都为词表大小。

(a) 因为 $\boldsymbol{y}$ 是一个 one-hot 向量，只有词 $o$ 的概率为 1, 即只有 $y_i = 1$ ，i=o 时。因此证明如下

$\begin{aligned} - \sum_{w\in Vocab}y_w\log(\hat{y}_w) &= - [y_1\log(\hat{y}_1) + \cdots + y_o\log(\hat{y}_o) + \cdots + y_w\log(\hat{y}_w)] \\ & = - y_o\log(\hat{y}_o) \\ & = -\log(\hat{y}_o)\\ & = -\log \mathrm{P}(O = o | C = c) \end{aligned}$

(b)
$\begin{aligned} \frac{\partial J}{\partial v_c} =& - \frac{\partial \log p(O=o|C = c)}{\partial v_c}\\ =&-\frac{\partial \log exp(u_o^Tv_c)}{\partial v_c}+ \frac{\partial (\log \sum_{w \in Vocab}exp(u_w^Tv_c))}{\partial v_c}\\ =&- \frac{\partial u_o^Tv_c}{\partial v_c}+\frac{\sum_{w \in Vocab}\frac{\partial exp(u_w^Tv_c)}{\partial v_c}}{\sum_{w \in Vocab}exp(u_w^Tv_c)}\\ =& -u_0 + \frac{\sum_{x \in Vocab}exp(u_x^Tv_c)}{\sum_{w \in Vocab}exp(u_w^Tv_c)}u_x\\ =& -u_0 + \sum_{x \in Vocab} \frac{exp(u_x^Tv_c)}{\sum_{w \in Vocab}exp(u_w^Tv_c)}u_x\\ =& -u_0 + \sum_{x \in Vocab} p(O=x|C=c)u_x\\ =& - Uy^T + U \hat y^T\\ =& U(\hat y - y)^T\\ \end{aligned}$
注： $\sum_{x \in Vocab} p(O=x|C=c)u_x$ 表示对向量集 $u_x$ 的一个线性组合，权重为 $p (O = x ∣ C = c)$ ，将其转化成矩阵形式即为 $\hat y^T$ 。同样 $Uy^T$ 中 $y$ 为 one-hot 向量，只有 $v_o$ 处为1，因此 $Uy^T$ 表示将 $u_o$ 从 $U$ 中取出来。不熟悉矩阵运算的同学可以详细写出来，自己判断判断。可以直观判断求得梯度的维度应该与 $v_c$ 的维度相同，即为列向量 embedding × 1， $U(\hat y - y)^T$ 维度为 $embedding × vocab_{size}) * (vocab_{size} × 1) = embedding × 1$

(c)
$\begin{aligned} \frac{\partial J}{\partial u_w} =& - \frac{\partial \log p(O=o|C = c)}{\partial u_w} \\ =& -\frac{\partial \log exp(u_o^Tv_c)}{\partial u_w} + \frac{\partial (\log \sum_{w \in Vocab}exp(u_w^Tv_c))}{\partial u_w}\\ \end{aligned}$
当 $w = o$ 时，
$\begin{aligned} =& -\frac{\partial \log exp(u_o^Tv_c)}{\partial u_o} + \frac{\partial (\log \sum_{w \in Vocab}exp(u_w^Tv_c))}{\partial u_o}\\ =& -v_c + \frac{1}{\sum_{w \in Vocab}exp(u_w^Tv_c)} *exp(u_o^Tv_c)*v_c\\ =& -v_c + p(O=o|C=c)*v_c\\ =& (p(O=o|C=c)-1)v_c \end{aligned}$
当 $w! = o$ 时，
$\begin{aligned} =& -\frac{\partial \log exp(u_o^Tv_c)}{\partial u_w} + \frac{\partial (\log \sum_{w \in Vocab}exp(u_w^Tv_c))}{\partial u_w}\\ =& \frac{1}{\sum_{w \in Vocab}exp(u_w^Tv_c)} *exp(u_w^Tv_c)*v_c\\ =& p(O=w|C=c)*v_c \end{aligned}$
因此，单词 $u_o$ 的梯度为 $p(O=o|C=c)-1)v_c$ ，其余单词 $u_w \, (w\in Vocab 且 w!=o)$ 的梯度为 $p(O=w|C=c)*v_c$ ，将两者合并起来得到：
$\begin{aligned} \frac{\partial J}{\partial U} =& - \frac{\partial \log p(O=o|C = c)}{\partial U} \\ =& v_c(\hat y - y) \end{aligned}$
可以检验结果的维度与 $U$ 的维度相同。

(d)
$\begin{aligned} \frac{\partial \sigma(x)}{\partial x} =& -\frac{\partial \frac{1}{e^x+1}}{\partial x}\\ =& \frac{e^x}{(e^x+1)^2}\\ =& \sigma (x)(1- \sigma(x)) \end{aligned}$

(e)

对 $v_c$ 求导
$\begin{aligned} \frac{\partial J}{\partial v_c} =& -\frac{1}{\sigma(u_o^Tv_c)}\sigma(u_o^Tv_c)(1-\sigma(u_o^Tv_c))u_o - \sum_{k=1}^K(\frac{1}{\sigma(-u_k^Tv_c)}\sigma(-u_k^Tv_c)(1-\sigma(-u_k^Tv_c))*(-u_k))\\ =& -(1-\sigma(u_o^Tv_c))u_o + \sum_{k=1}^K((1-\sigma(-u_k^Tv_c))u_k))\\ \end{aligned}$
可以看出 $v_c$ 的梯度是 $u_o$ 和 $u_k$ 的线性组合，系数分别为用1减去自己词向量与 $v_c$ 词向量求内积之后经过sigmoid函数的值。
对 $u_o$ 求导
$\begin{aligned} \frac{\partial J}{\partial u_o} =& -\frac{1}{\sigma(u_o^Tv_c)}\sigma(u_o^Tv_c)(1-\sigma(u_o^Tv_c))v_c \\ =& -(1-\sigma(u_o^Tv_c))v_c \\ \end{aligned}$
$u_o$ 的梯度只与自己和 $v_c$ 的词向量有关
对 $u_i \, (i \in \{1,2,3,···,K\})$ 求导
$\begin{aligned} \frac{\partial J}{\partial u_i} =& -\frac{1}{\sigma(-u_i^Tv_c)}\sigma(-u_i^Tv_c)(1-\sigma(-u_i^Tv_c))*(-v_c)\\ =& (1-\sigma(-u_i^Tv_c))v_c)\\ \end{aligned}$
同样，负样例 $u_i$ 的梯度也只与自身和 $v_c$ 有关。区别仅在于词向量之前是否加了符号。

根据(b)(c)可知，使用naive-softmax时，计算 $v_c$ 和 $u_o$ 的梯度时，都需要进行矩阵乘法，所有词向量参与运算，当然前向传播计算loss时，同样需要全体词向量参与运算。而根据(e)可知，使用 neg-sample时，需要的计算量少。
(f)

(i)
$\begin{aligned} \frac{\partial J_{skip-gram}(v_c,w_{t-m},···,w_{t+m},U)}{\partial U} =& \sum_{-m<j<m,j\ne 0}\frac{\partial J(v_c,w_{t+j},U)}{\partial U}\\ \end{aligned}$
(ii)
$\begin{aligned} \frac{\partial J_{skip-gram}(v_c,w_{t-m},···,w_{t+m},U)}{\partial v_c} =& \sum_{-m<j<m,j\ne 0}\frac{\partial J(v_c,w_{t+j},U)}{\partial v_c}\\ \end{aligned}$
(iii)
$\begin{aligned} \frac{\partial J_{skip-gram}(v_c,w_{t-m},···,w_{t+m},U)}{\partial v_w} =0 \quad (w \ne c)\\ \end{aligned}$

Coding: Implementing word2vec

完整代码见我的GitHub
建立环境，由于下载缓慢导致失败，我在env.yml 文件中添加了清华的源。
在这里插入图片描述
(a) 完成word2vec.py 中的 sigmoid, softmax and negative sampling loss and gradient 和 skip-gram model

sigmoid: $\frac{1}{1+ e^{-x}}$
因此代码为：s = 1/(1+np.exp(-x))
naiveSoftmaxLossAndGradient:
- 代码中的词向量为行向量， $U 和 V$ 也都是组织成行向量的形式，与我们上面题中所规定的形式不同，只需转置即可。
- numpy.array([1,2,3])是一个行向量，shape = (3,)具体来说退化成一个数组，他是可以看做一个行向量或者列向量，具体要看他是在矩阵乘法的左边还是右边，见博客：https://blog.csdn.net/alxe_made/article/details/80492649
- 按照前面求出的公式，只要把维度搞正确就可以了

    op = np.dot(centerWordVec,np.transpose(outsideVectors)) #(embedding,) × (embedding,n)=(,n)
    y_hat = softmax(op) #row vector (n,)
    delta = y_hat.copy() 
    delta[outsideWordIdx] -= 1  # y_hat - y
    loss = - np.log(y_hat[outsideWordIdx])
    gradCenterVec = np.dot(delta,outsideVectors) #row vector
    gradOutsideVecs = np.dot(delta[:, np.newaxis], centerWordVec[np.newaxis, :]) #np.newaxis add one dimension
    ### END YOUR CODE

    return loss, gradCenterVec, gradOutsideVecsp.newaxis], centerWordVec[np.newaxis, :])

negSamplingLossAndGradient:
- 依旧需要注意词向量是行向量
- 若多个负样例为同一个词，则改词的梯度是这几个负样例梯度的和
- 此处参考了别人的实现
- np.outer(a,b)：用于求外积
- numpy数组和矩阵的区别

    ### YOUR CODE HERE
    gradCenterVec = np.zeros(centerWordVec.shape)
    gradOutsideVecs = np.zeros(outsideVectors.shape) 
    loss = 0.0
    z = sigmoid(np.dot(outsideVectors[outsideWordIdx],centerWordVec)) #(embedding,) × (embedding,)
    loss = -np.log(z)
    gradCenterVec += (z-1.0)*outsideVectors[outsideWordIdx]
    gradOutsideVecs[outsideWordIdx] += (z-1.0)*centerWordVec
    #使用向量化实现
    u_k = outsideVectors[negSampleWordIndices] #将所负样例的词向量取出来
    z = sigmoid(-np.dot(u_k,centerWordVec)) #(k,)
    loss += np.sum(-np.log(z))
    gradCenterVec += np.dot((1.0-z),u_k)  #(k,) × (k,embedding) = (embedding,)
    for i, negSampleWordIdx in enumerate(negSampleWordIndices): #注意相同的负例都要计算
        gradOutsideVecs[negSampleWordIdx] += (1.0 - z[i]) * centerWordVec
    ### END YOUR CODE
    return loss, gradCenterVec, gradOutsideVecs

skipgram
- 一个窗口有很多个context word，所以要调用我们实现的函数多遍，求loss和梯度之和。

    ### YOUR CODE HERE
    centerWordVec = centerWordVectors[word2Ind[currentCenterWord]]
    for word in outsideWords:
        idx = word2Ind[word]
        l,v_c,U = word2vecLossAndGradient(centerWordVec,idx,outsideVectors,dataset)
        loss+=l
        gradCenterVecs[word2Ind[currentCenterWord]] += v_c
        gradOutsideVectors+=U
    ### END YOUR CODE
    return loss, gradCenterVecs, gradOutsideVectors

(b) sgd.py
较简单，加入下面代码即可

### YOUR CODE HERE
loss,gradient = f(x)
x -= step*gradient
### END YOUR CODE

(c)

这部分不需要代码，需要下载stanfordSentimentTreebank.zip，下载较慢，我在网上找了一份。若需要请从我github中取。在 util/dataset 目录下
运行run.py开始训练，由于使用的是SGD，因此loss有时候会涨。但最终的趋势是在减小的。需要运行较长时间
由于训练数据太少，因此效果不是非常好，但很明显可以看到，有些词已经开始距离较近了。比如coffee和tea，还有female和woman，以及(0.00, -0.04)周围的形容词。