数学符号

数与数组

α  标量

α  向量

A  矩阵

A  张量

In  nn列单位矩阵

vw  词w的分布式向量表示

ew  词w的独热向量表示:[0,0,···,1,0,···,0],w下标处元素为1

索引

αi  向量α中索引i处的元素

α-i  向量α中除索引i之外的元素

wij  序列w中从第i个元素到第j个元素组成的片段或子序列

Aij  矩阵A中第i行、第j列的元素

Ai  矩阵A中第i

Aj  矩阵A中第j

Aijk  三维张量 A中索引为(i,j,k)的元素

A::i  三维张量 A中的一个二维切片

集合

A  集合

R  实数集

C  复数集

{0,1,···,n}  含0和n的正整数的集合

[a,b]  ab的实数闭区间

a,b]  ab的实数左开右闭区间

线性代数

A  矩阵A的转置

AB  矩阵A与矩阵B的Hadamard乘积

det(A)  矩阵A的行列式

[x;y]  向量xy的拼接

[U;V]  矩阵UV沿行向量拼接

x·yxy  向量xy的点积

微积分

  yx的导数

  yx的偏导数

xy  y对向量x的梯度

Xy  y对矩阵X的梯度

Xy  y对张量 X的梯度

概率与信息论

ab  随机变量ab独立

ab|c  随机变量ab关于c条件独立

P (a)  离散变量概率分布

p(a)  连续变量概率分布

a~P  随机变量a服从分布P

ExPfx))或E(fx))  fx)在分布Px)下的期望

Var(f(x))  fx)在分布Px)下的方差

Cov(f(x),g(x))  fx)与gx)在分布Px)下的协方差

H (f(x))  随机变量x的信息熵

DKL(PQ)  概率分布PQ的KL散度

N(μ,Σ)  均值为μ、协方差为Σ的高斯分布

数据与概率分布

X或D  数据集

x(i)  数据集中第i个样本(输入)

yiyi  第i个样本xi的标签(输出)

函数

f:A-→B  由定义域A到值域B的函数(映射)f

fg  fg的复合函数

f (x;θ)  由参数θ定义的关于x的函数(也可以直接写作fx),省略θ

log x  x的自然对数函数

σ(x)  Sigmoid函数

||x||p  xLp范数

||x||  xL2范数

1condition  条件指示函数:如果condition为真,则值为1;否则值为0

本书中常用写法

• 给定词表V,其大小为|V|

• 序列x=x1x2,···,xn中第i个词xi的词向量为

• 损失函数L为负对数似然函数:Lθ)=-∑x,ylog Py|x1···xn

• 算法的空间复杂度为Omn