Jun 7, 2017

CS229 学习笔记 Part 2

对于一个分类任务，判别式和生成式分别代表了两种不同的思路：

通过直接从输入数据中学习，得到一个『特定输入对应的实际类别』的概率模型，模型的参数为 $\theta$ 。即学习建模 $p(y\mid x)$

通过对每一个类进行建模，然后就可以通过条件概率算出输入的数据更可能由哪一类生成。即学习建模 $p(x\mid y)$ 和 $p(y)$ ，然后计算 $$\arg\max\limits_y\frac{p(x \mid y)p(y)}{p(x)}$$

并且实际计算中，分母 $p(x)$ 并不会影响各个类别概率的排序，所以最终简化成 $$\arg\max\limits_y p(x \mid y)p(y)$$

作为生成式模型的第一个例子，它假设数据的分布 $p(x\mid y)$ 是多元高斯分布 (multivariate normal distribution)，分类结果为二分类，即 $y \sim \mathrm{Bernoulli}(\phi)$。

根据生成式模型的思路，它通过训练数据，计算出两个类的隐含分布——多元高斯分布的参数 $\mu_0, \mu_1,\Sigma$ （需要注意的是，这里对于两个多元正态分布的 $\Sigma$，我们使用的是一个公共的参数，也就是我们假设两个分布的『形状』是一样的），以及对于分类结果的伯努利分布参数 $\phi$

根据定义，我们可以得到以下模型

$$p(y) = \phi^y(1-\phi)^{1-y}$$

$$p(x\mid y=0) = \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/ 2}} \exp\left(-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)\right)$$

$$p(x\mid y=1) = \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/ 2}} \exp\left(-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)\right)$$

接下来开始估计各个参数的值。我们使用一个新的似然函数 Joint likelihood

$$\ell(\phi, \mu_0, \mu_1, \Sigma) = log \prod^m_{i=1} p(x^{(i)}, y^{(i)}; \phi, \mu_0, \mu_1, \Sigma)$$

$$\phantom{ \ell(\phi, \mu_0, \mu_1, \Sigma)} = log \prod^m_{i=1} p(x^{(i)}\mid y^{(i)}; \mu_0, \mu_1, \Sigma)p(y^{(i)};\phi)$$

通过最大化此似然函数，我们能够得到以上几个参数的估计值

$$\phi = \frac{1}{m}\sum^m_{i=1}1{y^{(i)}=1}$$

$$\mu_0 = \frac{\sum^m_{i=1}1{y^{(i)} = 0}x^{(i)}}{\sum^m_{i=1}1{y^{(i)} = 0}}$$

$$\mu_1 = \frac{\sum^m_{i=1}1{y^{(i)} = 1}x^{(i)}}{\sum^m_{i=1}1{y^{(i)} = 1}}$$

$$\Sigma = \frac{1}{m}\sum^m_{i=1}(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^T$$

而 GDA 的判别公式则是作为作业的一部分自行完成。

GDA 的判别公式能够化为以下形式 $$p(y=1\mid x;\phi, \Sigma, \mu_0, \mu_1) = \frac{1}{1+\exp(-\theta^Tx)}$$

也就是 Logistic 回归的形式。（这个公式转化的具体过程是课后习题的一部分）

其中 $\theta$ 是关于 $\phi,\Sigma,\mu_0,\mu_1$ 的函数。那么 GDA 和 Logistic 回归（下称 LR）的区别在哪里呢？

假设 $p(x\mid y)$ 满足多元高斯分布，那么 $p(y\mid x)$ 能够写成 logistic 函数的形式。但是，反之并不成立。$p(y\mid x)$ 能够写成 logistic 函数的形式并不意味着 $p(x\mid y)$ 符合多元高斯分布。这说明，GDA 做出了一个更强的假设 (stronger modeling assumption)。

并且，当这个假设符合现实（ $p(x\mid y)$ 符合多元高斯分布），并且在训练集足够大的情况下，没有其他算法优于 GDA1。而且通常来说，对于一个较小的训练集，我们通常会觉得 GDA 会表现的更好。

反过来说，对于使用了较弱假设的 LR，它拥有更强的鲁棒性，对于错误的模型假设也更不敏感。对 $p(x\mid y)$ 分布的假设，有很多种情况能够使得 $p(y\mid x)$ 可以化为 Logistic 函数的形式。比如说，$x \mid y = 0$ 和 $x \mid y = 1$ 分别符合两个独立的泊松分布时既是如此。

对于一个文本分类问题，使用50000个词的简化词袋模型时，我们的目标是对 $p(x_1,\cdots,x_{50000}\mid y)$ 构建出最准确的模型。

$$p(x_1,\cdots,x_{50000}\mid y)$$

$$ = p(x_1\mid y)p(x_2\mid y,x_1)p(x_3\mid y,x_1,x_2)\cdots p(x_{50000}\mid y,x_1,x_2,\cdots,x_{49999})$$

此时的式子称为贝叶斯分类器。而朴素贝叶斯和贝叶斯的区别在于哪里呢？关键就在于以下假设：

朴素贝叶斯假设：假设 $x_i$ 条件独立于 $y_i$

则原概率公式

$$ = p(x_1\mid y)p(x_2\mid y)p(x_3\mid y)\cdots p(x_{50000}\mid y)$$

此时的式子就称为朴素贝叶斯分类器了。虽然朴素贝叶斯假设是一个很强的假设 (strong assumption)，但是它出人意料的在很多问题上都表现的不错。使用朴素贝叶斯概率公式，则词袋中的每个词，对于每种文本分类都属于一个独立参数的伯努利分布。即此例子中，词袋大小50000，2种文本分类，于是共有 100,000 个伯努利分布参数需要估计，以及一个对于类别 y 的伯努利分布参数 $\phi_y$。

我们使用 Joint likelihood 作为目标函数

$$ \mathcal{L}(\phi_y, \phi_{j\mid y=0}, \phi_{j\mid y=1}) = \prod^m_{i=1}p(x^{(i)}, y^{(i)})$$

最大化似然函数得到各个参数的估计

$$j \in {1,2,\cdots,50000}$$

$$ \phi_{j\mid y=1} = \frac{\sum^m_{i=1}\operatorname{1}{x_j^{(i)} = 1 \wedge y^{(i)} = 1 }}{\sum^m_{i=1}\operatorname{1}{ y^{(i)} = 1 }} $$

$$\phi_{j\mid y=0} = \frac{\sum^m_{i=1}\operatorname{1}{x_j^{(i)} = 1 \wedge y^{(i)} = 0 }}{\sum^m_{i=1}\operatorname{1}{ y^{(i)} = 0 }}$$

$$\phi_y = \frac{\sum^m_{i=1}\operatorname{1}{ y^{(i)} = 1 }}{m}$$

朴素贝叶斯的判别公式如下：

$$p(y=1\mid x) = \frac{p(x\mid y =1)p(y=1)}{p(x)}$$

$$ = \frac{(\prod^n_{i=1}p(x_i|y=1))p(y=1)}{(\prod^n_{i=1}p(x_i|y=1))p(y=1)+(\prod^n_{i=1}p(x_i|y=0))p(y=0)}$$

最后，我们能够很容易的想到，可以将 $x_i$ 的取值从二值变为多值，就成为了这个算法的泛化。为了做到这一点，我们只需要将对 $p(x_i\mid y)$ 假设的伯努利分布，替换成多项式分布即可。如果原始属性是连续值，我们也可以通过分段的办法，将他离散化。之后，就可以仿照我们上述的过程来使用朴素贝叶斯算法了。当原始的连续属性使用多元正态分布不能很好的建模时，将他离散化后使用朴素贝叶斯通常能取得更好的效果。

上述标准的朴素贝叶斯通常情况下效果都很好，但是在一些特殊情况下会出现奇怪的情况。比如说，当你的分类器遇到了一个从来没有见过的词（不存在于训练数据中）的时候，对于这个词两个类别的概率都会等于零，并且由于累乘的结果，会使得整个输出都变为零。这显然不合理，所以这就是拉普拉斯平滑要解决的事情。

原理很简单，我们对于一个多项式分布输入的类别概率计算公式如下

$$p(z=j) = \phi_j = \frac{\sum^m_{i=1} \operatorname{1}{z^{(i)}=j}}{m}$$

我们想要让这个式子不等于零，很直觉的办法是在分子上加上一个很小的数。所以我们在分子上加一个 1。但是这还不够，我们需要让多项式分布的各个类整体概率和仍然为 1，即 $\sum^k_{j=1}\phi_j = 1$ 。所以我们分母也需要稍作改动，最终我们得到 $$p(z=j) = \phi_j = \frac{\sum^m_{i=1} \operatorname{1}{z^{(i)}=j}+1}{m+k}$$

读者可以自己验算 $\sum^k_{j=1}\phi_j = 1$

之前的模型我们称为『多变量伯努利分布事件模型』2，而对于文本分类的任务，接下来这个模型通常能够取得更好的效果，称为『多项式分布事件模型』3。

在这个模型中，一个由 n 个词组成的文本段将化为一个 n 维向量，每一维符合都一个相同的多项式分布，多项式分布一个选项对应一个特定的词。比如一个电子邮件内容为『快来购买……』，在多项式分布中，快来对应的类别编号为33，购买的类别编号为580，则形成的输入向量就是 [33, 580, …]

文本段中每一个词的分布都来自同一个多项式分布，需要注意的是，词在文中的位置并不影响他的取值分布。

则似然函数定义如下 $$\mathcal{L}(\phi, \phi_{k\mid y=0}, \phi_{k\mid y=1}) = \prod^m_{i=1}p(x^{(i)}，y^{(i)})$$

$$= \prod^m_{i=1}\left( \prod^{n_i}_{j=1}p(x_j^{(i)}\mid y;\phi_{k\mid y=0},\phi_{k\mid y=1}) \right)p(y^{(i)};\phi_y)$$

最大化似然函数得到参数估计

$$\phi_{k\mid y=1} = \frac{\sum^m_{i=1}\sum^{n_i}_{j=1} \operatorname{1}{x_j^{(i)} = k\wedge y^{(i)} = 1 } }{\sum^m_{i=1} \operatorname{1}{ y^{(i)} = 1} n_i}$$

$$\phi_{k\mid y=0} = \frac{\sum^m_{i=1}\sum^{n_i}_{j=1} \operatorname{1}{x_j^{(i)} = k\wedge y^{(i)} = 0 } }{\sum^m_{i=1} \operatorname{1}{ y^{(i)} = 0} n_i}$$

$$\phi_y = \frac{\sum^m_{i=1}\operatorname{1}{y^{(i)} = 1}}{m}$$

多项式分布事件模型和之前的模型的不同点在于，新模型除了统计某一个词是否出现，还考虑了某一个词出现的次数。