内容简介:Naive Bayes是一个概率分类器,也就是说,在文档d中,返回所有类别c中后验概率最大的类别$\hat{c}$:$$\hat{c}=\text{argmax}P(c\vert d)$$回顾一下贝叶斯法则:
Naive Bayes分类器
Naive Bayes是一个概率分类器,也就是说,在文档d中,返回所有类别c中后验概率最大的类别$\hat{c}$:
$$\hat{c}=\text{argmax}P(c\vert d)$$
回顾一下贝叶斯法则:
$$P(x\vert y)=\frac{P(y\vert x)P(x)}{P(y)}$$
它把任何 条件概率 转化成了三个概率。
其中,$P(y)$是 先验概率 或者 边缘概率 。
贝叶斯法则可以从条件概率的定义推导,过程如下:
$$P(A\vert B) = \frac{P(A\cap B)}{P(B)}$$
又,
$$P(A\vert B)P(B) = P(A\cap B) = P(B\vert A)P(A)$$
所以,
$$P(A\vert B) = \frac{P(B\vert A)P(A)}{P(B)}$$
上面第二个公式又叫做 概率乘法法则 。
回到之前的$\hat{c}$,那么此时有:
$$\hat{c}=\text{argmax}P(c\vert d)=\text{argmax}\frac{P(d\vert c)P(c)}{P(d)}$$
因为$P(d)$对于任何$c$都是一个不变的值,所以可以省去:
$$\hat{c}=\text{argmax}P(c\vert d)=\text{argmax}P(d\vert c)P(c)$$
上式,$P(d\vert c)$叫做 似然(likelihood) ,$P(c)$即 先验概率(prior probability) 。
此时,假设文档$d$由 n
个特征组成,则有:
$$\hat{c}=\text{argmax}\overbrace{P(f_1,f_2,\dots,f_n\vert c)}^{\text{likelihood}}\ \overbrace{P(c)}^{\text{prior}}$$
要计算上面的 似然 ,需要很多的参数和很大的训练集,这个很难实现。
朴素贝叶斯有两个假设:
- 位置无关
- $P(f_i\vert c)$条件独立,也称 朴素贝叶斯假设
所以上式可以简化为:
$$P(f_1,f_2,\dots,f_n\vert c)=P(f_1\vert c)P(f_2\vert c)\dots P(f_n\vert c)$$
即:
$$C_{NB}=\text{argmax}P(c)\prod_{f\in F}P(f\vert c)$$
词袋模型(bag of words)不考虑词语的位置,把词语出现的频次当做特征,于是有:
$$C_{NB}=\text{argmax}P(c)\prod_{i\in positions}P(w_i\vert c)$$
为了避免数值下溢和提高计算速度,通常使用对数形式:
$$c_{NB}=\text{argmax}\log{P(c)+\sum_{i\in positions}\log{P(w_i\vert c)}}$$
训练朴素贝叶斯分类器
为了知道$P(c)$和$P(f_i\vert c)$,我们还是使用 最大似然估计(MLE) 。
有:
$$\hat{P}(c)=\frac{N_c}{N_{doc}}$$
$$\hat{P}(w_i\vert c)=\frac{count(w_i,c)}{\sum_{w\in V}count(w,c)}$$
为了避免某个概率值为0,我们使用 拉普拉斯平滑(Laplace smooth or add-one smooth) :
$$\hat{P}(w_i\vert c)=\frac{count(w_i,c)+1}{\sum_{w\in V}(count(w,c)+1)}=\frac{count(w_i,c)+1}{(\sum_{w\in V}count(w,c))+\vert V\vert}$$
对于 unknown word 怎么处理呢?答案是: 直接从测试数据集中移除这些词,不计算概率 !
评估
TODO
Precision
Recall
F-measure
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 利用AllenNLP,百行Python代码训练情感分类器
- 深度学习在金融文本情感分类中的应用
- AI Challenger 2018:细粒度用户评论情感分类冠军思路总结
- 中文金融领域情感词典构建
- 用NodeJS进行Twitter情感分析
- python snownlp情感分析简易demo
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
算法设计与实验题解
王晓东 / 电子工业 / 2006-9 / 46.00元
《算法设计与实验题解》是与普通高等教育“十一五”国家级规划教材《计算机算法设计与分析》(第2版)配套的辅助教材,对主教材中的全部习题做了解答或给出了解题思路提示,并对主教材的内容进行了扩展,有些主教材中无法讲述的较深入的主题以习题的形式展现出来。为了提高学生解决实际问题的能力,《算法设计与实验题解》还将主教材中的许多习题改造成算法实现题,要求学生设计出算法并上机实现。作者还结合精品课程建设,进行了......一起来看看 《算法设计与实验题解》 这本书的介绍吧!