机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

2017年11月7日23:44:34 93 37,001 °C
摘要

上篇文章机器学习实战教程(四):朴素贝叶斯基础篇之言论过滤器讲解了朴素贝叶斯的基础知识。本篇文章将在此基础上进行扩展,你将看到以下内容:拉普拉斯平滑、垃圾邮件过滤(Python3)、新浪新闻分类(sklearn)

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

一、前言

上篇文章机器学习实战教程(四):朴素贝叶斯基础篇之言论过滤器讲解了朴素贝叶斯的基础知识。本篇文章将在此基础上进行扩展,你将看到以下内容:

  • 拉普拉斯平滑
  • 垃圾邮件过滤(Python3)
  • 新浪新闻分类(sklearn)

二、朴素贝叶斯改进之拉普拉斯平滑

上篇文章提到过,算法存在一定的问题,需要进行改进。那么需要改进的地方在哪里呢?利用贝叶斯分类器对文档进行分类时,要计算多个概率的乘积以获得文档属于某个类别的概率,即计算p(w0|1)p(w1|1)p(w2|1)。如果其中有一个概率值为0,那么最后的成绩也为0。我们拿出上一篇文章的截图。

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

从上图可以看出,在计算的时候已经出现了概率为0的情况。如果新实例文本,包含这种概率为0的分词,那么最终的文本属于某个类别的概率也就是0了。显然,这样是不合理的,为了降低这种影响,可以将所有词的出现数初始化为1,并将分母初始化为2。这种做法就叫做拉普拉斯平滑(Laplace Smoothing)又被称为加1平滑,是比较常用的平滑方法,它就是为了解决0概率问题。

除此之外,另外一个遇到的问题就是下溢出,这是由于太多很小的数相乘造成的。学过数学的人都知道,两个小数相乘,越乘越小,这样就造成了下溢出。在程序中,在相应小数位置进行四舍五入,计算结果可能就变成0了。为了解决这个问题,对乘积结果取自然对数。通过求对数可以避免下溢出或者浮点数舍入导致的错误。同时,采用自然对数进行处理不会有任何损失。下图给出函数f(x)和ln(f(x))的曲线。

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

检查这两条曲线,就会发现它们在相同区域内同时增加或者减少,并且在相同点上取到极值。它们的取值虽然不同,但不影响最终结果。因此我们可以对上篇文章的trainNB0(trainMatrix, trainCategory)函数进行更改,修改如下:

运行代码,就可以得到如下结果:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

瞧,这样我们得到的结果就没有问题了,不存在0概率。当然除此之外,我们还需要对代码进行修改classifyNB(vec2Classify, p0Vec, p1Vec, pClass1)函数,修改如下:

为啥这么改?因为取自然对数了。logab = loga + logb。

这样,我们的朴素贝叶斯分类器就改进完毕了。

三、朴素贝叶斯之过滤垃圾邮件

在上篇文章那个简单的例子中,我们引入了字符串列表。使用朴素贝叶斯解决一些现实生活中的问题时,需要先从文本内容得到字符串列表,然后生成词向量。下面这个例子中,我们将了解朴素贝叶斯的一个最著名的应用:电子邮件垃圾过滤。首先看一下使用朴素贝叶斯对电子邮件进行分类的步骤:

  • 收集数据:提供文本文件。
  • 准备数据:将文本文件解析成词条向量。
  • 分析数据:检查词条确保解析的正确性。
  • 训练算法:使用我们之前建立的trainNB0()函数。
  • 测试算法:使用classifyNB(),并构建一个新的测试函数来计算文档集的错误率。
  • 使用算法:构建一个完整的程序对一组文档进行分类,将错分的文档输出到屏幕上。

1、收集数据

数据我已经为大家准备好了,可以在我的Github上下载: 

有两个文件夹ham和spam,spam文件下的txt文件为垃圾邮件。

2、准备数据

对于英文文本,我们可以以非字母、非数字作为符号进行切分,使用split函数即可。编写代码如下:

这样我们就得到了词汇表,结果如下图所示:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

根据词汇表,我们就可以将每个文本向量化。我们将数据集分为训练集和测试集,使用交叉验证的方式测试朴素贝叶斯分类器的准确性。编写代码如下:

运行结果如下:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

函数spamTest()会输出在10封随机选择的电子邮件上的分类错误概率。既然这些电子邮件是随机选择的,所以每次的输出结果可能有些差别。如果发现错误的话,函数会输出错误的文档的此表,这样就可以了解到底是哪篇文档发生了错误。如果想要更好地估计错误率,那么就应该将上述过程重复多次,比如说10次,然后求平均值。相比之下,将垃圾邮件误判为正常邮件要比将正常邮件归为垃圾邮件好。为了避免错误,有多种方式可以用来修正分类器,这些内容会在后续文章中进行讨论。

这部分代码获取:

四、朴素贝叶斯之新浪新闻分类(Sklearn)

1、中文语句切分

考虑一个问题,英文的语句可以通过非字母和非数字进行切分,但是汉语句子呢?就比如我打的这一堆字,该如何进行切分呢?我们自己写个规则?

幸运地是,这部分的工作不需要我们自己做了,可以直接使用第三方分词组件,即jieba,没错就是"结巴"。

jieba已经兼容Python2和Python3,使用如下指令直接安装即可:

Python中文分词组件使用简单:

新闻分类数据集我也已经准备好,可以到我的Github进行下载:

数据集已经做好分类,分文件夹保存,分类结果如下:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

数据集已经准备好,接下来,让我们直接进入正题。切分中文语句,编写如下代码:

代码运行结果如下所示,可以看到,我们已经顺利将每个文本进行切分,并进行了类别标记。

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

2、文本特征选择

我们将所有文本分成训练集和测试集,并对训练集中的所有单词进行词频统计,并按降序排序。也就是将出现次数多的词语在前,出现次数少的词语在后进行排序。编写代码如下:

all_words_list就是将所有训练集的切分结果通过词频降序排列构成的单词合集。观察一下打印结果,不难发现,这里包含了很多标点符号,很显然,这些标点符号是不能作为新闻分类的特征的。总不能说,应为这个文章逗号多,所以它是xx类新闻吧?为了降低这些高频的符号对分类结果的影响,我们应该怎么做呢?答曰:抛弃他们! 除了这些,还有"在","了"这样对新闻分类无关痛痒的词。并且还有一些数字,数字显然也不能作为分类新闻的特征。所以要消除它们对分类结果的影响,我们可以定制一个规则。

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

一个简单的规则可以这样制定:首先去掉高频词,至于去掉多少个高频词,我们可以通过观察去掉高频词个数和最终检测准确率的关系来确定。除此之外,去除数字,不把数字作为分类特征。同时,去除一些特定的词语,比如:"的","一","在","不","当然","怎么"这类的对新闻分类无影响的介词、代词、连词。怎么去除这些词呢?可以使用已经整理好的stopwords_cn.txt文本。下载地址:

这个文件是这个样子的:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

所以我们可以根据这个文档,将这些单词去除,不作为分类的特征。我们先去除前100个高频词汇,然后编写代码如下:

运行结果如下:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

可以看到,我们已经滤除了那些没有用的词组,这个feature_words就是我们最终选出的用于新闻分类的特征。随后,我们就可以根据feature_words,将文本向量化,然后用于训练朴素贝叶斯分类器。这个向量化的思想和第三章的思想一致,因此不再累述。

3、使用Sklearn构建朴素贝叶斯分类器

数据已经处理好了,接下来就可以使用sklearn构建朴素贝叶斯分类器了。

官方英文文档地址:

朴素贝叶斯是一类比较简单的算法,scikit-learn中朴素贝叶斯类库的使用也比较简单。相对于决策树,KNN之类的算法,朴素贝叶斯需要关注的参数是比较少的,这样也比较容易掌握。在scikit-learn中,一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB,MultinomialNB和BernoulliNB。其中GaussianNB就是先验为高斯分布的朴素贝叶斯,MultinomialNB就是先验为多项式分布的朴素贝叶斯,而BernoulliNB就是先验为伯努利分布的朴素贝叶斯。上篇文章讲解的先验概率模型就是先验概率为多项式分布的朴素贝叶斯。

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

对于新闻分类,属于多分类问题。我们可以使用MultinamialNB()完成我们的新闻分类问题。另外两个函数的使用暂且不再进行扩展,可以自行学习。MultinomialNB假设特征的先验概率为多项式分布,即如下式:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

其中, P(Xj = Xjl | Y = Ck)是第k个类别的第j维特征的第l个取值条件概率。mk是训练集中输出为第k类的样本个数。λ为一个大于0的常数,常常取值为1,即拉普拉斯平滑,也可以取其他值。

接下来,我们看下MultinamialNB这个函数,只有3个参数:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

参数说明如下:

  • alpha:浮点型可选参数,默认为1.0,其实就是添加拉普拉斯平滑,即为上述公式中的λ ,如果这个参数设置为0,就是不添加平滑;
  • fit_prior:布尔型可选参数,默认为True。布尔参数fit_prior表示是否要考虑先验概率,如果是false,则所有的样本类别输出都有相同的类别先验概率。否则可以自己用第三个参数class_prior输入先验概率,或者不输入第三个参数class_prior让MultinomialNB自己从训练集样本来计算先验概率,此时的先验概率为P(Y=Ck)=mk/m。其中m为训练集样本总数量,mk为输出为第k类别的训练集样本数。
  • class_prior:可选参数,默认为None。

总结如下:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

除此之外,MultinamialNB也有一些方法供我们使用:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

MultinomialNB一个重要的功能是有partial_fit方法,这个方法的一般用在如果训练集数据量非常大,一次不能全部载入内存的时候。这时我们可以把训练集分成若干等分,重复调用partial_fit来一步步的学习训练集,非常方便。GaussianNB和BernoulliNB也有类似的功能。 在使用MultinomialNB的fit方法或者partial_fit方法拟合数据后,我们可以进行预测。此时预测有三种方法,包括predict,predict_log_proba和predict_proba。predict方法就是我们最常用的预测方法,直接给出测试集的预测类别输出。predict_proba则不同,它会给出测试集样本在各个类别上预测的概率。容易理解,predict_proba预测出的各个类别概率里的最大值对应的类别,也就是predict方法得到类别。predict_log_proba和predict_proba类似,它会给出测试集样本在各个类别上预测的概率的一个对数转化。转化后predict_log_proba预测出的各个类别对数概率里的最大值对应的类别,也就是predict方法得到类别。具体细节不再讲解,可参照官网手册。

了解了这些,我们就可以编写代码,通过观察取不同的去掉前deleteN个高频词的个数与最终检测准确率的关系,确定deleteN的取值:

运行结果如下:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

我们绘制出了deleteNs和test_accuracy的关系,这样我们就可以大致确定去掉前多少的高频词汇了。每次运行程序,绘制的图形可能不尽相同,我们可以通过多次测试,来决定这个deleteN的取值,然后确定这个参数,这样就可以顺利构建出用于新闻分类的朴素贝叶斯分类器了。我测试感觉450还不错,最差的分类准确率也可以达到百分之50以上。将if __name__ == '__main__'下的代码修改如下:

运行结果:

机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类

五、总结

  • 在训练朴素贝叶斯分类器之前,要处理好训练集,文本的清洗还是有很多需要学习的东西。
  • 根据提取的分类特征将文本向量化,然后训练朴素贝叶斯分类器。
  • 去高频词汇数量的不同,对结果也是有影响的的。
  • 拉普拉斯平滑对于改善朴素贝叶斯分类器的分类效果有着积极的作用。
  • 如有问题,请留言。如有错误,还望指正,谢谢!

PS: 如果觉得本篇本章对您有所帮助,欢迎关注、评论、赞!

本文出现的所有代码和数据集,均可在我的github上下载,欢迎Follow、Star:github.com/Jack-Cherish

weinxin
微信公众号
分享技术,乐享生活:微信公众号搜索「JackCui-AI」关注一个在互联网摸爬滚打的潜行者。
Jack Cui

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:93   其中:访客  55   博主  38

    • avatar crimsony 来自天朝的朋友 QQ浏览器 Windows 10 湖北省武汉市 华中科技大学东校区 0

      博主请问一下
      https://blog.csdn.net/qq_27009517/article/details/80044431根据这个博文的分类,你算先验的时候用的是多项式模型,算P(单词 | 垃圾类)时用的是伯努利模型,难道不应该统一吗。以一个统计学学生的视角看按条件概率本身的定义这样很奇怪,算先验应该也用词数的比值才比较严谨吧。希望博主回复~

        • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 10 黑龙江省哈尔滨市 联通

          @crimsony sklearn包那里用的是多项式,前面那个小demo用到是伯努利,在一个例子里用的需要一致。

            • avatar HUSTHY 来自天朝的朋友 谷歌浏览器 Windows 7 湖北省 电信 3

              @Jack Cui 博主您好!根据crimsony提到的博文分类,我的理解是:您那个小demo中计算先验概率用的是伯努利模型;计算条件概率组的时候用到的是多项式模型(文本向量化用的是词集模型,应该用词袋模型)
              我把它们都统一为多项式模型后,测试错误率貌似小了很多!
              是不是可以理解为概率计算的模型统一性对结果又很大影响?

                • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Mac OS X 10_14_4 北京市 百度网讯科技联通节点

                  @HUSTHY 以你实际测试的结果为准就行。
                  这个我还真没研究过,也可能这种数据分布更适合用你采用的模型。

              • avatar 敲代码的🐖 来自天朝的朋友 谷歌浏览器 Windows 10 湖北省武汉市 联通 2

                @crimsony @Jack Cui 博主你好,请问下计算训练集和测试集切分的索引值时index = int(len(data_class_list) * test_size) + 1 为什么要加一?我看你是取数据集的20%作为测试集,假如有100个数据,100*0.2=20,test_list = data_class_list[:20]不正好是取下标0~19这20个元素吗?你加一岂不是取0~20这21个数据吗?

              • avatar 一叶尘落 来自天朝的朋友 谷歌浏览器 Windows 10 四川省 移动 1

                sklearn中的三种算法,准确来说应该不是指的先验的分布模型吧,而是特征的分布吧,也就相当于贝叶斯公式中条件概率部分,比如说用伯努利模型会根据给定的阈值先将特征进行二值化,而先验应该是由fit_prior与class_prior控制,好像高斯模型中只有priors参数,如果不给是按P(Y=Ck)=mk/m的方式计算吗?如果有不对的地方希望帮忙指出。

                  • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 10 黑龙江省哈尔滨市 联通

                    @一叶尘落 嗯嗯,可以这么理解。通过调用不同的函数,配置不同的参数来设置的。

                  • avatar beo 来自天朝的朋友 谷歌浏览器 Windows 7 广东省广州市番禺区 电信 3

                    listOfTokens = re.split(r’\W*’, bigString)
                    博主,请问这里的r’\W*’是否有误,置换为 r’\W+’ 程序运行正常了。
                    *表示0或更多,有没有标点符号都给分割了,一段字符被分割为单个字符,后面再有len>2的筛选,每次都输出空的列表。

                      • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Windows 10 黑龙江省哈尔滨市 联通

                        @beo 嗯嗯,换成+更好。已更新,感谢。

                        • avatar 安生晓 来自天朝的朋友 搜狗浏览器 Windows 10 中国 移动 2

                          @beo 感谢

                        • avatar 王草莓 来自天朝的朋友 搜狗浏览器 Windows 10 浙江省杭州市 移动 1

                          请问博主,github上的email文件夹怎么下载啊,我没有download的选项啊。然后我用迅雷把txt文件全下过来建了一个一样的文件夹放在代码哪里,运行的时候有编码错误我解决不掉,这是什么原因呢。https://ww4.sinaimg.cn/large/0072Lfvtly1g0qj5qt9bqj30yl04mmxs.jpg

                            • avatar 王草莓 来自天朝的朋友 搜狗浏览器 Windows 10 浙江省杭州市 移动 1

                              @王草莓 这是报错: UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 3883: illegal multibyte sequence

                                • avatar Jack Cui Admin 来自天朝的朋友 Safari浏览器 Mac OS X 10_14_3 北京市 百度网讯科技联通节点

                                  @王草莓 编码问题,在Github项目首页有download按钮。你可以在github打开,然后手动拷贝。

                                  • avatar 安生晓 来自天朝的朋友 搜狗浏览器 Windows 10 中国 移动 2

                                    @王草莓 看一下https://blog.csdn.net/Yk_0311/article/details/82951315,对ham的23.txt另存为ascii格式就好了

                                  • avatar lplplp 来自天朝的朋友 谷歌浏览器 Windows 10 北京市 移动 1

                                    @王草莓 整个git下来 也不大

                                  • avatar baobao88121 来自天朝的朋友 谷歌浏览器 Windows 7 浙江省金华市 移动 1

                                    您好~最后输出的是测试集的精确度,如果我想得到每个测试样本的预测分类呢,要怎么调用sklearn,谢谢~

                                      • avatar Jack Cui Admin 来自天朝的朋友 Safari浏览器 Mac OS X 10_14_3 北京市 百度网讯科技联通节点

                                        @baobao88121 用predict函数。

                                      • avatar 安生晓 来自天朝的朋友 搜狗浏览器 Windows 10 中国 移动 2

                                        结巴分词 1 的
                                        print(data_list)
                                        print(class_list)
                                        这两句应该都减一个缩进吧?

                                          • avatar Jack Cui Admin 来自天朝的朋友 Safari浏览器 Mac OS X 10_14_4 北京市 百度网讯科技联通节点

                                            @安生晓 是的,应该修改下,感谢。

                                          • avatar 敲代码的🐖 来自天朝的朋友 谷歌浏览器 Windows 10 湖北省武汉市 联通 2

                                            博主你好,请问下计算训练集和测试集切分的索引值时index = int(len(data_class_list) * test_size) + 1 为什么要加一?我看你是取数据集的20%作为测试集,假如有100个数据,100*0.2=20,test_list = data_class_list[:20]不正好是取下标0~19这20个元素吗?你加一岂不是取0~20这21个数据吗?

                                              • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Mac OS X 10_14_4 北京市 百度网讯科技联通节点

                                                @敲代码的🐖 不是还有个标签列吗?

                                                  • avatar 敲代码的🐖 来自天朝的朋友 谷歌浏览器 Windows 10 湖北省武汉市 联通 2

                                                    @Jack Cui 算切分的索引值和标签列没有关系吧,切分之前把特征和标签zip在一起,也不会改变数据集中的数据的个数啊,只是每条数据多了一个标签列而已

                                                      • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Mac OS X 10_14_4 北京市 百度网讯科技联通节点

                                                        @敲代码的🐖 哦哦,具体的忘记了。你看下加不加的区别,测试下。我记得这个是没问题的。

                                                          • avatar 敲代码的🐖 来自天朝的朋友 谷歌浏览器 Windows 10 湖北省武汉市 联通 2

                                                            @Jack Cui 刚刚试了一下,加或不加,都是在300左右的时候准确率就能达到百分之五十多

                                                            • avatar Jack Cui Admin 来自天朝的朋友 谷歌浏览器 Mac OS X 10_14_4 北京市 百度网讯科技联通节点

                                                              @敲代码的🐖 别看最终结果,看下处理后的数据有啥不同,对比看下就ok啦~

                                                        • avatar 嘿咻小童鞋 来自天朝的朋友 谷歌浏览器 Windows 10 河南省开封市 联通 3

                                                          @敲代码的🐖 好像确实不对
                                                          print(len(test_data_list))
                                                          print(len(train_data_list))
                                                          长度是19 和71,如果按0.2比例分割 应该按18和72的 :!:

                                                          • avatar 嘿咻小童鞋 来自天朝的朋友 谷歌浏览器 Windows 10 河南省开封市 联通 3

                                                            @敲代码的🐖 不过貌似影响不大,+1的话是按0.2111…的比例切割数据集的 :mrgreen: :mrgreen: :mrgreen:

                                                          • avatar frank 来自天朝的朋友 火狐浏览器 Mac OS X 10.15 重庆市 电信 0

                                                            博主您好,关于朴素贝叶斯(言论过滤)-训练函数-p1Vect的计算上我有一点疑问,我自己实现时用的|D1,xi|/|D1|,即侮辱类词条中中第i个单词出现的次数向量/侮辱类的词条个数。您的代码中,p1Vect=侮辱类词条中第i个单词出现的次数向量/侮辱类中所有单词出现次数之和。这里我不是很明白,还请博主赐教呀…

                                                            • avatar frey 来自天朝的朋友 QQ浏览器 Windows 10 中国 移动 3

                                                              问下,“使用Sklearn构建朴素贝叶斯分类器”中的输入到模型的特征是词汇的出现与否,还是词汇的出现次数?

                                                                • avatar Andor_LZ 来自天朝的朋友 谷歌浏览器 Windows 10 河南省 联通(全省通用) 1

                                                                  @frey 这个用的是词汇的出现与否

                                                                • avatar Andor_LZ 来自天朝的朋友 谷歌浏览器 Windows 10 河南省 联通(全省通用) 1

                                                                  最后一个新闻分类器代码教程中,words_dict函数内,如果要保持feature_words的维度最大为1000,下面那行n += 1代码,应该少了一个缩进,在判断该word可以用作特征词时才有n+=1,而不是每次循环都+1