基于维基百科的语义朴素贝叶斯学习实现文本的完美分类
目录
译文及原稿 34
基于维基百科的语义朴素贝叶斯学习实现文本的完美分类 1
1.介绍 1
2.相关工作 2
2.1语义朴素贝叶斯分类 2
2.2文本分类的文档表示 3
3. 朴素贝叶斯学习框架 3
4.改进朴素贝叶斯分类 4
4.1文档表示的语义张量空间模型 4
4.2文本分类的语义朴素贝叶斯学习 4
5. 绩效评估 5
5.1经验设置 5
5.2文本分类评价 6
6.总结 6
5. 绩效评估
在这一节中,我们经验地讨论了该方法的有效性。提出了文本分类的语义朴素贝叶斯学习方法。
5.1经验设置
为了评估我们提出的方法,我们使用了20个新闻组、Reuters-21578和OHSUMED文档语料库的受控子集,它们已经被接受为干净的语料库,因此通常用于评估用于文本分类的各种机器学习算法。20Newsgroups语料库有大约20000个文档,这些文档被划分为20个不同的新闻组。在本实验中,我们选取了10000个排名最高的文献。其次,我们生成了Reuters-21578语料库的一个子集,其中文档不偏离类(或主题)。我们首先选择文档属于具有单个主题的最大文档,以避免具有多个主题的文档的模糊性。最后,OHSUMED语料库来自名为MEDLINE的在线医学信息数据库。其中包含270种医学的标题和摘要期刊。
由于该语料库的分类效果不佳,因此在许多研究中,如何对语料库进行合理的分类是非常具有挑战性的。对于这个语料库,我们选择了最频繁的9个班的3600个文件。
在分类度量方面,针对宏(微)平均F1-分数讨论了分类结果,F1-分数是分类结果的精确度和召回度的调和平均。宏平均的F1-分数计算为每个类的相同权重,并且微平均的FI-分数计算为与每个类中的文档数量成比例。这些度量值从0到1不等,并且与分类有效性成比例。对于所有准备的文档语料库,使用10倍的交叉验证计算最终的Fl分数。
语义张量的实现有三个问题:术语空间、概念空间和张量存储。
术语“空间”是通过特征(即,术语)选择方法产生的,为此,我们使用基于文档频率(DF)的方法。在删除很少或没有信息值的停用词之后,我们选择了30%个排名最靠前的术语来支持具有较高DF值的单词。
概念空间通过一个合适的搜索引擎(如Lucene(http://Lucene,ApaCeOrg/))自动地依赖于给定的文档语料库,特别是所有有超过100个传入链接的信息性的维基百科页面首先由搜索引擎索引。接着,我们计算语料库中每个文档中出现的单词的TF IDF值,并将一组高度加权的单词视为查询相关维基百科页面的查询。对于每个文档,其相应的查询被提交给搜索引擎,并且搜索结果成为构建概念空间的候选者。最后,为了构造最优的概念空间,只选择给定语料库最常检索的维基百科页面。在下一节中,我们将描述根据概念空间的大小(最多75个)的性能变化。
我们的张量空间模型可能非常稀疏,因为只有一个小的文档的术语和语义的分数。在存储稀疏第二(或第三)张量,相当大的内存需求是通过仅存储具有坐标列表格式的非零条目,极大地减轻了负担。
在本实验中,我们将所提出的方法与传统的Naeve Bayes[1]。jing’s Naive Bayes[8]、SVM[4]以及三种基于深度学习的分类方法(如全连通深层神经网络(DNN))进行了比较。美国有线电视新闻网和RNN)。在实现这三种深度学习方法中,put层中的节点数等于每个语料库中生成的术语数,out层中的节点数等于要分类的类别数。此外,我们使用ReLU作为激活函数,使用SoftMax函数返回测试文档属于每个类别的概率。具体地说,DNN为我们的实验实现包含7个隐藏层。CNN使用16个滤波器,大小为2×2,并连接到具有256个输入的全连接网络。最后,根据文献[22]提出的模型I实现了RNN。
5.2文本分类评价
表1显示我们使用等式(15)的语义朴素贝叶斯学习为所有文档语料库提供了优越的分类结果。注意,如果对20Newsgroups和Reuters-21578语料库中的文档进行分类,我们的方法会产生几乎完美的分类结果。此外,在测试OHSUMED数据时,我们的方法在F1分数方面显示大于90%,而现有的方法显示出较差的结果。总的来说,京氏朴素贝叶斯、RNN和SVM与提出的方法性能接近,京氏朴素贝叶斯略优于RNN。实证结果表明,语义维基百科信息的有效使用有助于提高分类性能。
对于拉普拉斯平滑,方程(15)和方程(15)的表现形式几乎没有差别。(16)和(17)。此外,如表1所示,概念窗口Cw的大小对分类性能没有显著影响。相比之下,发现概念空间的大小会影响分类性能。图2显示了作为概念空间大小的函数的宏F1-score的图。性能随着概念空间的稍大一点而增加,尤其是在ohSuMed数据的情况下。在概念空间包含测试集中的固有概念(例如,大小大于25)之后,F1-分数保持几乎恒定,并且优于其他方法的性能。
6.总结
本文提出了一种利用语义张量空间模型进行文档表示的语义朴素贝叶斯分类方法。为了克服词袋模型中的语义缺失问题,我们的语义朴素贝叶斯学习方法引入了额外的语义特征,这些语义特征对应于文档中每个术语的含义;语义特征由外部的维基百科页面组成,这些页面知道给定的文件等。因此,在我们的分类学习框架中,将传统的特征统计分解为术语和概念的统计,并适当地估计它们之间的相关性。通过大量的实验,我们证明了本文提出的方法对20NewsGroup和Reuters-21578语料库中的文档进行分类时,能够进行几乎完美的分类。UGH稀疏张量以坐标列表格式存储。另一个未来的工作是将语义张量模型引入到基于深度学习的分类方法中。