多数据集垃圾邮件过滤的朴素贝叶斯算法分析
多数据集垃圾邮件过滤的朴素贝叶斯算法分析
Nurul Fitriah Rusland, Norfaradilla Wahid, Shahreen Kasim,
网络技术系,2017,马来西亚
摘要
电子邮件中的垃圾邮件继续成为互联网上的一个问题。垃圾邮件的电子邮件可能包含相同的信息,商业广告或其他不相关的帖子就像色情内容。在以往的研究中,不同的滤波技术来检测这些电子邮件,如用随机森林,朴素贝叶斯,支持向量机(SVM)和神经网络。在本研究中,我们测试垃圾邮件过滤的两个数据集上的朴素贝叶斯算法和测试其性能,即垃圾邮件数据Spambase数据[ 8 ]。数据集的性能在评价的基础上,他们的准确率,召回率,精度和F值。我们的研究使用WEKA工具用于垃圾邮件过滤对数据集的朴素贝叶斯算法的评价。结果表明,邮件的类型和数据集的实例的数量有影响对朴素贝叶斯算法的性能。
目录
多数据集垃圾邮件过滤的朴素贝叶斯算法分析 1
摘要 1
1.引言 1
2. 相关的工作 2
3. 方法论 3
3.1.朴素贝叶斯分类器 3
3.3.特征选择 6
4. 实验装置 6
4.1,评价指标 6
(7)真阳性率(TP):垃圾邮件被正确地判断为垃圾邮件。 7
4.2.数据集 7
5. 结果与讨论 8
6.结论 12
机器学习算法已运用在反垃圾邮件的垃圾邮件过滤行动中,包括被认为在文本分类[ 3 ]优秀算法,提高算法、支持向量机(SVM)算法[ 5 ]和[ 7 ]朴素贝叶斯算法。
康斯坦丁特列季亚科夫等人[ 6 ]评估几个最流行的机器学习方法,即贝叶斯分类,k-近邻,人工神经网络,支持向量机将其应用于垃圾邮件过滤问题。在这项工作中,作者提出了命名的技术,其性能对PU1垃圾邮件语料库数据比较是最微不足道的样本实现了。利用提取特征将所有信息转换为数字向量(特征向量),然后对这些向量进行分类。这是因为大多数机器学习算法只能对向量等数字对象进行分类。
然后提出了算法的简单的C++实现,并测试了它们在PU1垃圾邮件语料库。PU1语料包括1099个信息,其中481是垃圾邮件。通过有效措施这是精密测试设置使用,合法邮件和垃圾邮件的影响后果。结果的K-最近邻分类器的性能似乎是穷人和误报的数量是相当大的。笔者认为,只有朴素贝叶斯分类器已经通过测试。
3. 方法论
本节描述了用于研究的方法。用于过滤方法的方法是由三个阶段划分的机器学习技术。该方法基于朴素贝叶斯算法用于垃圾邮件过滤的过程。
3.1.朴素贝叶斯分类器
朴素贝叶斯算法是一种简单的概率分类器,通过在一个给定的数据集[ 4 ]值的频率和组合计数的一组概率。在本研究中,朴素贝叶斯分类器使用的袋字特征识别垃圾邮件的电子邮件和文本是代表作为其字袋。包装袋上的字是用在文本分类的方法,其中每个词的出现频率是用于训练分类器的特征。该袋的文字功能包括在选定的数据集。
朴素贝叶斯技术利用贝叶斯定理确定垃圾邮件的概率。有些词在垃圾邮件或非垃圾邮件中有特定的发生概率。例如,假设我们确切地知道,在非垃圾邮件中,“自由”这个词永远不会出现。然后,当我们看到一个包含这个词的消息时,我们可以肯定地说那是垃圾邮件。
贝叶斯垃圾邮件过滤器学到了垃圾邮件的可能性,对诸如自由和伟哥很高,但非常低的垃圾邮件的概率为非垃圾邮件见字,如姓名的朋友和家庭成员。因此,为了计算电子邮件是垃圾邮件还是非垃圾邮件的概率,贝叶斯技术使用贝叶斯定理,如下面的公式所示。
介绍性陈述:
(1)P(spamword)是一个电子邮件有特定的词的电子邮件是垃圾邮件的概率。
(2)p(spam)是指任何给定的消息是垃圾邮件的概率。
(3)P(wordspam)是在垃圾短信出现的特定词概率。
(4)P(non-spam)是指任何特定的词不是垃圾邮件的概率。
(5)P(wordnon -spam)是在非垃圾短信出现的特定的词的概率。
为了实现这一目标,研究和程序分三个阶段进行。所涉及的阶段如下:
(1)第1阶段:预处理
(2)第2阶段:特征选择
(3)第3阶段:朴素贝叶斯分类
下面的部分将解释开发这个项目所涉及到的每个阶段的活动。图2显示了垃圾邮件过滤基于朴素贝叶斯算法的过程。