数据描述
Naive Bayes 广泛用于文本分类任务,包括互联网新闻的分类,垃圾邮件的筛选。本文使用经典的20类新闻文本作为实验数据。
获取数据:
|
|
输出:
- 该数据共有18846条新闻;
- 这些文本数据既没有被设定特征,也没有数字化的量度。在交给朴素贝叶斯分类器前学习前,需要作进一步的处理。
准备训练、测试数据
|
|
使用朴素贝叶斯进行类别预测
|
|
性能测评
|
|
输出如下:
由输出可知,分类准确性约为 83.977%。
分析
朴素贝叶斯模型被广泛用于海量互联网文本分类任务。由于其较强的特征条件独立假设,使得模型预测所需要估计的参数规模从幂指数量级向线性数量级减少,极大地节约了内存消耗和计算时间;
受这种强假设的限制,模型训练时无法将各个特征之间的联系考量在内,使得该模型在其他数据特征关联较强的分类任务上的性能表现不佳。