当前位置: 首页 > 数据库 > 其它数据库 > 正文

通过Mahout构建贝叶斯文本分类器的精彩案例

时间:2015-01-29

背景&目标:

1、sport.tar 是体育类的文章,一共有10个类别;

用这些原始材料构造一个体育类的文本分类器,并测试对比bayes和cbayes的效果;

记录分类器的构造过程和测试结果。

2、user-sport.tar 是用户浏览的文章,每个文件夹对应一个用户;

利用上题构造的文本分类器,计算每个用户浏览各类文章的占比;

记录计算过程和结果。

实验环境:

Hadoop-1.2.1

Mahout0.6

Pig0.12.1

Ubuntu12

Jdk1.7

原理&流程

建立文本分类器:

1.分类体系的确定

2.文本样本的积累

3.文本的预处理(分词)

4.划分训练集,测试集

5.对模型的训练

6.对模型准确性测试

测试分类器模型时,如果觉得模型效果不够满意,可以对过程进行调整,然后重新生成模型。

可调整的方面包括:

积累更多,更有具代表性的样本;

在文本预处理阶段选择更好的分词算法;

在训练分类器时,对训练参数进行调整。

不断重复以上过程,直到得到满意的模型为止。

对文本进行分类:

建立完文本分类器以后,就可以输入一个文本,输出一个分类。

Step1:将所需用到的原始数据sport和user-sport文件夹上传到hdfs

sport文件夹:

用于训练文本分类器

包含了多个子文件夹,每个子文件夹都是一个分类的文章

在现实项目中,该原始数据需要人工收集

user-sport:

待分类的文本