博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
NLP-特征选择
阅读量:5876 次
发布时间:2019-06-19

本文共 1713 字,大约阅读时间需要 5 分钟。

文本分类之特征选择

1 研究背景

  对于高纬度的分类问题,我们在分类之前一般会进行特征降维,特征降维的技术一般会有特征提取和特征选择。而对于文本分类问题,我们一般使用特征选择方法。

  • 特征提取:PCA、线性判别分析
  • 特征选择:文档频数、信息增益、期望交叉熵、互信息、文本证据权、卡方等

特征选择的目的一般是:

  1. 避免过拟合,提高分类准确度
  2. 通过降维,大大节省计算时间和空间

特征选择基本思想:

1)构造一个评价函数

2)对特征空间的每个特征进行评分

3)对所有的特征按照其评估分的大小进行排序

4)从中选取一定数目的分值最高的特征项

 

2 常用特征选择方法

 

c

~c

t

A

B

~t

C

D

 

2.1文档频率(Document Frequency,DF)

优点:实现简单,计算量小。

缺点:基于低频词不含分类信息或者只包含极少量分类信息,没有考虑类别信息,但实际并非如此。

2.2 互信息(Mutual Information, MI)

  来自Claude Edwood Shannon的信息论,计算一个消息中两个信号之间的相互依赖程度。在文本分类中是计算特征词条与文本类的相互关联程度。

特征t在类别MI公式:

特征项t在整个样本中的互信息值:

缺点:

对低频词十分敏感。若B0时,无论A为多少算出来MI都一样,而且都很大。

2.3信息增益(Information Gain, IG)

  来源于信息熵,公式:

优点:信息增益考虑了特征未发生的情况,特征不出现的情况可能对文档类别具有贡献

缺点:对只出现在一类的低频词有一定程度的倚重,但这类低频词未必具有很好的分类信息。

2.4卡方检验(chi-square)

  源于统计学的卡方分布(chi-square),从(类,词项)相关表出发,考虑每一个类和每一个词项的相关情况,度量两者(特征和类别)独立性的缺乏程度,卡方越大,独立性越小,相关性越大。

特征t在类别中的CHI公式:

特征项t在整个样本中的卡方值:

缺点:和IG一样,对低频词有一定程度的倚重。

3实验效果

任务:二元文本分类

数据集:

 

训练集

测试集

BCII

5494篇文档(3536个正例,1959个负例)

677篇文档(338个负例,339个负例)

BCIII

2280篇文档(1140个正例,1140个负例)

6000篇文档(910个正例,5090个负例)

 

实验方法:

  • 文本预处理
  • 特征选择:一元词特征
  • 构建文本模型:BoW(布尔权值)
  • 机器学习分类算法:SVM
  • 评价指标:正类的F

实验结果:

BCII结果

BCIII结果

4 总结

 

DF

IG

CHI

MI

倚重低频词

N

Y

Y

Y

考虑类别信息

N

Y

Y

Y

考虑特征不出现的情况

N

Y

Y

N

 

经验:

1MI对于低频词过于敏感,对于特征出现频率差异较大的数据集,MI效果十分不理想。

2DF的效果并没有想象中的差(除去停用词),和IGCHI差不多,不过要是降到很低维的时候,一般还是IGCHI的效果比较好。

3)若是数据集低频词数量比较多,DF效果甚至好于IGCHI

4)当数据集是均匀分布时,CHI的效果要略优于IG,而当数据集类别分布极为不均时,IG的效果要优于CHI

5)不同的分类算法、评价指标等得到的效果可能会有所不同。

 

我们最好是根据自己的数据集分布,想达到的目的(降维?精确度?),来选择合适的特征选择方法。

 

参考文献:

[1] Y.Yang, J.Pedersen. A comparative study on feature selection in text categorization. 1997

[2] G. Foreman. An Extensive Empirical Study of Feature Selection Metrics for Text Classification. 2003

[3] 代六玲,黄河燕等. 中文文本分类中特征抽取方法的比较研究. 2004

 

转载于:https://www.cnblogs.com/robert-dlut/p/4371973.html

你可能感兴趣的文章
多媒体工具Mediainfo
查看>>
1-小程序
查看>>
CentOS图形界面和命令行切换
查看>>
HTML5通信机制与html5地理信息定位(gps)
查看>>
Mind_Manager_2
查看>>
手动升级 Confluence - 规划你的升级
查看>>
汽车常识全面介绍 - 悬挂系统
查看>>
电子政务方向:We7.Cloud政府云门户
查看>>
虚拟机Centos7连接Internet
查看>>
ansible 基本操作(初试)
查看>>
更改tomcat的根目录路径
查看>>
51nod 1292 字符串中的最大值V2(后缀自动机)
查看>>
加快ALTER TABLE 操作速度
查看>>
学习笔记之软考数据库系统工程师教程(第一版)
查看>>
基本网络概念
查看>>
将 ASP.NET Core 2.0 项目升级至 ASP.NET Core 2.1 RC 1
查看>>
js提交图片转换为base64
查看>>
学习CodeIgniter框架之旅(二)继承自定义类
查看>>
Y2161 Hibernate第三次考试 2016年8月18日 试卷分析
查看>>
Angular CLI 使用教程指南参考
查看>>