[1]蒋宗礼,徐学可,李帅.文本分类中基于词条聚合的特征抽取[J].哈尔滨工程大学学报,2008,(11):1205-1209.
 JIANG Zong-li,XU Xue-ke,LI Shuai.Feature extraction of text classification based on word clustering[J].hebgcdxxb,2008,(11):1205-1209.
点击复制

文本分类中基于词条聚合的特征抽取(/HTML)
分享到:

《哈尔滨工程大学学报》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:
2008年11期
页码:
1205-1209
栏目:
出版日期:
2008-10-20

文章信息/Info

Title:
Feature extraction of text classification based on word clustering
作者:
蒋宗礼 徐学可 李帅
蒋宗礼(北京工业大学,计算机学院,北京,100022)
徐学可(清华大学,电子工程系,北京,100084)
Author(s):
JIANG Zong-li XU Xue-ke LI Shuai
1.College of Computer Science,Beijing Univemity of Technology,Beijing 100022,China;
2.Department of Electric Engineering, Tsinghua Univemity.Beijing 100084,China)
关键词:
特征抽取词条聚合TGSOM权重计算
分类号:
TP397.2
文献标志码:
A
摘要:
特征抽取是文本分类的重要研究领域,针对原始特征空间的高维性与稀疏性给分类算法带来"维数灾难"问题,探讨了基于词条聚合的特征抽取方法,设计了一种利用词条聚合进行特征抽取的文本分类的方案.该方案利用改进的树型动态自组织映射(TGSOM)进行词条聚合,并根据聚合特征的特点,考虑所包含的词条的文档频率的不同和区分文档类别属性的能力的不同,提出了一种新权重计算方法,最后利用SPRINT决策树算法进行分类,实验表明该方法比普通方法分类精度提高4.32%.

参考文献/References:

2. 王煜.张明.马力 基于词条聚合和决策树的文本分类方法 [期刊论文] - 哈尔滨工程大学学报 2005(3)
3. 王煜.王正欧 基于模式聚合和决策树的文本分类规则抽取 [期刊论文] - 哈尔滨工程大学学报 2006(1)
4. 张晓辉.李莹.王华勇.赵宏 应用特征聚合进行中文文本分类的改进KNN算法 [期刊论文] - 哈尔滨工程大学学报 2003(3)
5. KOHONEN T The self-organizing maps 1990(9)
6. 王莉.王正欧 TGSOM:一种用于数据聚类的动态自组织映射神经网络 [期刊论文] - 哈尔滨工程大学学报 2003(3)
7. 庞剑锋.卜东波.白?.硕 基于向量空间模型的文本自动分类系统的研究与实现 [期刊论文] - 哈尔滨工程大学学报 2001(9)
9. MEHTA M.AGRAWAL R.RISSANEN J SLIQ:A fast scalable classifier for data mining 1996()
10. SHAFER J C.AGRAWAL R.MEHTA M SPRINT:A scalable parallel classifier for data mining 1996()

备注/Memo

备注/Memo:
收稿日期:2007.10一10.
作者简介:蒋宗礼(1956一),男,教授.E—mail:jiangzl@biut.edu.ca
更新日期/Last Update: 2009-08-11