基金项目

基于梯度下降和多指标融合的文本特征选择算法

展开
  • 辽宁机电职业技术学院 信息工程系

网络出版日期: 2024-01-24

Text Feature Selection Algorithm Based on Gradient Descent and Multi-index Fusion

Expand
  • Liaoning Mechatronics College

Online published: 2024-01-24

摘要

在文本特征选择方法中,常用的评价指标包括相关性、冗余度、词频及稀疏程度等。但由于指标种类及数量众 多,导致评判标准无法统一,造成特征选择困难,因而现有算法一般仅使用一到两种指标对特征进行过滤及筛选。然而文本特 征质量的高低对于文本处理模型的最终构建起着至关重要的作用,在选择时需要对特征进行多方面、多角度的考量。针对上 述不足,首先针对目前文本处理常用的词汇特征和n-grams特征筛选出两组功能互补的评价指标,根据每个指标值将特征映 射到坐标系中,通过在坐标系构建假设函数,并利用梯度下降法确定假设函数中的各个参数,使得假设函数能够将高质量特征 与低质量特征区分开,把特征选择问题转化为低维空间的简单分类问题。在《人民日报》标注语料库及美国近当代英语语料库 (COHA)中的对比实验结果表明,相对于单指标或双指标的文本特征选择算法,基于梯度下降和多指标融合的文本特征选择 算法在保证时效性的同时,能够更准确地筛选出高质量的词汇及 n-grams 特征,并在支持向量机(Support Vector Machine, SVM)中验证其有效性。

本文引用格式

刘世兴 . 基于梯度下降和多指标融合的文本特征选择算法[J]. 电脑与电信, 2023 , 1(5) : 50 . DOI: 10.15966/j.cnki.dnydx.2023.05.011

Options
文章导航

/