基金项目

随机森林在中文图书分类中的应用和改进

展开
  • 南京理工大学紫金学院

网络出版日期: 2022-07-28

Application and Improvement of Random Forest in Chinese Book Classification

Expand
  • Nanjing University of Science and Technology Zijin College,

Online published: 2022-07-28

摘要

对随机森林算法进行研究,该算法结构基于Bagging模型。因为随机森林中的多个决策树希望训练集覆盖面越
广、差异性越大,则训练出的模型越理想。因此,提出Pre_RandomForest 模型,该模型在中文图书分类前进行除了预处理(去停
用词、分词)、词向量化以外,还对样本加权,使得原始数据集中每个样本的关注度有所区别。在相同测试集上实验,Pre_Ran
domForest 的平均准确率为90.20%,常见的模型算法Bert、FastText、TextCNN等直接对中文图书分类的平均准确率在84.41%~
88.33%之间,Pre_RandomForest 与其他算法比较具有一定的竞争力。

本文引用格式

沈雅婷 徐志豪 .

随机森林在中文图书分类中的应用和改进
[J]. 电脑与电信, 2022 , 1(8) : 4 -7 . DOI: 10.15966/j.cnki.dnydx.2022.08.006

Options
文章导航

/