随机森林在中文图书分类中的应用和改进

2022 , Vol. 1 >Issue 8: 4 - 7

基金项目

随机森林在中文图书分类中的应用和改进

展开

网络出版日期: 2022-07-28

收起

Application and Improvement of Random Forest in Chinese Book Classification

Expand

Online published: 2022-07-28

Fold

对随机森林算法进行研究，该算法结构基于Bagging模型。因为随机森林中的多个决策树希望训练集覆盖面越

广、差异性越大，则训练出的模型越理想。因此，提出Pre_RandomForest 模型，该模型在中文图书分类前进行除了预处理（去停

用词、分词）、词向量化以外，还对样本加权，使得原始数据集中每个样本的关注度有所区别。在相同测试集上实验，Pre_Ran

domForest 的平均准确率为90.20%，常见的模型算法Bert、FastText、TextCNN等直接对中文图书分类的平均准确率在84.41%~

88.33%之间，Pre_RandomForest 与其他算法比较具有一定的竞争力。

关键词：

中文图书分类

; 随机森林; 预处理; 关注度; 加权取样

沈雅婷徐志豪 .

随机森林在中文图书分类中的应用和改进

[J]. 电脑与电信, 2022 , 1(8) : 4 -7 . DOI: 10.15966/j.cnki.dnydx.2022.08.006

Options

文章导航