对随机森林算法进行研究,该算法结构基于Bagging模型。因为随机森林中的多个决策树希望训练集覆盖面越
广、差异性越大,则训练出的模型越理想。因此,提出Pre_RandomForest 模型,该模型在中文图书分类前进行除了预处理(去停
用词、分词)、词向量化以外,还对样本加权,使得原始数据集中每个样本的关注度有所区别。在相同测试集上实验,Pre_Ran
domForest 的平均准确率为90.20%,常见的模型算法Bert、FastText、TextCNN等直接对中文图书分类的平均准确率在84.41%~
88.33%之间,Pre_RandomForest 与其他算法比较具有一定的竞争力。