Please wait a minute...
 
主管单位:广东省科学技术厅
主办单位:广东省科技合作研究促进中心
编辑出版:《电脑与电信》编辑部
ISSN 1008-6609 CN 44-1606/TN
邮发代号:46-95
国内发行:广东省报刊发行局
《电脑与电信》唯一官方网站。
电脑与电信  2019, Vol. 1 Issue (5): 1-7    
  基金项目 本期目录 | 过刊浏览 | 高级检索 |
基于分布式框架下的中文文本特征分类
张慧芳1 宗彩乐2 张晓琳1
1.内蒙古科技大学 信息工程学院; 2.青岛地铁集团有限公司运营分公司
Chinese Text Feature Classification Based on Distributed Framework
1. Inner Mongolia University of Science and Technology; 2. Qingdao Metro Group Co., Ltd. Operating Branch
全文: PDF(0 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 研究运用复旦中文文本及搜狗中文文档作为研究对象,提高了中文文本分类精确度及召回率,分析得出特征词的最佳贡献值。应用朴素贝叶斯分类方法和改进的TFIDF关键字提取及权重计算,提出TNBIF模型分类方法,在Spark平台上并行分类实现。实验结果表明:应用TNBIF模型实行中文文本分类,精确度高达95.49%,比传统文本分类方法精确度提高5.41%,召回率提高了6.64%。本研究得出最佳贡献值为0.95。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张慧芳 宗彩乐 张晓琳
关键词 TNBIF模型海量数据集Spark特征分类并行分类    
Abstract: The study uses Fudan Chinese text and Sogou Chinese document as the research object. It improves the Chinese text classification accuracy and recall rate. And it analyzes and obtains the best contribution value of the feature words. Based on naive Bayes classification method, improved TFIDF keyword extraction and weight calculation, the TNBIF model classification method is proposed and implemented on the Spark platform. The experimental results show that the Chinese text classification is applied by the TNBIF model. The accuracy is as high as 95.49%, which is 5.41% higher than the traditional text classification method and the recall rate is increased by 6.64%. This study obtains an optimal contribution of 0.95.
Key wordsTNBIF    model    massive data set    Spark    feature classification    parallel classification
年卷期日期: 2019-05-10      出版日期: 2019-08-13
:  TP391.1  
基金资助:国家自然科学基金资助项目,项目编号:61562065。
作者简介: 张慧芳(1992-),女,山东济宁人,硕士研究生,研究方向为大数据分析挖掘、机器学习。
引用本文:   
张慧芳 宗彩乐 张晓琳. 基于分布式框架下的中文文本特征分类[J]. 电脑与电信, 2019, 1(5): 1-7.
ZHANG Hui-fang ZONG Cai-le ZHANG Xiao-lin. Chinese Text Feature Classification Based on Distributed Framework. Computer & Telecommunication, 2019, 1(5): 1-7.
链接本文:  
https://www.computertelecom.com.cn/CN/  或          https://www.computertelecom.com.cn/CN/Y2019/V1/I5/1
[1] 赵晗清陈新房, 杨丽佳汪世伟刘义卿. 基于LSTM的地下水水位预测及地震前兆异常分析[J]. 电脑与电信, 2024, 1(6): 68-72.
[2] 李春平 陈小文 张淑荣 张湘敏.
基于大数据分析的超星平台线上课程教学质量评价研究
[J]. 电脑与电信, 2024, 1(4): 14-19.
[3] 黄梓聪  陈典灿  欧润丰  罗 靖  彭新东. 基于OCR和大语言模型的智能财务系统[J]. 电脑与电信, 2024, 1(1): 1-3.
[4] 吕学松 时东晓. 基于职业能力素质模型的网络专业人才培养体系构建[J]. 电脑与电信, 2023, 1(7): 4-8.
[5] 李高祥 吴 雨. 基于ISM模型的中小学教师网络学习空间 应用效能影响因素研究[J]. 电脑与电信, 2023, 1(5): 21-.
[6] 何文海 李艺琳 李梓涛 唐国平.
基于有限差分法的高温防护服数学模型研究
[J]. 电脑与电信, 2023, 1(3): 5-9.
[7] 郭绪坤.
多维度视角下我国电子政务演变发展
模型构建与分析
[J]. 电脑与电信, 2023, 1(3): 15-19.
[8] 王梓润 王仟怡 袁文佳 王晓萌 卫 笑 刘 伟 范修竹.
基于混合智能算法对销售量的预测研究
[J]. 电脑与电信, 2023, 1(3): 33-37.
[9] 周倩倩.
基于EI-BA模型的文本情感分析
[J]. 电脑与电信, 2023, 1(3): 85-90.
[10] 苏萃文 柴国强.
基于面部特征检测的人脸表情实时识别
[J]. 电脑与电信, 2023, 1(1-2): 17-21.
[11] 吴 艳.
“互联网+”背景下基于BOPPPS模型的混合式
教学模式的构建探究
[J]. 电脑与电信, 2022, 1(9): 10-13.
[12] 袁若浩 王保云.
基于神经网络的泥石流沟谷易发性预测
[J]. 电脑与电信, 2022, 1(6): 5-.
[13] 钱怡吉 洪 磊 张语瑞.
基于SEIR模型的舆情传播和舆情控制模型
[J]. 电脑与电信, 2022, 1(6): 53-.
[14] 李 丹, 赵荣阳, .
基于隐马尔科夫模型的水声传感器位置
稳定性模型研究
[J]. 电脑与电信, 2022, 1(5): 1-.
[15] 李清旭 张琛 成雪.
基于特征融合的文本情感分类
[J]. 电脑与电信, 2022, 1(1-2): 1-6.
No Suggested Reading articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
  Copyright © 电脑与电信 All Rights Reserved.
地址:广州市连新路171号广东国际科技中心 邮编:510033
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn
粤ICP备05080322号-4