Please wait a minute...
 
主管单位:广东省科学技术厅
主办单位:广东省科技合作研究促进中心
编辑出版:《电脑与电信》编辑部
ISSN 1008-6609 CN 44-1606/TN
邮发代号:46-95
国内发行:广东省报刊发行局
《电脑与电信》唯一官方网站。
电脑与电信  2023, Vol. 1 Issue (1-2): 86-    DOI: 10.15966/j.cnki.dnydx.2023.z1.020
  基金项目 本期目录 | 过刊浏览 | 高级检索 |
多源异构环境下基于层次约简分类的大数据清洗方法研究

眉山职业技术学院

全文: PDF(0 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 大数据清洗是数据分析与应用的关键环节之一,针对传统大数据清洗方法缺陷提出一种基于层次约简分类的大数据清洗方法研究。利用大数据清洗原理先判定数据集的属性类别,并建立层次约简分类模型,按照大数据集中值域范围最广的属性确定字符串之间的编辑距离,遍历掉重要性和相关性较弱的干扰数据;采用逆文本词频分割的方式,对大量的冗余数据做聚合处理,进一步降低大数据集冗余程度。实验结果表明,提出方法在数据清理运行时间、查全率和查准率等指标控制方面均有优势。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
年卷期日期: 2023-02-10      出版日期: 2023-05-30
引用本文:   
陈旭. 多源异构环境下基于层次约简分类的大数据清洗方法研究[J]. 电脑与电信, 2023, 1(1-2): 86-.
链接本文:  
https://www.computertelecom.com.cn/CN/10.15966/j.cnki.dnydx.2023.z1.020  或          https://www.computertelecom.com.cn/CN/Y2023/V1/I1-2/86
No related articles found!
No Suggested Reading articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
  Copyright © 电脑与电信 All Rights Reserved.
地址:广州市连新路171号广东国际科技中心 邮编:510033
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn
粤ICP备05080322号-4