Please wait a minute...
 
主管单位:广东省科学技术厅
主办单位:广东省科技合作研究促进中心
编辑出版:《电脑与电信》编辑部
ISSN 1008-6609 CN 44-1606/TN
邮发代号:46-95
国内发行:广东省报刊发行局
《电脑与电信》唯一官方网站。
电脑与电信  2024, Vol. 1 Issue (6): 11-    DOI: 10.15966/j.cnki.dnydx.2024.06.015
  算法研究 本期目录 | 过刊浏览 | 高级检索 |
基于数据表相似度计算的数据血缘构建方法
1.国家开放大学2.数字化学习技术集成与应用教育部工程研究中心
Building Method for Data Lineage Based on Data Table Similarity Calculation 
1.The Open University of China 2. Ministry of Education Engineering Research Center for Integration and Application of Digital Learning Technology
全文: PDF(0 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 大数据时代下,各业务部门基于已有业务数据积累激发数据价值已成为一种共识。由于各业务系统数据标准不统一,导致元数据杂乱无章、数据孤岛、低质数据等问题层出不穷,阻碍数据的有效利用,需进行必要的治理。这其中,数据血缘分析是元数据管理的关键任务之一,对于数据溯源和数据治理具有重要意义。然而,传统的数据血缘构建方法往往面临着计算复杂度高、准确性差、执行成本高等问题。为克服这些问题,提出一种基于数据表相似度计算的数据血缘构建方法:通过对数据表的命名、表结构和数据字段三要素进行文本特征表示,利用TFIDF计算数据表的相似度,并进一步通过改进的Jaro-Winkler Distances算法验证字段重合度、表名相似度的方法构建数据表血缘关系。结果表明,该算法在数据表血缘关系构建方面效果显著,促进了数据治理工作的顺利开展。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 数据血缘数据治理元数据表相似度    
Abstract:In the era of big data, it has become a consensus that various business departments can stimulate data value based on the accumulation of existing business data. However, due to the lack of uni?ed data standards across di?erent business systems, disorganized metadata, data silos, and low-quality data problems constantly emerge, hindering the e?ective utilization of data and necessitating necessary governance. Among them, data lineage analysis is one of the key tasks of metadata management, which is of great signi?cance for data traceability and data governance. However, traditional methods for constructing data lineage often face high computational complexity, poor accuracy, and high execution costs. To overcome these issues, a data lineage construction method based on the similarity calculation of data tables is proposed: by text feature representation of the three elements of data table naming, table structure, and data ?elds, using TFIDF to calculate the similarity of data tables, and further constructing the data table lineage relationship through the improved Jaro-Winkler Distances algorithm to verify the ?eld overlap and table name similarity. The results show that the algorithm has a signi?cant e?ect on the construction of data table lineage, facilitating the smooth progress of data governance work.
Key wordsdata lineage    data governance    metadata    table similarity 
年卷期日期: 2024-06-10      出版日期: 2024-11-01
引用本文:   
潘奇蔡斯博, 魏芳芳. 基于数据表相似度计算的数据血缘构建方法[J]. 电脑与电信, 2024, 1(6): 11-.
PAN Qi CAI Si-bo WEI Fang-fang. Building Method for Data Lineage Based on Data Table Similarity Calculation . Computer & Telecommunication, 2024, 1(6): 11-.
链接本文:  
https://www.computertelecom.com.cn/CN/10.15966/j.cnki.dnydx.2024.06.015  或          https://www.computertelecom.com.cn/CN/Y2024/V1/I6/11
[1] 陈翠娥, 王学伶. C#属性、特性和反射的应用研究[J]. 电脑与电信, 2015, 1(9): 51-53.
[2] 何家颖. 一种数据总线模型在电信企业运营支撑中的应用 [J]. , 2011, 1(05): 0-0.
[3] 张慧玲 . 语义网格在数字图书馆知识组织中的应用[J]. , 2011, 1(05): 0-0.
[4] 彭 劲. 数据仓库元数据管理研究与架构设计[J]. , 2009, 1(4): 44-46.
No Suggested Reading articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
  Copyright © 电脑与电信 All Rights Reserved.
地址:广州市连新路171号广东国际科技中心 邮编:510033
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn
粤ICP备05080322号-4