Please wait a minute...
 
主管单位:广东省科学技术厅
主办单位:广东省科技合作研究促进中心
编辑出版:《电脑与电信》编辑部
ISSN 1008-6609 CN 44-1606/TN
邮发代号:46-95
国内发行:广东省报刊发行局
《电脑与电信》唯一官方网站。
电脑与电信  2021, Vol. 1 Issue (11): 90-94    DOI: 10.15966/j.cnki.dnydx.2021.11.002
  应用技术与研究 本期目录 | 过刊浏览 | 高级检索 |
一种数据采集与分析平台的研究与设计
贵州电子信息职业技术学院
Research and Design of a Data Acquisition and Analysis Platform
Guizhou Vocational Technology College of Electronic & Information
全文: PDF( KB)  
输出: BibTeX | EndNote (RIS)      
摘要 
随着互联网大数据技术的不断发展,网络数据采集技术成为热门的研究领域之一。基于Python语言下的数据采集功能库如Urllib、Requests、Selenium等模块效率低、易阻塞,并且目前的数据采集和分析平台都是独立的功能模块,没有形成闭环,用户体验差。为了解决上述问题,提出一种数据采集和分析平台,首先使用Scrapy框架完成数据采集,其次将采集到的数据通过Kettle工具进行数据清洗,再次,将处理好的结果存入MySQL 数据库,最后利用Flask框架,结合Echarts 技术搭建Web 系统,对数据分析结果进行可视化。以北京公交网站数据作为爬虫测试平台,通过对公交线路类型、公交路线等信息进行采集分析及结果展示,分析结果对城市公交的规划具有一定的指导意义,同时,平台具有稳定可靠、操作简单、实时性强等特点。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词     
Abstract
With the continuous development of big data technology, network data collection technology has become a popular research field. Data collection function libraries based on Python language such as Urllib, Requests, Selenium and other modules are inefficient and easy to block, and the current data collection and analysis platforms are all independent functional modules, which do not form a closed loop and have a poor user experience. In order to solve the above problems, this paper proposes a data collection
and analysis platform. First, the Scrapy framework is used to complete data collection, and then the Kettle tool is used to clean the
collected data. The processed results are saved into the MySQL database. Finally, the Flask frame is combined with Echarts technology to build a Web system to visualize the data analysis results. This paper uses Beijing Public Transport website data as a crawlertest platform. Through the collection and analysis of bus line types, bus routes and other information, and the results display, the analysis results have certain guiding significance for the planning of urban public transport. At the same time, the platform is stable, reliable and easy to operate.

Key words
年卷期日期: 2021-11-10      出版日期: 2021-11-01
作者简介: 杨宇(1988-) ,男,贵州织金人,硕士研究生,工程师,研究方向为大数据技术与应用。
引用本文:   
杨 宇.
一种数据采集与分析平台的研究与设计
[J]. 电脑与电信, 2021, 1(11): 90-94.
YANG Yu.
Research and Design of a Data Acquisition and Analysis Platform
. Computer & Telecommunication, 2021, 1(11): 90-94.
链接本文:  
https://www.computertelecom.com.cn/CN/10.15966/j.cnki.dnydx.2021.11.002  或          https://www.computertelecom.com.cn/CN/Y2021/V1/I11/90
[1] 李 凯 王新科.
基于J2EE的高职院校电子阅览室座位
预约系统的研究
[J]. 电脑与电信, 2022, 1(5): 84-.
[2] 王 瑾 吕太之.
基于Spring Boot+ Vue的学生评奖评优
系统的设计与实现
[J]. 电脑与电信, 2021, 0(10): 52-55.
[3] 张娟 李沁怡 吕太之. 新生数据可视化系统的设计与实现[J]. 电脑与电信, 2020, 1(11): 26-28.
[4] 范晓玲. 基于J2EE 的会议室管理系统的设计与实现[J]. 电脑与电信, 2016, 1(10): 22-23.
[5] 吕太之. 基于Web2.0中小企业网管平台的设计与实现[J]. , 2011, 1(09): 0-0.
[6] 余光华. 基于MySQL的网络教育平台系统的分析与设计[J]. , 2011, 1(06): 0-0.
[7] 蔡 隽. 基于B/S架构开发的医疗设备管理系统[J]. , 2011, 1(02): 0-0.
No Suggested Reading articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
  Copyright © 电脑与电信 All Rights Reserved.
地址:广州市连新路171号广东国际科技中心 邮编:510033
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn
粤ICP备05080322号-4