32 5.2.1 数据采集的方法和工具逐字稿 高中 · 信息技术 · 粤教版 · 必修1 数据与计算

admin1002024-01-04 09:55:29

老师

同学们好,在上节课的学习中,我们了解了大数据的概念,从互联网产生大数据的角度、互联网思维的角度、大数据存储与计算的角度三个角度分别分析了大数据的特征,了解了大数据对日常生活产生的正面、负面影响。这节课我们将学习数据采集的方法和工具。为完成范例,网络购物平台客户行为数据分析与可视化表达,我们需要从网络购物平台上获取数据,我们需要什么数据?用什么工具采集?怎样采集?数据的来源广泛、类型丰富、规模巨大。同学们知道数据的来源有哪些吗?例如,网上购物时会产生网购记录。又例如,网约车出行时会记录行车路线及订单信息。再例如,公路气象监测设备会定期采集气象数据。总的来说,数据的来源主要是互联网与物联网。针对不同来源的数据,我们又可以怎样采集数据?采集数据的基本方法包括系统日志采集法、网络数据采集法和其他数据采集法三类。系统日志我们平常很少接触到。在信息系统中,系统日志是记录系统硬件、软件和系统问题的信息文件。系统日志包括操作系统日志、应用日志和安全日志。系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息由选择的定向推送到日志服务器进行存储、监控和管理。通过日志服务器,人们可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。当然,我们也可以将日志信息下载下来,使用更多的工具或编程来进行更深入的分析。

老师

对于互联网数据,则需要通过网络数据采集法进行采集。网络数据采集法是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息。网络爬虫是一种程序,它从一个或若干个初始网页的 URL 开始获得初始网页的URL。在抓取网页的过程中,不断地从当前页面上抽取新的URL,放入队列,直到满足系统的一定停止条件。

老师

互联网中大部分数据都是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库或二维逻辑表来表现的非结构化数据,比如所有格式的办公文档、文本、图片、网页、各类报表、图像和音频视频信息等等。使用网络爬虫可以将其从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。

老师

除了系统日志采集法和网络数据采集法,我们还有其他的数据采集方法。对于企业生产经营或科学研究等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式收集数据。例如,科学研究的查看隐藏内容

《32 5.2.1 数据采集的方法和工具逐字稿 高中 · 信息技术 · 粤教版 · 必修1 数据与计算》.doc
将本文下载保存,方便收藏和打印
导出文档