老师
同学们好,在上一节课我们学习了数据采集的方法和工具,也学习了数据的存储和保护,并与学习伙伴协作完成了项目相应的数据采集,总结归纳了数据采集的方法和步骤。这节课我们将学习与探究数据分析的知识。数据分析就是在一大堆杂乱无章的数据中,运用数字化工具和技术探索数据内在的结构和规律,构建数学模型并进行可视化表达。通过验证将模型转化为知识,位于诊断过去,预测未来发挥作用。数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价等。同学们,我们在网络购物平台购买书籍的时候,一般会先对比书籍的价格和销量,再确定在哪个商家进行购买,也就是说价格和销量会对我们的购物行为带来一定的影响。现在我们想对收集到的网络购物平台商品销售数据进行分析,了解不同价格和销量的商品销售情况,帮助我们购物决策。
老师
该怎么分析?我们可以通过绘制直方图来进行分析,这就需要通过数据特征探索来实现。那什么是数据特征探索?数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
老师
接下来我们一起通过判断程序探究如何对数据进行特征探索。现在请同学们在九尾德中打开并运行程序。 5 - 3- 1 数据预处理在小组中讨论交流,观察数据预处理的结果,并记录在下面表格中。我们需要从数据库中调取数据,所以在运营程序前先将数据导入到数据库中。首先运行XMPP,启动组件 Apache 和MySQL,在 time PP 页面点击 MySQL 的 admin 按钮,进入 MySQL 管理页面,创建数据库data,再将资源文件淘宝点 SQL 导入到数据库 data 中。自研文件淘宝点收口中存放的是我们采集到的数据,下面请同学们开始探究。相信同学们通过运营程序和讨论交流,已经对数据特征探索有了初步了解,下面我们一起来分析一下。
老师
首先在具体之中打开程序 5 - 3- 1 数据预处理,这段代码为导入我们需要的第三方模块库,这段代码实现从数据库中导入数据。这段代码实现对数据进行清洗,处理缺失值。这里我们将价格等于 0 的数据全部都赋值为2000。这段代码是绘制横轴为价格,纵轴为销量的散点图。运行这段程序后,我们可以观察到数据分布不均匀,不利于计算与分析。所以在下面这段程序中,我们将销量大于1万,价格大于 6000 的数据当作异查看隐藏内容