BIT 数据挖掘作业
1.本次选择两个数据集
分别是Trending YouTube Video Statistics 和 Oakland Crime Statistics 2011 to 2016
对应相应的文件名字
2.主要包含如下操作: 1)数据处理-缺失值填充(根据按属性关系填补、按上一个值填补、直接删除)、去重 2)数据描述-describe()求出基本统计量-如五数概括等 3)统计频数频率(主要用于字符串类型属性、也用于部分数值型) 4)根据特点增加新属性(拓展)、目的是进一步分析数据 5)可视化-直方图、盒图
3.说明 两个.ipynb文件中,分别加载了每个数据集中的一个文件,更改文件名即可加载其他文件。对于其他单个以及多个文件的数据分析在报告中有展示(如表格、图等形式)。