数据集为某电商平台2016年一整年的交易数据, 数据包含104557条数据,10个字段。
1、各个月的订单数是否均衡?
2、在不同价格段之间的商品销售情况?
3、在不同时间段下单情况如何?
发现 deviceName 有87个缺失值,而 deviceType 没有缺失值,看一下 deviceType 的取值分布:
发现这一列有类别为6的值,数量刚好为87,而设备信息文件并没有6这个类别,怀疑是信息填错了,将其重新归类为5,同时将 deviceName 的缺失值用"other"进行填充:
还有一列有8个缺失值,数据占比较少,我们直接将其删除:
删除缺失值之后,再来看一下数据集的大小:
可以通过数据概况初步探索异常值:
根据上面的结果可以看出 productId 最小值是0,payMoney 有负值,这明显是不合理的,我们需要对其进行处理。
首先看看 productId 值为0的数量,数量较少的话直接删除:
对于 payMoney 存在负值的记录,直接将其删除:
再看一下这两列值的情况:
先来看一下2016年一年的总体情况:
价格分析
对于价格,可以看下所有商品价格的分布,这样可以知道什么价格的商品卖的最好:
下单时间分析
按小时分析:
从上图可以看出, 中午12-14点下单比较多,应该是午休的时候,然后是晚上20点左右,晚上20点左右几乎是所有互联网产品的一个高峰,下单高峰要注意网站的稳定性、可用性。下单高峰时间段也可以考虑进行推广,效果会更佳。
按星期分析:
从上面可以看出,上班时间订单量不断上升,在周六达到顶峰,休息时间人们有更强的购买欲望,这也是比较符合现实的。
支付时间分析
可以看一下客户在下单之后多久时间会进行支付:
从上面可以看出,大部分人下单50秒以内就会进行支付,说明用户基本很少犹豫,购买的目的性很强。
用饼图看一下比例: