相关推荐
电商销售数据分析(2021/07/27)
2024-11-10 22:15

如题,本次案例分析某电商平台的销售数据。本次案例的特点是,数据量比较大,原始数据存在比较多的问题,所以数据处理的过程比较典型。

电商销售数据分析(2021/07/27)

还是按照原先的数据分析流程,概览数据-->数据处理-->数据分析

概览数据重点关注,数据的标识问题,了解数据字段,大概观察下数据的问题。

1.数据的标识有订单标识和row_id, 订单标识有重复的问题,业务原因是一个订单买了三件商品,数据就给展开了。其中row_id是数据的唯一标识。

2.数据字段主要描述国际贸易的电商交易,其字段含义。。。 

3.postalcode存在大量空值,需要处理 

 我们知道数据按照数据来源不同可以分为,一方数据,二方数据,三方数据。通常情况下,一方数据和二方数据脏数据会相对偏少,使用起来也比较方便。

 我们之前提到过脏数据可以分为三类,异常值,缺失值,重复值。分类不同处理方式不同。

脏数据类型 优先处理方式 次级处理方式 异常值 修正 删除 缺失值 补充 删除 重复值 删除

 下面这个图也可以更清晰的理解:总之就是重要的数据不要自己补,会影响数据真实性,不重要的数据缺失就缺吧。 

数据处理流程可以细分为:读取数据-->提取业务数据-->数据清洗-->数据规整,其中提取业务数据和数据清洗是结合着一起做的。以下是实例。

读取数据51101 rows × 24 columns

 

整个数据清洗的流程一般情况下是

先处理 重复值(标识),同步处理异常值,空值,处理完成后再次处理重复值

这么做的原因是,在处理异常值和空值的时候可能会涉及到用整列数据计算填补,重复值的存在导致无法填补。

处理类型:重复值处理,标识数据

处理重复值--->找出唯一标识--->去重

 

 处理类型:计算时间数据,计算判断脏数据,Series类型转换

根据业务判断我们需要通过 发货时间shipdata 减去 下单时间orderdata 提取  物流时间interval。且这两个数据存在脏数据,有的发货时间比订单时间还要早。

先将两列数据都转换成日期格式

两者相减计算成秒数,提取脏数据

处理脏数据

将相减结果作为新的数据项

    以上就是本篇文章【电商销售数据分析(2021/07/27)】的全部内容了,欢迎阅览 ! 文章地址:http://changmeillh.xhstdz.com/quote/68575.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://changmeillh.xhstdz.com/mobile/ , 查看更多   
发表评论
0评