内容简介:数据分析5步骤一、提出问题不同年龄的商品购买量;
数据分析5步骤
提出问题
理解数据
数据清洗
构建模型
数据可视化
一、提出问题
不同年龄的商品购买量;
商品品类在男婴、女婴的消费分布;
二、理解数据
在阿里云天池上获取了儿童电商相关的数据
Tianchi:Data setstianchi.aliyun.com 商品表格字段 婴儿信息字段 在任意单元格上,单击鼠标右键,点击设置单元格格式;
对照如下表格,确定数据类型;(注:字符串类型左对齐、数字类型右对齐)
3.为了方便后面分析,我需要把表2中的出生日期、性别合并到表1中,这里需要用到Vlookup函数,利用用户ID去获取表2中的出生日期、性别
4.根据出生日期、购买日期算出儿童购买年龄=(购买日期-出生日期)/365
三、数据清洗
选择子集
列名重命名
删除重复值
缺失值处理
一致化处理
数据排序
异常值处理
1.选择子集
选择数据分析需要用到的列,不需要的列通过点击鼠标右键>点击隐藏,如果需要把隐藏的列展示出来,可以先全选表格,点击鼠标右键>点击取消隐藏。
2.列名重命名
商品表格字段:
user_id:用户ID
auction_id:用户行为
cat_id:商品种类编号
cat:商品序列号
property:商品属性
buy_mount:购买数量
day:购买日期
商品表格字段 婴儿信息字段:
user_id:用户ID
birthday:出生日期
gender:性别
婴儿信息字段 3.删除重复值
因为用户ID是唯一标识,所以通过这一列的值去确定有没有重复值。在选项卡点击数据>点击删除重复项。
4.缺失值处理
因为用户ID是信息的唯一标识,所以通过用户ID去确定其他列有没有缺失的数值,如果有缺失值,该如何对缺失值进行处理,有4种方法:
人工补全缺失值
删除缺失值
平均值代替缺失值
统计模型代替缺失值
这里针对人工补全缺失值详细说明一下,选择整列>点击编辑>点击查找>点击定位>点击定位条件>选择空值>点击确定,定位到缺失值后,先输入值,输入完成后点击ctrl+enter,其他空白单元格都变成了刚刚输入的值。
5.一致化处理
有些单元格的多个值,这会影响到后面数据分析的结果,所以需要做一致化的处理。可以使用Excel的分列功能,将某一列按照特定的规则拆分,需要注意的是分列功能会覆盖到右列单元格,所以在分列之前先把要分列的列复制到最后一列,复制后可以把原来的列隐藏掉。
然后通过下面步骤,完成分列,选择数据选项卡>选择分割符号>点击下一步>勾选连续分隔符号视为单个处理、勾选其他(在输入框中输入要进行分割的符号)>点击下一步>点击完成
有些列虽然有数字,但是是文本格式,不方便后面计算,计算的时候可能会用到Excel函数。可以按照下面步骤,计算值,选中要插入函数的单元格>点击公式选项卡下面的插入函数功能>选择函数要输入的数据>点击确定
常用函数如下:
Find查找一个字符串在另一个字符串中出现的起始位置
Find(要查找的字符串,字符串所在单元格位置)
截取字符串中的内容:left,Right,Mid
left/Right(字符串所在单元格位置,从左/右开始到XX位置进行截取)
Mid(字符串所在单元格位置,开始位置,截取长度)
find函数与left、Right、Mid函数配合使用,可以截取字符串中的任何内容。
通过筛选功能,可以查看哪些数值有错误,点击数据选项卡下的筛选,在弹出的弹框中拉倒最下面
6数据排序
把年龄项按照降序排列,点击功能区的 排序 和筛选,在出现的弹框中注意勾选扩展选定区域。
7.异常值处理
筛选出异常值,隐藏有异常值的行,再把完整数值行/列复制到新的表格里,因为如果在原表格,后面用到数据透视表分析的时候,也会取异常值,所以需要把需要分析的值复制到新建的表格。
四、构建模型
现在针对刚开始提出的问题构建模型:
不同年龄的商品购买量
插入数据透视表,把年龄项拖入行,把购买数量拖入计数项
各商品品类男童、女童的购买量对比 插入数据透视表,把性别拖入行,购买数量拖入计数项,商品序列号拖入列
通过数据分析 >描述统计可以分析出消费者的年龄分布情况
五、数据可视化
以上所述就是小编给大家介绍的《母婴电商分析》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 云听健康:以AI算法听母婴心肺,识疾病症状
- 妈妈帮携手神策数据 数据赋能打造母婴智能陪伴者
- 使用动态分析技术分析 Java
- 使用动态分析技术分析 Java
- 案例分析:如何进行需求分析?
- 深度分析ConcurrentHashMap原理分析
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。