母婴电商分析

栏目: 数据库 · 发布时间: 5年前

内容简介:数据分析5步骤一、提出问题不同年龄的商品购买量;

数据分析5步骤

提出问题

理解数据

数据清洗

构建模型

数据可视化

一、提出问题

不同年龄的商品购买量;

商品品类在男婴、女婴的消费分布;

二、理解数据

在阿里云天池上获取了儿童电商相关的数据

Tianchi:Data setstianchi.aliyun.com 商品表格字段 婴儿信息字段 在任意单元格上,单击鼠标右键,点击设置单元格格式;

对照如下表格,确定数据类型;(注:字符串类型左对齐、数字类型右对齐)

3.为了方便后面分析,我需要把表2中的出生日期、性别合并到表1中,这里需要用到Vlookup函数,利用用户ID去获取表2中的出生日期、性别

4.根据出生日期、购买日期算出儿童购买年龄=(购买日期-出生日期)/365

三、数据清洗

选择子集

列名重命名

删除重复值

缺失值处理

一致化处理

数据排序

异常值处理

1.选择子集

选择数据分析需要用到的列,不需要的列通过点击鼠标右键>点击隐藏,如果需要把隐藏的列展示出来,可以先全选表格,点击鼠标右键>点击取消隐藏。

2.列名重命名

商品表格字段:

user_id:用户ID

auction_id:用户行为

cat_id:商品种类编号

cat:商品序列号

property:商品属性

buy_mount:购买数量

day:购买日期

商品表格字段 婴儿信息字段:

user_id:用户ID

birthday:出生日期

gender:性别

婴儿信息字段 3.删除重复值

因为用户ID是唯一标识,所以通过这一列的值去确定有没有重复值。在选项卡点击数据>点击删除重复项。

4.缺失值处理

因为用户ID是信息的唯一标识,所以通过用户ID去确定其他列有没有缺失的数值,如果有缺失值,该如何对缺失值进行处理,有4种方法:

人工补全缺失值

删除缺失值

平均值代替缺失值

统计模型代替缺失值

这里针对人工补全缺失值详细说明一下,选择整列>点击编辑>点击查找>点击定位>点击定位条件>选择空值>点击确定,定位到缺失值后,先输入值,输入完成后点击ctrl+enter,其他空白单元格都变成了刚刚输入的值。

5.一致化处理

有些单元格的多个值,这会影响到后面数据分析的结果,所以需要做一致化的处理。可以使用Excel的分列功能,将某一列按照特定的规则拆分,需要注意的是分列功能会覆盖到右列单元格,所以在分列之前先把要分列的列复制到最后一列,复制后可以把原来的列隐藏掉。

然后通过下面步骤,完成分列,选择数据选项卡>选择分割符号>点击下一步>勾选连续分隔符号视为单个处理、勾选其他(在输入框中输入要进行分割的符号)>点击下一步>点击完成

有些列虽然有数字,但是是文本格式,不方便后面计算,计算的时候可能会用到Excel函数。可以按照下面步骤,计算值,选中要插入函数的单元格>点击公式选项卡下面的插入函数功能>选择函数要输入的数据>点击确定

常用函数如下:

Find查找一个字符串在另一个字符串中出现的起始位置

Find(要查找的字符串,字符串所在单元格位置)

截取字符串中的内容:left,Right,Mid

left/Right(字符串所在单元格位置,从左/右开始到XX位置进行截取)

Mid(字符串所在单元格位置,开始位置,截取长度)

find函数与left、Right、Mid函数配合使用,可以截取字符串中的任何内容。

通过筛选功能,可以查看哪些数值有错误,点击数据选项卡下的筛选,在弹出的弹框中拉倒最下面

6数据排序

把年龄项按照降序排列,点击功能区的 排序 和筛选,在出现的弹框中注意勾选扩展选定区域。

7.异常值处理

筛选出异常值,隐藏有异常值的行,再把完整数值行/列复制到新的表格里,因为如果在原表格,后面用到数据透视表分析的时候,也会取异常值,所以需要把需要分析的值复制到新建的表格。

四、构建模型

现在针对刚开始提出的问题构建模型:

不同年龄的商品购买量

插入数据透视表,把年龄项拖入行,把购买数量拖入计数项

各商品品类男童、女童的购买量对比 插入数据透视表,把性别拖入行,购买数量拖入计数项,商品序列号拖入列

通过数据分析 >描述统计可以分析出消费者的年龄分布情况

五、数据可视化

母婴电商分析

母婴电商分析

母婴电商分析

母婴电商分析

母婴电商分析

母婴电商分析

母婴电商分析

母婴电商分析

母婴电商分析

母婴电商分析

母婴电商分析


以上所述就是小编给大家介绍的《母婴电商分析》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

现代编译原理

现代编译原理

Andrew W.Appel、Maia Ginsburg / 人民邮电 / 2005-9 / 59.00元

《现代编译原理:C语言描述(英文版)(本科)》全面讲述了现代编译器的各个组成部分,包括:词法分析、语法分析、抽象语法、语义检查、中间代码表示、指令选择、数据流分析、寄存器分配以及运行时系统等。与大多数编译原理的教材不同,《现代编译原理:C语言描述(英文版)(本科)》采用了函数语言和面向对象语言来描述代码生成和寄存器分配,对于编译器中各个模块之间的接口都给出了实际的 C 语言头文件。 全书分成两部分......一起来看看 《现代编译原理》 这本书的介绍吧!

随机密码生成器
随机密码生成器

多种字符组合密码

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

MD5 加密
MD5 加密

MD5 加密工具