# 写在前面
- 书籍介绍:暂无。
- 我的简评:暂无。
- !!福利:文末有书籍地址、笔记思维导图、相关资料下载地址哦
# 第一章:20分钟看懂大厂如何运用数据分析
仓库、运输、分拨、配送
仓库的拣选效率低,想办法提升拣选效率
拣选效率=拣选数量/拣选工时
拣选作业:领取拣选批次、选择合适的拣选工具、行走至目标仓位、选取需拣选的目标商品、目标商品放至拣选容器、将商品送至包装区域
数据处理层(历史销售数据、用户行为数据、促销数据、商品价格数据、其他业务数据)=》预测模型层(销售预测模型)=》决策优化层(当前的拣选区域、未来的预测销量、成本最低原则)=》指令下达层(商品移位指令)=》作业执行层(作业人员执行移位作业)
# 数据分析过程
描述性分析
做什么:实际拣选效率是多少?效率水平是高还是低?
如何做:数据获取、质量分析、指标设计、分析报告
诊断性分析
做什么:拣选效率为什么低?如何才能提升拣选效率?
如何做:占比分析、贡献度分析、时间序列分析、公式法分析
预测性分析
做什么:如何知道商品的未来销量?
如何做:决策树算法、随机森林算法、神经网络算法
决策性分析
做什么:日常如何作业效率最高?
如何做:三步分析法、数据产品设计
数据分析方法:数据库(SQL、HIVE)、分析工具(Python、R、Excel)、分析理论(统计学、数据挖掘)
# 第二章:数据分析的那些事
# 2.1.为什么要学习数据分析?
数据革命的带来
应用领域非常广、产生大量的新型就业、影响的人群非常大、和日常生活息息相关、具有很大渗透性
数据采集(手机、电脑终端各类传感器等)、数据传输(宽带、蓝牙、移动网络等)、数据存储(数据仓库、云存储等)、数据应用(数据分析与挖掘决策系统等)
数据是企业的竞争力的核心
人才和数据是阿里巴巴集团最大的财富和最核心的竞争力
在欧盟、美国等发达国家,数据分析普遍被作为运营决策的前提要素
将数据与企业运营相结合的公司其生产率高于其他企业5-6个百分点
airbnb、今日头条
数据分析将成为工作的必备能力
# 2.2.学习数据分析有哪些好处?
薪资水平高
人才缺口大
就业范围广
# 2.3. 从事数据分析的职业发展路线是怎样的?
业务:数据分析(高级)=〉数据产品经理=〉总经理/CEO
技术:数据分析(高级)=〉数据挖掘工程师=〉数据科学家
数据分析师:将数据中的价值提取、分析并解读出来以指导行动
数据科学家:运用数据科学领域知识对数据进行采集、处理、挖掘、建模等操作,以形成洞察并最终解决问题的专业型人才
数据产品经理看是面向特定需求和数据处理流程来开发产品的人。解决用户需求的产品方案、形成对应的产品需求文档、选择何种数据人员来满足客户需求、保证项目的顺利开展、提供产品的优化、迭代和运维方案
# 2.4.从事数据分析的能力要求是什么?
- 逻辑思维能力、数据解读能力、沟通表达能力、编程能力、建模能力、产品设计能力
# 第三章:数据分析的四个层级
# 3.1.什么是描述性分析及描述性分析可以做什么?
数据分析:使用大量数据、统计、定量分析、预测模型以及基于事实的管理来推动决策过程和实现价值增生
数据分析的四个层次:监控现状(描述性分析)、诊断问题(诊断性分析)、预测未来(预测性分析)、决策分析(决策性分析)
描述性分析:以组成事件的关键环节为基础,通过设置合理的指标对各环节进行量化,以达到还原事件的目的。同时可以根据科学的评价标准,发现事件发生过程中的异常
描述性分析目的:描述现实(发生了什么?)、发现问题(结果是好是坏?)
# 3.2.什么是诊断性分析及诊断性分析可以做什么?
没有找到具体原因的解决方案都是假方案
诊断性分析:根据业务逻辑,通过数据寻找引起最终结果的原因和可以改变未来结果的方法
诊断性分析目的:解决问题(坏的结果:产生问题的原因和解决的方案)、发现机会(好的结果:在机会出现时发现机会)
# 3.3.什么是预测性分析及预测性分析可以做什么?
精准智能营销的一个典型应用发生在美国第二大超市塔吉特百货
预测性分析:通过统计学、数据挖掘模型来对数据进行处理,发现隐藏的信息或预测分析对象的某些未知属性
挖掘机会:分类(确定对象属于哪一个预定义的目标类)、聚类(根据在数据中发现的描述对象的信息,将对象进行分组)、关联分析(发现隐藏在大型数据集中的有意义的联系)、离群点检测(发现与其他对象不同的对象)
# 3.4.什么是决策性分析及决策性分析可以做什么?
决策性分析:通过数据分析、挖掘确定事件的最佳执行方案,以实现增加收入、降低成本、提升效率、控制风险的目的
实现目标:决策支持(现状及目前存在的问题;可以达成的最优目标;达成目标的方案;达成目标的收益和成本;输出分析报告,给出分析结论;)、决策系统(输出作业指令、指导作业)
分析层次:描述性分析(描述现实、发现问题)、诊断性分析(解决问题、发现机会)、预测性分析(挖掘机会)、决策性分析(实现目标)
# 第四章:认识数据
# 4.1.什么是数据及数据集?
数据的分类:定性数据(不可计算的,如头发的颜色,有黑、白、黄等)、定量数据(可以计算的,如商品的销量,员工的收入等)、定时数据(表示日期、时间的)
数据集的结构:行(每一行是一个对象的记录,也叫做事件、样本、案例或者向量)、列(每一列是对象的一个属性,也叫做对象的特征、数据集的字段或者维度)
属性的分类及处理方式:定性的(提供足够信息以区分对象,众数、分布分析等);定量的(对对象某些特征的统计数值,均值、方差、标准差等);定时的(日期、时间的统计,时间序列)
# 4.2.什么是指标及如何评估数据的质量?
指标的属性:业务属性(名称、计算逻辑、描述对象、时效和查询权限等);技术属性(系统来源、取数字段、取数频率、加工规则)
指标的分类(按统计方式分):基础指标(指对描述对象的直接统计结果,未经过转化的数据。如交易笔数、交易金额、交易用户数等)、符合指标(指建立在基础指标之上,通过一定运算规则形成的反映事件结果的数据,如合格率、完成率、利润率等)
指标的分类(按照描述内容分):数量指标(反映事件的规模、数量、统计结果等,如人口总数、当日销售额等)、质量指标(反映事件的质量、强度、经营管理的质量、经营效果等的数据,如合格率、完成率、利润率等等)
数据的质量:缺失值(数据集中的某个字段或某几个字段缺失)、重复值(重复或者几乎重复的记录,应该唯一的对象出现重复)、异常值(不同于其他大部分数据对象的特征的数据,即小概率事件发生了。或者超过取值范围的异常值等)、准确率(数据描述结果与实际情况有偏差)
# 第五章:数据的质量分析
# 5.1.数据的准确率及重复值的识别和处理
准确性原因(对数据的理解有误,字段含义与理解含义不同;指标的统计逻辑有差异;数据不完整,有缺失或遗漏)
重复值原因(数据录入时重复录入;数据处理时产生了多条数据)
# 5.2.缺失值的识别和处理方法
- 缺失值处理方法:重新收集、插值法补入、删除
# 5.3.异常值的识别和处理方法
异常值识别方法:业务逻辑判别、统计判别
异常值处理方法:删除、视为缺失值、保留异常
# 第六章:数据的分布分析
# 6.1.定量数据的分布分析方法(上)
分布分析:对数据的分布情况进行描述,从而对事件的发生规律有准确的认识
分布分析:定量数据(事件发生的一般结果是什么?事件结果的变化情况?事件各个结果的发生概率是什么?)、定性数据(哪些对象是需要重点关注的?)、定时数据(事件发生的趋势是什么样的?事件的发生是否存在周期性?)
定量数据的分布分析:中心位置(集中趋势)(均值、中位数、众数、四分位数)、分散程度(离中趋势)(方差、标准差、极差、变异系数)、图形特征(图形特点)
# 6.2.定量数据的分布分析方法(下)
离散型随机变量:0-1分布、二项分布、泊松分布
连续型随机变量:均匀分布、正态分布
事件各个结果的发生概率是什么?大概率事件发生是正常的,小概率事件发生是异常的
最终目标:根据事件发生的概率制定最优决策
# 6.3.定性数据的分布分析方法
目的:寻找不同类别对象间的区别,或者对不同类别的对象做不同的处理,确定需要重点关注的对象
定性数据分布分析:占比分析(以某一类定性特征作为分类标准看定量数据的分布情况)、贡献度分析(以某一类定性特征作为统计对象看定量数据的累计分布情况)
# 6.4.定时数据的分布分析方法
目的:寻找事件发生结果随时间变化的规律
定时数据分布分析:周期性分析(事件的发生是否存在周期性)、时间序列分析(事件的发生趋势是怎么样的)
# 第七章:描述性分析方法
# 7.1. 描述性分析的方法、步骤
描述性分析;以组成事件的关键环节为基础,通过设置合理的指标对各环节进行量化,以达到还原事件的目的。同时可以根据科学的评价标准,发现事件发生过程中的异常
分析目的:描述现实(发生了什么)、发现问题(结果是好是坏)
分析步骤:确定描述对象;明确业务目标,熟悉业务逻辑;分割业务环节,确定关键节点;利益关系人及关系人的关注点;确定可以描述分析对象的指标;确定指标的评价标准;数据的展示;
# 7.2. 实战案例1:网站运营分析
通过描述性分析,可以对任何业务进行分析,快速实现描述现实,发现问题的目的
获客=〉激活=〉留存=〉变现=〉传播
节点:业务流程中的每一个关键环节就是一个节点;流量:进入到每一个节点的用户数量;转化率:通过该层的流量/到达该层的流量;
# 7.3. 实战案例2:用户画像及用户留存分析
- 用户留存分析、用户画像分析、标签数据分类、热力图
# 第八章:诊断性分析方法
# 8.1. 诊断性分析的方法、步骤
诊断性分析:根据业务逻辑,通过数据寻找引起最终结果的原因和可以改变未来结果的方法
分析目的:解决问题(坏的结果:产生问题的原因和解决的方案)、发现机会(好的结果:在机会出现时发现机会)
分析步骤:1、确定问题的描述指标,以及指标的统计逻辑;2、确定指标的类别,是基础指标还是复合指标;3、对复合指标进行分解,分解到基础指标;4、对指标的描述对象进行分解,分解到基础对象;5、通过业务逻辑解释基础对象产生基础指标的原因;6、根据分析原因制定解决方案;
分析方法:逻辑分析法、对比分析、相关性分析
# 8.2. 案例:寻找交易额下降的原因
- 通过诊断性分析,寻找引起最终结果的原因和可以改变未来结果的方法
# 第九章:预测性分析方法
# 9.1. 分类分析的方法、步骤及应用案例
分类是简化认识、降低管理成本、提升管理效率的重要手段
常用的分类方法:决策树算法、随机森林算法、KNN-最近邻分类算法、神经网络算法等
计算步骤:1、选择对象的一个特征,并根据这一特征对训练集进行分类;2、计算某特征分类后分类结果的混乱程度;3、以混乱程度最低为原则,确定最佳节点;4、删除不必要的节点;5、生成模型进行预测;
# 9.2. 聚类分析的方法、步骤及应用案例
聚类分析:仅依据数据中发现的描述对象的特征,将数据进行分组,其目标是,组内的对象相互间是相似的,而不同组之间的对象是不同的
常用算法:K-means、K-中心点、多层次聚类
K-means算法是以最小误差函数的值最小为目的,按照预先设定的划分类别数量,采用距离作为相似性的评价指标,认为两个对象的距离越近,其相似度越大
距离计算方法:欧几里得距离、曼哈顿距离
# 9.3. 关联分析的方法、步骤及应用案例
关联分析:发现隐藏在大型数据集下有意义的联系
关联分析步骤:支持度计数、计算支持度、置信度计数、计算置信度、确定频繁项集
常用算法:APriori、FP-tree
# 9.4. 离群点检测的方法、步骤及应用案例
应用场景:羊毛党识别、故障设备识别、欺诈检测
离群点检测:发现与其大部分对象不同的对象
检测方法:基于统计、基于邻近度、基于密度
判别方法:拉伊达准则3x原则、等概率原则、拉格布斯准则
# 第十章:决策性分析方法
# 10.1. 决策性分析的方法、步骤(上)
决策性分析:通过数据分析、挖掘确定事件的最佳执行方案,以实现增加收入、降低成本、提升效率、控制风险的目的
决策:大决策(决策频率低,单次决策影响大,价值高)、小决策(决策频率高、单次决策影响小,总价值高)
决策支持的分析步骤:1、现状是什么;2、现状存在哪些问题;3、解决方案是什么;4、可行性分析;5、分析结论;
# 10.2. 决策性分析的方法、步骤(下)
- 窃电用户识别
# 10.3. 数据分析的思维模型
- 确定分析目的、熟悉业务逻辑、获取数据、数据质量分析、描述性分析、诊断性分析、预测性分析、决策性分析
# 写在后面
- pdf书籍、笔记思维导图、资料打包下载地址:暂无
- 思维导图在线查看:点击打开
- 得到电子书地址:暂无