Skip to content

《数据科学家养成手册》阅读笔记

写在前面

  • 书籍介绍:暂无。
  • 我的简评:暂无。
  • !!福利:文末有书籍地址、笔记思维导图、相关资料下载地址哦

认知篇

第1章 什么是科学家

  • 除了王侯将相会留下他们的传记外,还有两类人会留下他们的名字:艺术家和科学家

1.1.从太阳东升西落开始

  • 农历、公历

  • 从简单的”太阳东升西落,四季夏热冬冷“就能总结出如此完备的历法体系,并指导几千年的作息和生产生活

1.2.阿基米德爱洗澡?

  • 浮力定律

  • 杠杆原理

1.3.托勒密的秘密

  • 地心说的集大成者

  • 建立一套相对完备的、能够自圆其说 的天文运行系统

1.4.牛顿为什么那么牛

  • 苹果和三大定律

  • 极限和微积分

  • 微积分是高等数学中研究函数的微分、积分及有关概念和应用的数学分支

1.5.高斯 - 高, 实在是高

  • 高斯分布

  • 高斯使用的”最小二乘法“发表于他1809年的著作《天体运动论》中

1.6.离经叛道的爱因斯坦

  • 总结什么性质的人才能称为科学家:突破性、精确性、体系性

第2章 什么是科学

2.1.科学之科

  • 一种泛指的领域,包括数据科学、计算机科学、社会科学、经济科学、语言科学、生物科学等都是小、窄而深的认知领域

2.2.边界的迷茫

  • 已知的已知,已知的未知,未知的已知,未知的未知

2.3.科学之殇

  • 阿基米德、哥白尼、爱因斯坦、居里夫人

  • 要想研究数据科学,就一定要对科学有足够的认识

第3章 数据与科学

3.1.什么是数据

  • 数据无处不在

3.2.数学的奥妙

  • 《几何原本》

  • 原著包括15卷,涵盖几何、代数、圆、角、多边形、比例、数论等初等数学中最重要的概念

  • 《九章算术》

  • 中国古代工农业生产应用题大全,方田、栗米、衰分、少广、商功,均输,盈不足,方程,勾股

  • 数学的分支学科非常多,例如代数学、几何学、解析几何、拓扑学、代数拓扑学、统计学、运筹学等

  • 我们今天能够使用互联网看网页、听音乐、看视频、和千里之外的朋友聊天,都是拜傅里叶变换的理论基础所赐

第4章 数据科学的使命

4.1.走进数据科学

  • 介质、从信息到数据、数据科学的本质

4.2.万能的数据科学

  • 测量、统计计算、指标

4.3.使命必达

  • 定性:有问题;定位:问题在哪里;定量:问题的大小或数量

  • 高效生产

  • 破除迷信

  • 目标一致与不一致

  • 带来了”消除不确定性,降低试错成本“的巨大利益

第5章 矛盾的世界

5.1.古希腊 - 学者高产的国度

  • 毕达哥拉斯、柏拉图、欧多克斯、亚里斯多德、欧几里得、阿基米德、阿波罗尼乌斯、托勒密、丢潘图

  • 物理学的尽头是数学,数学的尽头是哲学,哲学的尽头是神学

5.2.矛盾无处不在

  • 作为辨证哲学的一种表现形式,其中蕴含着丰富的矛盾

5.3.世界究竟是否可知

  • 在任何时候,都不能说我们”看到“的一切就是一切

5.4.薛定谔的"喵星人"

  • ”猫生死叠加“的著名思想实验

第6章 实验和哲学

6.1.朴素的认知方法

  • 眼见为实

  • 归纳与总结

6.2.哲学靠谱吗

  • 有一种说法,哲学是科学的科学

  • ”理论联系实际“是马克思主义哲学中很重要的一条认知原则

6.3.数学的尽头是哲学

第7章 辨证思维

  • 辨证思维注重的是从多个角度看待事物,推敲事物认知的矛盾,进而得到一个统一的概念或解释

7.1.要不要辨证有多大区别

  • 两小儿辩日

7.2.谁对谁错

  • 黑白图:是人脸还是杯子

7.3.做到客观不容易

  • 客观是一个抽象名词,意思是意识之外,不依赖精神而存在的,不以人的意志为转移。客观是事实存在的,和主观对立

  • 人类对世界的认知都是通过人类的主观感知获得的,通过视觉、听觉、嗅觉、触觉、味觉等方式来感知,然后由人的大脑记忆

  • 色盲

  • 事物本身是客观的,但感知是主观的

7.4.观念的存弥

  • 只要用于辨证思维的智慧,科学理论的代谢就只取决于感知的边界扩张了

  • 风吹人事件

分化篇

第8章 统计学

8.1.数理统计鼻祖 -- 阿道夫-凯特勒

  • 不仅把概率统计的方法引入人口、领土、政治、农业、工业、商业、道德等社会领域,还把概率统计的方法引入天文、气象、地理、动物、植物等自然领域

8.2.统计就是统共合计

  • 现代统计学可以分为两大类:一类是以抽象的数量为研究对象,研究一般的收集数据、整理数据和分析数据方法的理论统计学;另一类是以各个不同领域的具体数量为研究对象的应用统计学

8.3.数据来源

  • 直接、间接

8.4.抽样

  • 目的是用少量的数据样本来代表总体

8.5.对照实验

  • 一个好的实验,对照组和实验组的产生不仅应该是随机的,而且应该是匹配的

8.6.误差

  • 抽样误差、非抽样误差

  • 非抽样误差的原因有很多种情况:抽样框误差、回答误差、无回答误差

8.7.概括性度量

  • 集中趋势度量、离散程度度量

  • 集中程度的数据指标:众数、中位数和四分位数等

  • 离散程度的度量指标:方差、标准差、极差等

8.8.概率与分布

  • 概率有几种不同的定义:古典定义、统计定义和主观概率定义

  • 主观概率往往是凭经验进行判断

  • 数学期望、正态分布、其他分布(伯努利分布、泊松分布、卡方分布)

  • 正态分布应该是自然界中存在最为普遍的分布形态

8.9.统计学与大数据

第9章 信息论

  • 信息论是围绕数据存储与传输量化等一系列问题所展开的一门专门研究信息的学科,对之后的所有计算机数据压缩与传输科学的推动都起着不可磨灭的作用

  • 信息论的鼻祖就是大名鼎鼎的图克劳德-艾尔伍德-香农

9.1.模拟信号

  • 信息是被消除的不确定性

9.2.信息量与信息熵

  • 将在一次消息表达中所包含的不同含义数量m的对数定义为信息量

  • 一种描述信息杂乱或意外程度的方式称为信息熵

9.3.香农公式

9.4.数字信号

  • 数据传输中的抗干扰能力和加密能力都变强了

9.5.编码与压缩

  • 无损压缩、有损压缩

第10章 混沌论

10.1.洛仑兹在想什么

  • 1963年,洛仑兹发表了一篇题为《确定性周期流》的论文

  • 著名的”蝴蝶效应“就是混沌现象为大众所知的一种气象学体现

10.2.罗伯特-梅的养鱼计划

  • 生物种群个体数量研究领域出现的混沌现象

10.3.有限的大脑,无限的维

10.4.”谋杀上帝“的拉普拉斯

  • 拉普拉斯所写的《天体力学》中对”上帝“只字未提

10.5.庞加莱”不是省油的灯“

  • 研究三体问题时发现了混沌现象

  • 他发现越是深入研究小尘埃的轨道在奇点附近的性质形态,问题就越多

10.6.未知居然还能预测

  • 即使不能以非常精确和确实的数字给出预测结果,也可以用基于统计的概率性结论给出预测结果

第11章 算法学

  • 算法学应该说是从计算机组成原理中慢慢进化出来的一种研究如何”控制“计算机的学科

11.1.离散的世界

  • 离散数学中一个非常重要的概念叫做”笛卡尔乘积“

11.2.成本的度量

  • 时间复杂度、空间复杂度

11.3.穷举法 - 暴力破解

  • 对于模型的解空间有限离散的情况最为适合

  • 适用于数据量小、硬件极为丰富或预期处理不充分的场景

11.4.分治法 - 化繁为简

  • 二分查找、多路归并排序、大整数乘法等,都是典型的把复杂问题简化为局部与局部之间的简单问题获解进而得到全局解的思路

  • Hadoop框架的解决方案本质上就是分治法的应用

  • 分治法只适用于那些可以简化为使用高内聚、低耦合方式解决的问题

11.5.回溯法 - 能省则省

  • 核心思路是,按选优条件向前搜索,以达到目标。当搜索到某一步时,如果发现原先的选择不优或无法达到目标,就退回一步重新选择。走不通就退回的方法

  • 剪枝法不仅可以应用在类似寻找迷宫出口的问题上,在地图导航等领域的应用及变种应用也很多

11.6.贪心法 - 局部最优

  • 思路很明确,就是在每一步向前试探的时候都找到当前的”最优解“,其他的解一律不看

  • 迪杰斯特拉算法用于求解有向图中的最短路经问题

11.7.迭代法 - 步步逼近

  • 不是一个算法,而是一类算法的解题思路

  • 核心思路就是用步步逼近的方式来接近理论上的精确值,只要发现当前的试探值已经收敛到一个满足场景要求的误差精度,就可以迭代结束,并将这个试探值作为求解的目标值

  • 牛顿法

  • 梯度下降法

  • 遗传算法

  • 梯度下降法的一种增强方式,可以以比较高的效率解决高维空间上的极小值查找问题,以及离散数学中的NP问题

11.8.机器学习 - 自动归纳

  • 数据挖掘是随着商务智能发展起来的一种相对比较新的算法学科

  • 非监督学习

  • 监督学习

  • 强化学习

11.9.神经网络 - 深度学习

  • 1.神经元

  • 2.BP神经网络

  • 3.损失函数

  • 4.非线性分类

  • 5.激励函数

  • 6.卷积神经网络

  • 7.循环神经网络

实践篇

第12章 数据采集

12.1.数据的源头

  • 收集流程:感知、传输、保存

12.2.日志的收集

  • 1.实时上传

  • 常见3种方式:1、在终端使用DTU上传;2、在终端使用Wi-Fi或有线以太网上传;3、在服务器端使用以太网上传

  • 日志高可用:1.日志最安全、2.效率最高

  • 2.延时上传

  • 两种场景:1、在终端使用Wi-Fi或有线以太网上传;2、在服务器端使用以太网上传

  • 3.加密问题

  • 对称加密、非对称加密

  • 4.压缩问题

  • 5.连接方式

  • 短连接、长连接

  • 6.消息格式

  • 7.维度分解

  • 12.3.这只是不靠谱的开始

第13章 数据存储

  • 一般两种处理方式:内存流计算保存结果;直接存储后续再查询分析

13.1.读写不对等

  • 读多写少

  • 读少写多

  • 读写都多

13.2.进快还是出快

  • 最快写入

  • 读出最快

13.3.文件还是数据库

13.4.要不要支持事务

13.5.表分区和索引

  • 表分区

  • 索引

  • 常见索引:B-Tree索引、Bitmap索引、Hash索引

13.6.稳定最重要

13.7.安全性和副本

  • RAID

  • 软冗余

第14章 数据统计

14.1.此”统计“恐非彼”统计“

14.2.要精确还是要简洁

  • 升降维的手段

14.3.统计是万能的吗

  • 认知帮助,自身局限

14.4.关注性能

  • 尽量使用分布式计算

第15章 数据建模

  • 基本步骤:观察记录、猜测假说、迁移验证、调整测试

15.1.模型是宝贵的财富

  • ”模型“实际上是指一种数据之间定量转化的关系或者关系假说

  • 3种渠道:经验总结、算法归纳、咨询购买

15.2.量化是关键

15.3.该算法出马了

  • 1.统计学模型

  • 2.线性关系

  • 3.复杂的非线性关系

15.4.算法的哲学

  • 5步走:拿样本、做训练、进行优化、做验证、测试

第16章 数据可视化与分析

16.1.看得见,摸得着

16.2.颜色很重要

16.3.别说布局没有用

  • 1.由上而下,由简而繁

  • 2.总-分,分-总,总-分-总

  • 3.毗邻吸引

16.4.有图就要有表格

16.5.分析的内涵

  • 1.相关性分析

  • 2.预测分析

  • 3.其他分析

16.6.有趣的统计应用

  • 1.不规则图形的面积

  • 2.套出你的实话

  • 使用随机原理

  • 3.巧测圆周率

  • 蒲丰投针

16.7.仁者见仁,智者见智

  • 人的认知能力是有限的,对于越远期、越微观的事物、人类的把控能力越弱

16.8.永恒的困惑

  • 所有的预测和分析都要经过实践的验证才能够被证明或证伪

第17章 数据决策

17.1.决策就是”拍脑袋“

17.2.哪里有物质,哪里就有数据

  • 1.目的的统一

  • 2.数据胜于雄辩

17.2.这是风险博弈

  • 1.性价比优先

  • 2.小迭代至上

  • 3.不要”输不起“

  • 4.留得青山在

  • 太多的问题无法做到有效的量化或量化的成本过高,如名誉、品牌影响力、科技水平等

案例分析

1.K线图里的秘密

2.数学能救命

  • 二战时期盟军护航舰队的例子

3.人人都能运筹帷幄

  • 统计学是侧重对大量数据的观察和认知的学科

  • 信息论是围绕信息量进行研究的学科

  • 混沌论体现的是对系统中不确定性现象的研究方法

  • 算法学则讨论如何合理利用计算机的资源调度方式去解决一个问题模型

写在后面

  • pdf书籍、笔记思维导图、资料打包下载地址:暂无
  • 思维导图在线查看:点击打开
  • 得到电子书地址:暂无