目录
2.1 数据科学的学科地位
2.2 统计学
1.统计学是数据科学的主要理论基础之一。
2.常用的统计学知识:
3.统计学与机器学习的区别与联系
4.数据科学视角下的统计学
2.3 机器学习
1.机器学习基本思路
2.机器学习三要素
3.KNN算法
4.概念学习
5.决策树学习
6.人工神经网络学习
7.贝叶斯学习
8.遗传算法
9.分析学习
10.增强学习
2.4 数据可视化
从学科地位看,数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大领域的重叠之处:
数据科学并不是以一个特定理论为基础发展起来的,而是包括数学与统计学、计算机科学与技术、数据工程与知识工程、特定学科领域的理论在内的多个理论相互融合后形成的新兴学科。
1.统计学是数据科学的主要理论基础之一。
2.常用的统计学知识:
i.从行为目的与思维方式看,统计方法可以分为两大类:描述统计和推断统计。
描述统计:
采用图表或数学方法描述数据的统计特征,如分布状态、数值特征等。
• 集中趋势分析:数值平均数、位置平均数等。
• 离中趋势分析:极差、分位差、平均差、方差、标准差、离散系数等。
• 相关分析:正相关、负相关、线性相关、线性无关等。
推断统计:
常用的推断方法有:参数估计和假设检验。
ii.从方法论角度看,基于统计的数据分析方法又可分为:基本分析法和元分析法。
基本分析法
• 用于对“低层数据(零次或一次数据)”进行统计分析的基本统计分析方法。
元分析法
• 用于对“高层数据(二次或三次数据)”,尤其是对基本分析法得出的结果进行进一步分析的方法。
• 常用的元分析法:加权平均法和优化方法
3.统计学与机器学习的区别与联系
1.从理论和方法角度看,统计学方法可以应用于机器学习,反之亦然。
2.统计学需要事先对处理对象的概率分布做出假定而机器学习不用。
3.二者之间存在着联系:
4.数据科学视角下的统计学
大数据思维在传统思维基础上的转换:
1.机器学习基本思路
以现有的部分数据(称为训练集)为学习素材(输入),通过特定的学习方法(机器学习算法),让机器学习到(输出)能够处理更多或未来数据的新能力(称为目标函数)。
2.机器学习三要素
•任务(T)
•性能指标(P)
•经验来源(E)
3.KNN算法
•主要解决训练样本集中的每个样本的分类标签已知的条件下,如何为一个新增数据给出对应的分类标签。
•关键在于“计算新增数据的特征与已有样本特征之间的相似度”。
4.概念学习
本质:从有关某个布尔函数的输入输出训练样本中推算出该布尔函数。(Find-S算法)
5.决策树学习
本质:一种逼近离散值目标函数的过程。(决策树代表一种分类过程。)
核心算法:ID3算法。
6.人工神经网络学习
人工神经元是人工神经网络的最基本的组成部分。
• 实现人工神经元的方法:感知器( Perceptron)、线性单元( Linear Unit)和 Sigmoid单元( Sigmoid Unit)等。
深度学习的关键在于计算观测数据的分层特征及其表示,其中高层特征或因子由底层得到。
7.贝叶斯学习
贝叶斯学习是一种以贝叶斯法则为基础的,并通过概率手段学习的方法。
8.遗传算法
主要研究的问题:
从候选假设空间中搜索出最佳假设: “最佳假设”指“适应度( Fitness)”指标为最优的假设。
三个基本算子:
选择、交叉、突变。
9.分析学习
分析学习是相对于归纳学习的提法。特点:使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关。
10.增强学习
主要研究:如何协助自治 Agent的学习活动,进而达到选择最优动作的目的。
重要地位主要表现:
(1)视觉是人类获得信息的最主要途径。
(2)相对于统计分析,数据可视化的主要优势体现在两个方面:
• 数据可视化处理可以洞察统计分析无法发现的结构和细节。
• 数据可视化处理结果的解读对用户知识水平的要求较低。
(3)可视化能够帮助人们提高理解与处理数据的效率。