数据科学导论--2.理论基础 - 物流园资讯移动站

数据科学导论--2.理论基础

2024-11-10 22:38

数据科学导论--2.理论基础

2.1 数据科学的学科地位

2.2 统计学

1.统计学是数据科学的主要理论基础之一。

2.常用的统计学知识：

3.统计学与机器学习的区别与联系

4.数据科学视角下的统计学

2.3 机器学习

1.机器学习基本思路

2.机器学习三要素

3.KNN算法

4.概念学习

5.决策树学习

6.人工神经网络学习

7.贝叶斯学习

8.遗传算法

9.分析学习

10.增强学习

2.4 数据可视化

从学科地位看，数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大领域的重叠之处：

数据科学并不是以一个特定理论为基础发展起来的，而是包括数学与统计学、计算机科学与技术、数据工程与知识工程、特定学科领域的理论在内的多个理论相互融合后形成的新兴学科。

1.统计学是数据科学的主要理论基础之一。

2.常用的统计学知识：

i.从行为目的与思维方式看，统计方法可以分为两大类：描述统计和推断统计。

描述统计：

采用图表或数学方法描述数据的统计特征，如分布状态、数值特征等。

• 集中趋势分析：数值平均数、位置平均数等。

• 离中趋势分析：极差、分位差、平均差、方差、标准差、离散系数等。

• 相关分析：正相关、负相关、线性相关、线性无关等。

推断统计：

常用的推断方法有：参数估计和假设检验。

ii.从方法论角度看，基于统计的数据分析方法又可分为：基本分析法和元分析法。

基本分析法

• 用于对“低层数据(零次或一次数据)”进行统计分析的基本统计分析方法。

元分析法

• 用于对“高层数据(二次或三次数据)”,尤其是对基本分析法得出的结果进行进一步分析的方法。

• 常用的元分析法：加权平均法和优化方法

3.统计学与机器学习的区别与联系

1.从理论和方法角度看，统计学方法可以应用于机器学习，反之亦然。

2.统计学需要事先对处理对象的概率分布做出假定而机器学习不用。

3.二者之间存在着联系：

4.数据科学视角下的统计学

大数据思维在传统思维基础上的转换：

1.机器学习基本思路

以现有的部分数据(称为训练集)为学习素材(输入)，通过特定的学习方法(机器学习算法)，让机器学习到(输出)能够处理更多或未来数据的新能力(称为目标函数)。

2.机器学习三要素

•任务（T）

•性能指标（P）

•经验来源（E）

3.KNN算法

•主要解决训练样本集中的每个样本的分类标签已知的条件下，如何为一个新增数据给出对应的分类标签。

•关键在于“计算新增数据的特征与已有样本特征之间的相似度”。

4.概念学习

本质：从有关某个布尔函数的输入输出训练样本中推算出该布尔函数。（Find-S算法）

5.决策树学习

本质：一种逼近离散值目标函数的过程。（决策树代表一种分类过程。）

核心算法：ID3算法。

6.人工神经网络学习

人工神经元是人工神经网络的最基本的组成部分。

• 实现人工神经元的方法：感知器( Perceptron)、线性单元( Linear Unit)和 Sigmoid单元( Sigmoid Unit)等。

深度学习的关键在于计算观测数据的分层特征及其表示,其中高层特征或因子由底层得到。

7.贝叶斯学习

贝叶斯学习是一种以贝叶斯法则为基础的，并通过概率手段学习的方法。

8.遗传算法

主要研究的问题：

从候选假设空间中搜索出最佳假设: “最佳假设”指“适应度( Fitness)”指标为最优的假设。

三个基本算子：

选择、交叉、突变。

9.分析学习

分析学习是相对于归纳学习的提法。特点：使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关。

10.增强学习

主要研究：如何协助自治 Agent的学习活动,进而达到选择最优动作的目的。

重要地位主要表现：

(1)视觉是人类获得信息的最主要途径。

(2)相对于统计分析,数据可视化的主要优势体现在两个方面：

• 数据可视化处理可以洞察统计分析无法发现的结构和细节。

• 数据可视化处理结果的解读对用户知识水平的要求较低。

(3)可视化能够帮助人们提高理解与处理数据的效率。

以上就是本篇文章【数据科学导论--2.理论基础】的全部内容了，欢迎阅览！文章地址：http://changmeillh.xhstdz.com/quote/69661.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页物流园资讯移动站 http://changmeillh.xhstdz.com/mobile/ , 查看更多