夏老师带你领悟数据的来源与本质和机器学习的终极目的-青青社区-仙桃大数据学院-终身学习、创新创造、分享共享、晋级进阶

夏老师带你领悟数据的来源与本质和机器学习的终极目的

574 0 1 仙桃大数据学院楼主
2020-02-04 22:31
分享到：

大数据分析的数学原理

大数据分析的基本目的是对各种采集清洗后的数据进行数学分析、归纳而得到有用信息。本系列讲座从两个最基本的问题出发：1. 数据的来源与本质；2. 机器学习的终极目的。

数据是有规律的。我们的数据有可能来源于一个确定系统，当然也可能来自于随机系统。世界是随机的还是确定的？这是一个争论已久的问题。在与量子力学家们争论的时候，爱因斯坦曾经很气愤地说过：“我不相信上帝会扔骰子！”。

其实随机与确定是对立的，也是统一的。随机系统有很强的确定性，比如每一个气体分子在一个封闭盒子里的位置和速度都是随机的，但气体整体则是非常规则的，宏观上完全感觉不到每个分子漫无规则的激情运动。从随机到确定所依赖的数学原理是两个著名的概率论定理：大数定理和中心极限定理。

相反，很多确定系统却展现了很强的随机性，比如气象系统的蝴蝶效应，三体运动的混沌现象。一个确定系统的演化随着时间的增加，往往会产生随机效应。从确定到随机的数学原理是动力系统的混沌理论。

如何从数据中总结规律？如何从已有数据进行预测？这是机器学习的根本问题。目前，对应不同实际问题，有多种不同机器学习方法，其效率参差不齐。其实，我们把各种机器学习上升到一个高度，从信息论的角度去看这个问题，我们所做的不过是让我们的猜测和所掌握的数据尽量保持一致！也就是说，我们猜测的数据不得增加新的信息量。比如，我们每天看到太阳从东边升起，我猜测明天太阳仍旧从东方升起，我的猜测数据的加入，并没有增加信息量，但我如果猜测明天太阳不再升起或者从西边升起，我猜测的数据就增加了很多信息量，也就变得很不合理。

如何定义信息量是一个数学问题，常用的概念是“熵”。理解熵就能理解大数据分析和机器学习的本质。在算法上有所创新必须从熵出发。

本系列讲座将分成三大部分：

1. 随机并非任意，随机系统的确定性
2. 确定未必可测，确定系统的随机性
3. 数据的信息量、熵及应用

2020年2月4日立春后，第一批视频课程将陆续登录青青社区

抓紧报名吧，http://www.qingxzd.com/collect/info/introduce

亲，登录后您才可以回帖登录| 注册

HOT 夏老师带你领悟数据的来源与本质和机器学习的终极目的

夏老师带你领悟数据的来源与本质和机器学习的终极目的