首页 > 数学兴趣圈-夏志宏 >夏老师带你领悟数据的来源与本质和机器学习的终极目的

夏老师带你领悟数据的来源与本质和机器学习的终极目的

  •  211  0  1 仙桃大数据学院楼主
    2020-02-04 22:31
    分享到:

大数据分析的数学原理

大数据分析的基本目的是对各种采集清洗后的数据进行数学分析、归纳而得到有用信息。本系列讲座从两个最基本的问题出发:1. 数据的来源与本质;2. 机器学习的终极目的。

数据是有规律的。我们的数据有可能来源于一个确定系统,当然也可能来自于随机系统。世界是随机的还是确定的?这是一个争论已久的问题。在与量子力学家们争论的时候,爱因斯坦曾经很气愤地说过:“我不相信上帝会扔骰子!”。

其实随机与确定是对立的,也是统一的。随机系统有很强的确定性,比如每一个气体分子在一个封闭盒子里的位置和速度都是随机的,但气体整体则是非常规则的,宏观上完全感觉不到每个分子漫无规则的激情运动。从随机到确定所依赖的数学原理是两个著名的概率论定理:大数定理和中心极限定理。

相反,很多确定系统却展现了很强的随机性,比如气象系统的蝴蝶效应,三体运动的混沌现象。一个确定系统的演化随着时间的增加,往往会产生随机效应。从确定到随机的数学原理是动力系统的混沌理论。

如何从数据中总结规律?如何从已有数据进行预测?这是机器学习的根本问题。目前,对应不同实际问题,有多种不同机器学习方法,其效率参差不齐。其实,我们把各种机器学习上升到一个高度,从信息论的角度去看这个问题,我们所做的不过是让我们的猜测和所掌握的数据尽量保持一致!也就是说,我们猜测的数据不得增加新的信息量。比如,我们每天看到太阳从东边升起,我猜测明天太阳仍旧从东方升起,我的猜测数据的加入,并没有增加信息量,但我如果猜测明天太阳不再升起或者从西边升起,我猜测的数据就增加了很多信息量,也就变得很不合理。

如何定义信息量是一个数学问题,常用的概念是“熵”。理解熵就能理解大数据分析和机器学习的本质。在算法上有所创新必须从熵出发。

本系列讲座将分成三大部分:

1. 随机并非任意,随机系统的确定性
2. 确定未必可测,确定系统的随机性
3. 数据的信息量、熵及应用


2020年2月4日立春后,第一批视频课程将陆续登录青青社区


抓紧报名吧,http://www.qingxzd.com/collect/info/introduce

 
1
+1

亲,登录后您才可以回帖 登录| 注册