AI从零开始之数学基础(一)

在我们进一步进行深入介绍之前,我们来把一些常见的数学概念和大家回忆一下,这样在后面的文章中,可以更加容易进行理解。

均值(mean)

均值就是我们常说的平均数,也被称之为算术平均数,它的计算方法就是把所有的数加起来,然后除以数的个数。它是计算平均数的一种方法(这里的平均数是一个更广泛的概念,和均值的平均数不是一个概念,这也是为什么我们严格意义上应该把均值称之为算法平均数的原因)。这个概念,我相信大家应该都还是比较理解的,就不多费笔墨在这里,而是直接举个例子说明一下:

例:假设我们有数据集1, 6,1,2,3, 8,4,5,5,7共十个数字,那么

均值=(1+6+1+2+3+8+4+5+5+7)/8=42/8=5.25

中位数(median)

中位数又称中值,顾名思义就是处于中间位置的数,但是这个中间位置是有一定要求的,它本质是希望这个中位数能够把数据集分成两个部分,一个部分是都比中位数大,另一个部分则是都比中位数小,所以这个中间位置其实是需要先把数据集进行排序的。也就是说它其实是排序之后处于中间位置的数。

例:假设我们有数据集1, 6,1,2,3, 8,4,5,5,7共十个数字,那么在求中位数之前我们需要先进行一下排序,排序后的结果是1,1,2,3,4,5,5,6,7,8,这样就是十个数字,10是一个偶数,中间其实是两个数字,也就是第五和第六,在例子中他们分别是4和5,这个时候的中位数就需要取他们的平均值:

中位数=(4+5)/2=4.5

假如我们的数据集是奇数个,那么就直接取中间位置的数即可。

众数(mode)

众数,就是说哪些数喜欢聚众闹事,我们就把它找出来。准确地讲就是在数据集中出现最频繁也就是次数最多的数,我们称之为众数。众数可以有多个,即假如有多个数出现的次数是一样的,同时又是最多的,那么我们就认为众数是这几个数。一个特殊情况,即所有的数出现次数都是相同的,那么没有众数。

例:假设我们有数据集1, 6,1,2,3, 8,4,5,5,7共十个数字,我们可以看到在这个数据集中1和5都是出现了两次,而其他数则只出现了一次,因此我们就说这个数据集的众数是1和5.

极差(Range)

极差又称之为范围误差或全距,它其实就是用来表示一组数据的范围的,说白了就是最大值和最小值之间的差距,因此他的计算方法也就比较简单,直接用最大值减去最小值即可。一般来说,极差越大表示整个数据集分得越开,越离散。

例:假设我们有数据集1, 6,1,2,3, 8,4,5,5,7共十个数字,我们可以看到这个数据集中最大值是8,最小值1,所以

极差= 8-1=7

中程数(mid-range)

中程数是一组数据中最大值和最小值的平均数,它用来反映数据集中趋势的一项指标。其实用脑袋想想,这样的算法并不是很合理,毕竟他忽略了整个数据集中其他的很多数据。因此他在实际情况中用得并不是很多。

例:假设我们有数据集1, 6,1,2,3, 8,4,5,5,7共十个数字,我们可以看到这个数据集中最大值是8,最小值1,所以

中程数=(1+8)/2=4.5

方差(Variance)

方差在统计学和概率论中有不同的定义,本文重点关注统计学方面的定义。

在统计学中,方差有总体方差和样本方差两种说法,在进一步介绍之前,我们先来看两个基本概念:样本和总体。

不难理解,总体就是全部所有,而样本则是我们观察或者调查的部分。之所以有这样的两个概念出现,主要原因是在很多情况下我们很难获得总体的信息,可能是总体太大了或者变化太快了,我们没法或者很难调查清楚。比如说我们想调查全球人口的年龄平均值,因为全球人口时刻都在变化,一秒钟有人生有人死,要想拿到全面真实的数据是很难的。所以我们可能会随机抽样一些人口来计算,那么这些抽样就是样本了。

总体方差就是每一个观察值与总体均值之间的差异,它是用来衡量随机变量的离散程度的度量。公式如下:

\sigma ^{2}=\frac{\sum (X-\mu )^{2}}{N}

 

其中\sigma ^{2}就是总体方差,X就是变量,\mu是总体均值,N为总体的个数。

事实上,我们很难拿到总体的情况,可能总体的个数都拿不到,所以就用了样本方差的概念,它的计算公式如下:

S ^{2}=\frac{\sum (X-\bar{X} )^{2}}{n-1}

其中S^{2}就是样本方差,X是变量,\bar{X}是样本均值,n为样本的个数。

我想精明如你的人肯定会有一个疑问,为什么这里是n-1而不是n呢,简单地说n-1会更加准确,但我们为什么选择的是n-1而不是n-2之类的,我们会在后面专门写一篇文章来推导一下,这里不再展开。

标准差(Standard Deviation)

标准差我们也称之为均方差,他其实很简单就是方差的算术平方根,用表示。他主要用来反映一个数据集的离散程度。这个时候我想你不禁会问我们有了方差为什么还要这个标准差啊,其实随便想想我们应该也能了解,比如说我们想统计学生的身高,以厘米为单位,那么方差计算出来的单位是什么呢,因为要平方,所以应该是平方厘米吧,是不是感觉有点乖乖的,平方厘米是计算身高还是计算面积呢?这大概也许可能就是我们需要标准差的原因吧,哈哈。它的计算公式如下:

\sigma =\sqrt{\frac{\sum(X-\mu )^{2} }{N}}

期望

期望是实验中每次可能结果的概率乘以其结果的总和,它反映了随机变量平均取值的大小。根据大数定律,数值的平均值基本收敛于期望。

有两种情况,一种是离散情况,我们知道每一个可能取值对应的概率为p(),那么他的期望E(x)可以用下面的公式来表示:

E(x)=\sum_{k=1}^{\infty }x_{k}p_{k}

例:学校有1000个学生,其中有一部手机的人有900人,两部手机的人有80个,三部手机的人有10人,则此学校中任意一个学生的手机量是一个随机变量,我们记为X,他的可能取值有0,1,2,3。其中取0的概率是0.01,取1的概率是0.9,取2的概率是0.08,取3的概率是0.01。所以期望E(X)=0*0.01+1*0.9+2*0.08+3*0.01=1.09。

另外一种是连续情况,这种情况下我们假设X的概率密度函数是f(X),且积分绝对收敛,那么他的期望值E(X)可以用下面的公式来表示:

E(x)=\int_{-\infty }^{\infty }xf(x)dx

至此,本文介绍了八个基本的数学概念:均值、中位数、众数、极差、中程数、方差、标准差、期望。希望能够对您有所帮助。

转载请注明出处:

http://www.softlifelogging.com/2018/06/05/ai从零开始之数学基础(一)/ ‎

更多精彩内容请关注公众: 随手记生活

No Comments

Leave a Reply

Your email address will not be published.