AI从零开始之我们为什么为了那个虚无缥缈的f而奋斗

在前文我们介绍统计学简介的时候说,我们是为了那个虚无缥缈的f而奋斗的,我们知道做任何事情其实都是有一定目的的,比如说我们工作是为了赚钱,赚钱是为了买房,买房是为了娶老婆,娶老婆是为了生孩子,生孩子是为了传宗接代(开个玩笑)。那么我们来评估f是为了什么呢?其实,说白了业界认为其实就主要有两个目的:“预测”( prediction)和“推论”(inference)

预测

很多情况,像我们之前提到的房价预测。它就是通过一系列我们已经看到的X和Y的结果,来进行预测心得输入的结果。我们之前提到Y = f(X) + Ɛ, 而因为Ɛ的平均值是0,所以我们可以用下面公式来进行预测:

\hat{Y}=\hat{f}(X)

其中\hat{f}就是f的预测,而\hat{Y} 则是我们想要的结果Y的预测值。一般来说,这种情况,我们不care \hat{f}究竟是什么,我们要的是结果,所以\hat{f} 对我们来说就是一个黑盒。

我们通常认为\hat{Y}的准确性由两部分来决定,一部分就是 \hat{f}的准确性,这部分我们称之为可减少(reducible)。他是由于\hat{f}这个的不准确性导致的,我们理论上可以通过技术的改进,不断地缩小这个误差,使得\hat{f}=f,从而 \hat{Y}=f(X) 。那么这种情况下的 \hat{Y}就是准确的吗,其实并不然,我们在之前的文章中提到,其实真实的Y值还和Ɛ相关,而Ɛ则是和X无关的一个误差,这个误差是没有办法规避的,我们称之为irreducible。

到了这个时候,我想你可能就要问了,这个Ɛ究竟是怎么来的啊,为什么我们不能避免啊,其实一般意义上来说,Ɛ可能是由一些我们没有测量的值引入的。比如说我们预测房价,我们有了和房价相关的各种因素,比如面积,学区,交通等等,但是我们没有去收集装修信息,那么这个装修信息就成了我们这个Ɛ的一个来源;除了这个,还有一种是没法收集的信息引入的误差,比如房子墙角的蜘蛛网,让来看房的人感觉不舒服,或者买房人的讨价还价的能力,这些都可能引起最终房价的波动。而这些就是一些我们没法通过技术来规避的误差。

推论

这种情况下的case,一般来说我们会关系Y和各个X之间的关系,而不是去预测一个新的输入会有什么样的输出。比如说我们提到到的工资和学历以及经验之间的例子,假如我们更关心的是不同的工资究竟受学历的影响情况如何,而不是说来预测一个新的学历的人能拿到多少工资。

在这种情况下, \hat{f}就不能是一个黑盒了,我们需要通过\hat{f} 来分析各种X对 \hat{Y}的影响程度。

一般来说,推论可以回答这些问题:

  1. 哪些用来预测的X是和Y相关联的,这个在有大量X而真正重要的X比较少的情况下尤其有效。
  2. Y和各个X之间的关系。就是说我们修改每一个X对Y的最终是一个正向的影响还是一个负向的影响。这样我们就可以决定如何修改这些X了。
  3. Y和各个X之间的关系可以用简单的线性关系来描述还是必须要用一个复杂的公式来描述。

 

这就是本文想要解释的我们为f而奋斗两个重要目的,预测和推论。

转载请注明出处: http://www.softlifelogging.com/2018/06/05/ai从零开始之我们为什么为了那个虚无缥缈的f而奋/

更多精彩内容敬请关注公众号: 随手记生活

No Comments

Leave a Reply

Your email address will not be published.