Home

机器学习第一章 引言

15 Jun 2013 by LelouchHe

关于机器学习

这几天在看机器学习这本书,本来一直想看类似的东西,在Coursera上也报名了ML的课程,但是一直都没有时间.现在换了新家,以后可以稍微早些回家了,而且周末也不需要去公司加班了,这样就有很长的时间来看这些东西增强自己.更何况,每天上下班的路上还有2个小时可以来看书,所以决定这一块要好好的搞一下

至于原因么,因为机器学习实在是太赞了,虽然以前曾经弄过类似的东西,但是理论知识比较缺乏,所以半懂不懂的,现在正好可以努力一下.

本系列仅仅是机器学习的读书笔记,除了此书上的讲解的东西,可能还会融入一些其他书的内容和理解,比如最近看的非常好的统计学习方法和Coursera上的东东.

机器学习定义

根据Andrew Ng的说法,机器学习并没有很正式的定义,此处只是一个比较”押韵”的版本(Ng语)

(当然,Ng说的是英语版本的押韵)

机器学习举例

上述定义中的TPE都是比较抽象的概念,我们下面通过一个比较简单的例子(其实就是书上的例子)–下棋来解释机器学习

就下棋而言:

但是显而易见,TPE是抽象的,对于解决问题,我们需要更加定量化的指标,因此我们需要下面的量:

机器学习分类

机器学习大体上分为两类,监督学习和非监督学习.这两类之间的最重要的区别是是否存在人工的目标给定(“Answer Given”)

人工的目标给定出现在若干个训练的地方,比如经验获取时,是否人工给出既定的目标(比如人工指出某些棋局的分数),设计损失函数时,如何衡量误差(和上一个类似,有既定分数么?估计函数的分数怎么表示趋近呢?)

监督学习表示上述这些都人工给出,而非监督学习则没有

监督学习

监督学习中监督说人工给出程序训练样本的真实目标,比如针对所有的训练棋局,我们都人工给出一个真正的分数,然后让程序训练试图达到这样的目标.

监督学习处理的问题有两个重要的分类:

  1. 回归问题(Regression): 回归问题是指训练目标是连续值或可以看作连续值的问题.比如Ng经常讲的房价问题,虽然房价肯定不是连续值(它有最小单位,不可能是连续实数),但大体上可以看作连续值处理.回归问题就是在给定一系列训练样本和目标值,来预测或者判断真实数据的目标值
  2. 分类问题(Classification): 分类问题同回归问题相反,它给出阿训练目标是离散值.

实际上,我觉得这个分类的核心更多的是在问题,而不是在目标值上.比如分类问题中,为什么是离散值,因为分类本身的数量就比较少,其实如果我们把连续值当作无数个离散值的话,二者的区别就没有了.所以说,这二者的区别,更多是应用方面,而不是系统本质上的

无监督学习

无监督学习的概念和监督学习相反,我们并没有给出训练样本的目标值,或者是我们也并不知道这些训练样本的目标值,我们知道的只有一系列数据,但数据本身的各种属性是未知的.

无监督学习处理的问题也有两个重要的分类:

  1. 聚类问题(Cluster): 聚类问题类似监督学习中的分类问题,只是训练数据的目标分类并不是我们人工事先知道的,我们需要依靠程序来获得这样的分类数据.比如从一堆杂乱无章的数据中得到一些分类信息,来区分不同的数据(比如Ng讲的社交圈子划分,或者市场营销划分等)
  2. 鸡尾酒问题(Cocktail): 类似聚类问题,不过它并不只是分类,还要将不同分类下的数据分开