第五篇 统计学习方法是如何实现分类与聚类的(十四) 清华大学计算机系 马少平 第十四节:K均值聚类算法 小明:艾博士,您介绍了几个常用的分类算法,那么有哪些聚类算法呢? 艾博士:前面我们介绍的几种方法都属于分类方法,属于有监督学习,其特点是训练集中每个样本均给出了类别的标注信息,统计学习方法根据样本
第五篇 统计学习方法是如何实现分类与聚类的(十三) 清华大学计算机系 马少平 第十三节: 支持向量机用于多分类问题 小明:艾博士,前面我们讲解的支持向量机都是针对二分类问题的,也就是说只有两个类别,如何用支持向量机求解多分类问题呢? 艾博士:支持向量机也可以求解多分类问题,但不是直接求解,而是通过多
第五篇 统计学习方法是如何实现分类与聚类的(十二) 清华大学计算机系 马少平 第十二节: 核函数与核方法 艾博士:简单地说,如果函数K(xi,xj)= φ(xi) ·φ(xj) ,则称 K(xi,xj)为核函数。 注意核函数是在原空间计算的函数,而φ(xi) ·φ(xj) 是在变换后新空间的向量点积
第五篇 统计学习方法是如何实现分类与聚类的(十一) 清华大学计算机系 马少平 第十一节: 非线性支持向量机 小明:前面讲解的,无论是否线性可分,都是线性支持向量机,也就是求解一个最优超平面,将两类样本分开。但是有些情况下样本的分布可能比较复杂,用超平面很难将两类的大部分样本分开,是不是有非线性的支持
第五篇 统计学习方法是如何实现分类与聚类的(十) 清华大学计算机系 马少平 第十节:线性支持向量机 小明:您前面介绍的支持向量机叫线性可分支持向量机,也就是说要求训练集中的样本必须是线性可分的。如果训练集不满足线性可分条件,比如说绝大部分样本可以用一个超平面分开,但是有少数样本不能被区分开,如图5.
第五篇 统计学习方法是如何实现分类与聚类的(九) 清华大学计算机系 马少平 第九节:线性可分支持向量机 艾博士:我们首先讨论最简单的线性可分支持向量机。 小明:线性可分支持向量机是个什么概念呢? 艾博士:对于给定的训练集 T=(x1,y1),(x2,y2),...,(xn,yn) ,如果采用该训练集
第五篇 统计学习方法是如何实现分类与聚类的(八) 清华大学计算机系 马少平 第八节:什么是支持向量机 艾博士:小明,请看图5.24所示的例子,“○”是一个类别,“△”是一个类别,如果用一条直线将两类分开,你觉得怎么分好? 小明思考了一会儿说:我觉得如图5.25所示,将红线作为两个类别的分界线比较好。
第五篇 统计学习方法是如何实现分类与聚类的(七) 清华大学计算机系 马少平 第七节:K近邻方法 艾博士:俗话说,物以类聚人以群分,如果两个事物距离很接近,那么我们就有理由认为这两个事物很可能是同一个类别。这样,对于一个待分类样本,可以计算其与训练数据集中所有样本的距离,与其最近的一个样本的类别就可以
第五篇 统计学习方法是如何实现分类与聚类的(六) 清华大学计算机系 马少平 第六节:随机森林算法 艾博士:下面我们对决策树算法做一个扩展讨论。设想我们有一个足够大的数据集,将该数据集分成n份,用每份构建一个决策树,这样我们对同一个问题就有了n个决策树。多个决策树组合在一起就构成了“决策森林”。
第五篇 统计学习方法是如何实现分类与聚类的(五) 清华大学计算机系 马少平 第五节:过拟合问题与剪枝 艾博士:过拟合是机器学习中经常遇到的问题,决策树学习也会遇到过拟合问题。 小明:在第一篇神经网络与深度学习中您曾经介绍过过拟合问题,那么决策树学习中的过拟合问题与之前介绍过的过拟合问题有什么不同呢?
第五篇 统计学习方法是如何实现分类与聚类的(四) 清华大学计算机系 马少平 第四节:决策树 ——C4.5算法 艾博士:ID3算法是一个被广泛使用的决策树算法,但是也存在一些不足。 小明:ID3算法有哪些不足呢? 艾博士:ID3算法存在的主要问题是,当按照信息增益选择特征时,会倾向于选择一些取值多的特
第五篇 统计学习方法是如何实现分类与聚类的(三) 清华大学计算机系 马少平 第三节:决策树 ——ID3算法 艾博士:我们在对事物进行分类时,常常先用某个特征先划分成几个大类,然后再一层层的根据事物特点进行细化,直到划分到具体的类别。 比如,根据饮食习惯可以判断是哪个地方的人。可以先根据是否喜欢吃辣的