第五篇 统计学习方法是如何实现分类与聚类的(十六) 清华大学计算机系 马少平 第十六节: DBSCAN聚类算法 艾博士:在实际应用中,采集的数据往往是带有噪声的,噪声对聚类结果可能会带来很大的影响,严重影响聚类效果。如图5.59所示,彩色样本点的数据比较可靠,黑色样本点大概率是噪声数据。另外,从直观
第五篇 统计学习方法是如何实现分类与聚类的(十五) 清华大学计算机系 马少平 第十五节: 层次聚类算法 艾博士:层次聚类算法假设数据具有一定的层次结构,按照分层聚类的方式进行聚类。 小明:什么是数据的层次结构呢? 艾博士:很多数据都有层次上的结构特性。比如在体育比赛中,100米、200米、400米都
第五篇 统计学习方法是如何实现分类与聚类的(十四) 清华大学计算机系 马少平 第十四节:K均值聚类算法 小明:艾博士,您介绍了几个常用的分类算法,那么有哪些聚类算法呢? 艾博士:前面我们介绍的几种方法都属于分类方法,属于有监督学习,其特点是训练集中每个样本均给出了类别的标注信息,统计学习方法根据样本
第五篇 统计学习方法是如何实现分类与聚类的(十三) 清华大学计算机系 马少平 第十三节: 支持向量机用于多分类问题 小明:艾博士,前面我们讲解的支持向量机都是针对二分类问题的,也就是说只有两个类别,如何用支持向量机求解多分类问题呢? 艾博士:支持向量机也可以求解多分类问题,但不是直接求解,而是通过多
第五篇 统计学习方法是如何实现分类与聚类的(十二) 清华大学计算机系 马少平 第十二节: 核函数与核方法 艾博士:简单地说,如果函数K(xi,xj)= φ(xi) ·φ(xj) ,则称 K(xi,xj)为核函数。 注意核函数是在原空间计算的函数,而φ(xi) ·φ(xj) 是在变换后新空间的向量点积
第五篇 统计学习方法是如何实现分类与聚类的(十一) 清华大学计算机系 马少平 第十一节: 非线性支持向量机 小明:前面讲解的,无论是否线性可分,都是线性支持向量机,也就是求解一个最优超平面,将两类样本分开。但是有些情况下样本的分布可能比较复杂,用超平面很难将两类的大部分样本分开,是不是有非线性的支持
第五篇 统计学习方法是如何实现分类与聚类的(十) 清华大学计算机系 马少平 第十节:线性支持向量机 小明:您前面介绍的支持向量机叫线性可分支持向量机,也就是说要求训练集中的样本必须是线性可分的。如果训练集不满足线性可分条件,比如说绝大部分样本可以用一个超平面分开,但是有少数样本不能被区分开,如图5.
第五篇 统计学习方法是如何实现分类与聚类的(九) 清华大学计算机系 马少平 第九节:线性可分支持向量机 艾博士:我们首先讨论最简单的线性可分支持向量机。 小明:线性可分支持向量机是个什么概念呢? 艾博士:对于给定的训练集 T=(x1,y1),(x2,y2),...,(xn,yn) ,如果采用该训练集
第五篇 统计学习方法是如何实现分类与聚类的(八) 清华大学计算机系 马少平 第八节:什么是支持向量机 艾博士:小明,请看图5.24所示的例子,“○”是一个类别,“△”是一个类别,如果用一条直线将两类分开,你觉得怎么分好? 小明思考了一会儿说:我觉得如图5.25所示,将红线作为两个类别的分界线比较好。
第五篇 统计学习方法是如何实现分类与聚类的(七) 清华大学计算机系 马少平 第七节:K近邻方法 艾博士:俗话说,物以类聚人以群分,如果两个事物距离很接近,那么我们就有理由认为这两个事物很可能是同一个类别。这样,对于一个待分类样本,可以计算其与训练数据集中所有样本的距离,与其最近的一个样本的类别就可以
第五篇 统计学习方法是如何实现分类与聚类的(六) 清华大学计算机系 马少平 第六节:随机森林算法 艾博士:下面我们对决策树算法做一个扩展讨论。设想我们有一个足够大的数据集,将该数据集分成n份,用每份构建一个决策树,这样我们对同一个问题就有了n个决策树。多个决策树组合在一起就构成了“决策森林”。
第五篇 统计学习方法是如何实现分类与聚类的(五) 清华大学计算机系 马少平 第五节:过拟合问题与剪枝 艾博士:过拟合是机器学习中经常遇到的问题,决策树学习也会遇到过拟合问题。 小明:在第一篇神经网络与深度学习中您曾经介绍过过拟合问题,那么决策树学习中的过拟合问题与之前介绍过的过拟合问题有什么不同呢?