博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
读<机器学习的那些事>
阅读量:4035 次
发布时间:2019-05-24

本文共 868 字,大约阅读时间需要 2 分钟。

一篇介绍机器学习领域“民间知识”或者经验的文章,写的挺有趣的,作为一个只会一点点的人,简略记一下一些东西。

1. 学习=表示+评价+优化。

表示就是用什么方法来表示数据,评价就不用说了,优化指的是选择效果最好分类器的搜索方法。

 

2. 机器学习的基本目标是对训练集合中样例的泛化。

 

3. 每个学习器都要有一些数据之外的知识或者假设,才能将数据泛化。如果没有其他的知识,没有学习器会比在所有可能的布尔函数中随机猜测得到的结果更优。

幸运的是,在真实世界中(实际任务中),我们要学习的函数并非均匀的来自所有可能的函数。所以,即使是一些泛泛的假设,比如平滑,相似样例有相似的类别,有限依赖,有限复杂度,能够起很大作用,这也是机器学习如此成功的重要原因。

 

4. 对付过拟合的方法,常用的一个是交叉验证,另一个是对评价函数增加一个正则化项(regularization term)。这样可以惩罚那些包含更多结构的分类器,倾向于更小的那些,从而降低过拟合的可能性。

 

5. 机器学习中,除了过拟合,另一个问题就是维度灾难。机器学习显式或隐式依赖的的基于相似度的推理不适用于高维空间。

有一个效应,可以在一定程度上抵消维度灾难。在大多数应用中,样例在空间中并非均匀分布,而是集中在一个低维流形上面或者附近。

 

6. 机器学习任务成功与否最重要的因素是所使用的特征。通常原始数据不能直接拿来学习,需要从中构建特征。这是机器学习项目的主要内容。

 

7. 效果不够好的两种提高方式,设计更好的算法,或者收集更多的数据。

有大量数据的笨办法胜过少量数据的聪明方法。

 

8. 各种机器学习方法的工作机制基本上是相同的。这个论断可能让你吃惊,但本质上所有学习器都是将临近的样例分到同一个类别中,不同之处在于对于“临近”的定义。

 

9. 学习器可以分为两大类,一类的表示是大小不变的,如线性分类器;另一类的表示会随着数据而增长,如决策树。

 

10. 几乎没有学习器能穷尽搜索整个假设空间。一个在较大的假设空间搜索较少假设的学习器,比在较小空间搜索较多假设的学习器更不容易过拟合。

转载地址:http://kzbdi.baihongyu.com/

你可能感兴趣的文章
struts2中constant参数设置
查看>>
Struts2中struts.multipart.maxSize设置
查看>>
CheckStyle插件在eclipse中的安装及配置
查看>>
PowerDesigner 导入数据库建表SQL脚本生成物理模型
查看>>
idea的xml配置中url显示:URI is not registered ( Setting | Project Settings | Schemas and DTDs )
查看>>
如何修改源码>重新打包>替换源文件
查看>>
@Slf4j注解的使用
查看>>
SpringBoot通过配置devtools实现热部署
查看>>
springboot+springsecurity+jwt进行系统权限开发
查看>>
使用轻量级工具emoji-java处理emoji表情字符
查看>>
排序算法的C语言实现C代码
查看>>
c语言快排函数调用方法模板
查看>>
c语言实现多行输入输出数据
查看>>
查找算法
查看>>
C语言单链表实现
查看>>
SQL基本命令集合整理
查看>>
QT中json的生成和解析
查看>>
std::function 和 std::bind 的简单例子
查看>>
CFormView简介
查看>>
Visual Studio 2010 与 VC++ 6.0 的操作差异(一)之对话框中添加OnInitDialog()函数
查看>>