机器学习 August 20, 2018

1-0机器学习基础

Words count 2.8k Reading time 3 mins. Read count 0

数据整体叫数据集(data set)

每一行数据成为一个样本(sample)

除最后一列,每一列表达样本的的一个特征(feature)

最后一列,称为标记(label)

机器学习的任务

分类任务

二分类

例如:

判断邮件是不是垃圾邮件

判断发放给客户信用卡是否有风险

判断患病是良性还是恶性

判断股票的涨跌

多分类

例如:

数字识别

图像识别

判断发放给客户信息卡的风险评级

多标签分类

回归任务

例如:

房屋价格

市场分析

学生成绩

股票价格

监督学习和非监督学习

监督学习

给机器的训练数据拥有“标记”或者“答案”

例如:

图像已经拥有了标定信息

银行已经积累了一定的客户信息和他们信用卡的信用情况

医院已经积累了一定的病人信息和他们最终确诊是否患病的情况

市场积累了房屋的基本信息和最终成交的金额

非监督学习

给机器的训练数据没有任何“标记”或者“答案”

对数据进行降维处理:

特征提取:信用卡的信用评级和人的胖瘦无关?

特征压缩:PCA

半监督学习

一部分数据有标记或者答案,另一部分数据没有

更常见:各种原因产生的标记缺失

通常都先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测

增强学习

根据周围环境的情况,采取行动,根据采取行动的结果,学习行动方式

无人驾驶、机器人

批量学习和在线学习

批量学习

优点:简单

问题:如何适应环境变化

解决方案:定时重新批量学习

缺点:每次重新批量学习,运算量巨大,在某些环境变化非常快的情况下,甚至不可能的。

在线学习

优点:及时反映新的环境变化

问题:新的数据带来不好的变化

解决方案:需要加强对数据进行监控

其他:也适用于数据量巨大,完全无法批量学习的环境

参数学习和非参数学习

参数学习

一旦学到了参数,就不再需要原有的数据集

非参数学习

不对模型进行过多假设

非参数不等于没有参数

和机器学习相关的哲学思考

数据确实非常重要

数据驱动

收集更多的数据

提高数据质量

提高数据的代表性

研究更重要的特征

环境搭建

0%