数据整体叫数据集(data set)
每一行数据成为一个样本(sample)
除最后一列,每一列表达样本的的一个特征(feature)
最后一列,称为标记(label)
机器学习的任务
分类任务
二分类
例如:
判断邮件是不是垃圾邮件
判断发放给客户信用卡是否有风险
判断患病是良性还是恶性
判断股票的涨跌
多分类
例如:
数字识别
图像识别
判断发放给客户信息卡的风险评级
多标签分类
回归任务
例如:
房屋价格
市场分析
学生成绩
股票价格
监督学习和非监督学习
监督学习
给机器的训练数据拥有“标记”或者“答案”
例如:
图像已经拥有了标定信息
银行已经积累了一定的客户信息和他们信用卡的信用情况
医院已经积累了一定的病人信息和他们最终确诊是否患病的情况
市场积累了房屋的基本信息和最终成交的金额
非监督学习
给机器的训练数据没有任何“标记”或者“答案”
对数据进行降维处理:
特征提取:信用卡的信用评级和人的胖瘦无关?
特征压缩:PCA
半监督学习
一部分数据有标记或者答案,另一部分数据没有
更常见:各种原因产生的标记缺失
通常都先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测
增强学习
根据周围环境的情况,采取行动,根据采取行动的结果,学习行动方式
无人驾驶、机器人
批量学习和在线学习
批量学习
优点:简单
问题:如何适应环境变化
解决方案:定时重新批量学习
缺点:每次重新批量学习,运算量巨大,在某些环境变化非常快的情况下,甚至不可能的。
在线学习
优点:及时反映新的环境变化
问题:新的数据带来不好的变化
解决方案:需要加强对数据进行监控
其他:也适用于数据量巨大,完全无法批量学习的环境
参数学习和非参数学习
参数学习
一旦学到了参数,就不再需要原有的数据集
非参数学习
不对模型进行过多假设
非参数不等于没有参数
和机器学习相关的哲学思考
数据确实非常重要
数据驱动
收集更多的数据
提高数据质量
提高数据的代表性
研究更重要的特征