Skip to content

机器学习算法分类

1 监督学习

  • 定义:
    • 输入数据是由输入特征值和目标值所组成。
      • 函数的输出可以是一个连续的值(称为回归),
      • 或是输出是有限个离散值(称作分类)。

1.1 回归问题

例如:预测房价,根据样本集拟合出一条连续曲线。

1.2 分类问题

例如:根据肿瘤特征判断良性还是恶性,得到的是结果是“良性”或者“恶性”,是离散的。

2 无监督学习

  • 定义:

    • 输入数据是由输入特征值组成,没有目标值
      • 输入数据没有被标记,也没有确定的结果。样本数据类别未知;
      • 需要根据样本间的相似性对样本集进行类别划分。

    举例:

  • 有监督,无监督算法对比:

3 半监督学习

  • 定义:
    • 训练集同时包含有标记样本数据和未标记样本数据。

举例:

  • 监督学习训练方式:

  • 半监督学习训练方式

4 强化学习

  • 定义:
    • 实质是 make decisions 问题,即自动进行决策,并且可以做连续决策。

举例:

小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。

小孩就是 agent,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能走路时,就不会给巧克力。

主要包含五个元素:agent, action, reward, environment, observation;

强化学习的目标就是获得最多的累计奖励

监督学习和强化学习的对比

监督学习强化学习
反馈映射输出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出。输出的是给机器的反馈 reward function,即用来判断这个行为是好是坏。
反馈时间做了比较坏的选择会立刻反馈给算法结果反馈有延时,有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏。
输入特征输入是独立同分布的。面对的输入总是在变化,每当算法做出一个行为,它影响下一次决策的输入。

INFO

拓展阅读:Alphago 进化史 漫画告诉你 Zero 为什么这么牛:

http://sports.sina.com.cn/chess/weiqi/2017-10-21/doc-ifymyyxw4023875.shtml

5 小结

InOut目的案例

监督学习
(supervised learning)

有标签有反馈预测结果猫狗分类 房价预测

无监督学习
(unsupervised learning)

无标签无反馈发现潜在结构“物以类聚,人以群分”

半监督学习
(Semi-Supervised Learning)

部分有标签,部分无标签有反馈降低数据标记的难度

强化学习
(reinforcement learning)

决策流程及激励系统一系列行动长期利益最大化学下棋