2.1.1 机器学习基本概念

相关词条：

数据集（Data Set）

即数据的集合，用于计算机处理。数据集又分为训练数据（Training Data） 和测试数据（Testing Data）：
- 训练数据（Training Data）：用于训练模型的数据。有时候训练数据又分为训练集（Training Set） 和验证集（Validation Set）：
  - 训练集（Training Set）：训练时，用于实际寻找参数的数据。
  - 验证集（Validation Set）：训练时，用于验证参数是否合适的数据。
- 测试数据（Testing Data）：训练完成后，用于检验模型的数据。
样例（Sample/Instance）

数据集中的其中一条即为样例。
特征（Feature/Attribute）

每条样例中用于描述数据的属性或变量。特征又分为连续特征（例如温度）和离散特征（例如风向）。
属性值（Attribute Value）

即特征所对应的值。
标签（Label）

指数据样例的目标输出。

按照有无标签，可将机器学习方法划分为三类：监督学习（Supervised Learning）、无监督学习（Unsupervised Learning） 和半监督学习（Semi-Supervised Learning）

监督学习

学习所使用的数据中所有样例都有标签。

若预测结果是离散的，称为分类任务（Classification Task）；若预测结果是连续的，称为回归任务（Regression Task）。
无监督学习

学习所使用的数据中所有样例都没有标签，模型将自行寻找数据的特征，并对数据进行聚类（Clustering），将数据分为不同的簇（Cluster）。

由于没有数据标签，模型最终学习到的分类方法可能并不直观甚至难以理解。

BERT 所使用的掩码语言模型（Masked Language Model, MLM），即对输入句子的一部分替换为 [MASK] 标记，然后让模型预测这些被掩码的词，这种方法属于无监督学习。
半监督学习

由于有标签数据的获取可能成本很高（人力、物力等方面），半监督学习同时利用有标签和无标签的数据进行学习。

伪标签方法（Pseudo-Labeling） 是一种经典的半监督学习方法，即使用数据集中有标签的数据训练一个初始模型，然后使用这个模型对无标签的数据进行预测并对高置信度的预测结果生成“伪标签”，并将伪标签数据加入原始标注数据进行进一步训练。