机器学习术语 - Githubissues

关于机器学习

机器学习的主要任务是分类。另一个主要任务是回归，它主要用于预测数值型数据。

已知输入项（一个确定的，来自现实世界的确定值），简单的机器学习项目可能会使用单个特征，而比较复杂的机器学习项目可能会使用数百万个特征。

在垃圾邮件检测器实例中，特征可能包括

数据的特定实例：X

有标签的数据，也就是每一个样本都有确定的标签。监督学习，必须知道预测什么，既目标变量的分类信息。

朴素贝叶斯、逻辑回归和神经网络都属于监督学习方法。

样本只有几个确定的结果，比如垃圾邮件检测模型，就可以采用分类的方式，一份邮件只有两个结果，要么是垃圾邮件，要么不是

结果不是确定的，比如房价预测，

训练数据由没有任何相应目标值的一组输入向量x组成。无监督学习，数据没有类别信息，也不会给定目标值。