机器学习 - SrP-BloG

第一章—内容框架与基本概念#

机器学习 的目的在于发现大量数据中的一个模型 (也就是函数)
如果将 机器学习中的模型 类比成函数, 那么 特征 feature 也就是 自变量 x, 标签 lable 也就是 因变量 y
机器学习 是在已知 数据集 的基础上, 通过训练得到了特征与标签之间的一个函数.
将经过了训练的数据称为 训练数据集 , 而另一组待推测的数据称为 测试数据集

术语	定义	数学描述
数据集	数据的集合	$\{(x_1,y_1),\cdots,(x_n,y_n)\}$
样本	数据集中的一条具体记录	$(x_1,y_1)$
特征	用于描述数据的输入变量	$\{x_1,x_2,\cdots,x_n\}$ 也是一个向量
标签	要预测的真实事物或结果, 也成为目标	$y$
有标签样本	有特征、标签，用于训练模型	$(x,y)$
无标签样本	有特征，无标签	$(x,?)$
模型	将样本的特征映射到预测标签	$f(x)$ ,其实也就是函数
模型中的参数	模型中的参数确定了机器学习的具体模型	$f(x)$ 这个函数的参数
模型的映射结果	通过模型映射出无标签样本的标签	$y'$
机器学习	通过学习样本数据，发现规律，得到模型的参数，从而得到能预测目标的模型	确定 $f(x)$ 和其参数的过程

特征是有维度的，特征的维度是指特征的数目，而非样本数目，也即 $(x_1,x_2,x_3)$ 称作一个样本，而它属于 三维特征数据集

同时，避免混淆，将向量、数组、矩阵中的维度统称为阶，例如 1D向量、2D矩阵

有的数据样本有标签，而有的则没有，靠机器推断出来的标签，称作 预测标签 $y'$ ，比较 $y$ 和 $y'$ 的差异，也就是在评判机器学习模型的效果

机器学习中，在处理问题时，先确定模型的类型，也就是算法，再确定模型的参数，进而确定最终的模型。

8个常用库，3大类: Pandas 和 Numpy 提供数据结构，支持数学运算；Matplotlib 和 Seaborn 用于数据可视化；剩余4个库提供算法，其中 Scikit-learn 是机器学习框架，TesnsorFlow、Keras 和 Pytorch 则是深度学习框架。