1187 字
6 分钟
机器学习
记录一次市图书馆看书所得。
正在计算文章时效性...
查看修订历史
第一章—内容框架与基本概念
1. 机器学习 的范围
- 机器学习 属于 AI人工智能 的分支技术
- 深度学习 又是 机器学习 的技术之一
2. 机器学习 的目的与方法
- 机器学习 的目的在于发现大量数据中的一个 模型 (也就是 函数)
- 如果将 机器学习中的模型 类比成 函数, 那么 特征 feature 也就是 自变量 x, 标签 lable 也就是 因变量 y
- 机器学习 是在已知 数据集 的基础上, 通过 训练 得到了 特征 与 标签 之间的一个函数.
- 将经过了 训练 的数据称为 训练数据集 , 而另一组待推测的数据称为 测试数据集
3. 机器学习 的类别
- 根据数据是否有 标签 来分类, 常见分为 监督学习, 无监督学习, 半监督学习
- 监督学习 : 数据集都有 标签
- 无监督学习 : 数据集都没有 标签
- 半监督学习 : 数据集中只有少量 有 标签
4. 深度学习 基本概念
- 属于 机器学习 的分支, 因此最重要的区分点也就是 模型, 深度学习 使用的 模型 是 神经网络
- 把层数较多、结构比较复杂的神经网络的机器学习技术叫做 深度学习
5. 机器学习 的两大基本问题
- 回归问题 : 通常用来预测一个值, 其 标签 值是 连续 的.
- 分类问题 : 将事物标记为一个类别标签, 结果为 离散 值
6. 基本机器学习术语
| 术语 | 定义 | 数学描述 |
|---|---|---|
| 数据集 | 数据的集合 | |
| 样本 | 数据集中的一条具体记录 | |
| 特征 | 用于描述数据的输入变量 | 也是一个向量 |
| 标签 | 要预测的真实事物或结果, 也成为目标 | |
| 有标签样本 | 有特征、标签,用于训练模型 | |
| 无标签样本 | 有特征,无标签 | |
| 模型 | 将样本的特征映射到预测标签 | ,其实也就是函数 |
| 模型中的参数 | 模型中的参数确定了机器学习的具体模型 | 这个函数的参数 |
| 模型的映射结果 | 通过模型映射出无标签样本的标签 | |
| 机器学习 | 通过学习样本数据,发现规律,得到模型的参数,从而得到能预测目标的模型 | 确定和其参数的过程 |
- 特征
- 特征是有 维度 的,特征的维度是指特征的数目,而非样本数目,也即 称作一个样本,而它属于 三维特征数据集
- 同时,避免混淆,将向量、数组、矩阵中的维度统称为 阶,例如 1D向量、2D矩阵
- 标签
- 有的数据样本有标签,而有的则没有,靠机器推断出来的标签,称作 预测标签,比较和的差异,也就是在评判机器学习模型的效果
- 模型
- 机器学习中,在处理问题时,先确定模型的类型,也就是算法,再确定模型的参数,进而确定最终的模型。
7. 机器学习和深度学习框架
- 8个常用库,3大类: Pandas 和 Numpy 提供数据结构,支持数学运算;Matplotlib 和 Seaborn 用于数据可视化;剩余4个库提供算法,其中 Scikit-learn 是机器学习框架,TesnsorFlow、Keras 和 Pytorch 则是深度学习框架。
- Pandas 预置数据结构:
- Series :1D数组,与 Numpy 中的一维数组 (array) 类似。这两者与 Python 基本数据结构列表 (list) 也很相似。
- TimeSeries :以时间为索引的Series
- DataFrame :2D的表格型数据结构,Series的容器
- Panel :3D的数组,DataFrame 的容器
- Numpy :Python的数学拓展包,提供强大的多维数组对象array,提供大量API支持数组运算。
- Matplotlib :Python与Numpy的可视化操作界面,通过API像应用程序提供嵌入式绘图功能。
- Seaborn :再Matplotlib基础上设计出的绘图库
- Scikit-learn :包含大量可以直接使用的机器学习算法。
- TensorFlow :编程建立在“图”的概念之上,比较难快速上手。
- Keras :建立在TensorFlow等后端框架之上,也就是Keras更“高级”,也即“简单”,本质上还是调用了TensorFlow。
- Pytorch :是TensorFlow的竞争对手,相对来说上手更简单。
8. 机器学习项目实战架构
- 大致分为5个环节:(1)问题定义 (2)数据的收集和预处理 (3)模型算法的选择 (4)选择机器学习模型 (5)超参数调式和性能优化
发现错误或想要改进这篇文章?
文章修订历史 (5 次)