Learning Notes on Machine Learning

Xiaowei Liu's Blog

2018-06-08

0.常用机器学习算法的损失函数

算法	损失函数
决策树	$L_\alpha(T) = L(T) + \alpha\mid{T}\mid$ 其中$C(T)$是对训练数据的预测误差(如基尼指数), $\mid T\mid$为子树的叶节点个数
Logistic Regression

1.batch_size如何选择？

线性神经元在均方误差代价函数的错误面是一个抛物面，横截面是椭圆(抛物面从上往下压缩就成了等高线)。对于多层神经元、非线性网络，在局部依然近似是抛物面。

在合理范围内，增大 batch_size 有何好处?

内存利用率提高了，大矩阵乘法的并行化效率提高
跑完一次 epoch(全数据集)所需的迭代次数减少，对于相同数据量的处理速度进一步加快
在一定范围内，一般来说 batch_size 越大，其确定的下降方向越准，引起训练震荡越小

盲目增大 batch_size 有何坏处？

内存利用率提高了，但是内存容量可能撑不住了
跑完一次 epoch(全数据集)的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了(所需要的 epoch 数量越来越多)，从而对参数的修正也就显得更加缓慢
batch_size 增大到一定程度，其确定的下降方向已经基本不再变化

总结:

batch_size 太小，算法收敛速度太慢
随着 batch_size 增大，处理相同数据量的速度越快
随着 batch_size 增大，达到相同精度所需要的 epoch 数量越来越多
由于上述两种因素的矛盾， batch_size 增大到某个时候，达到时间上的最优
由于最终收敛精度会陷入不同的局部极值，因此 batch_size 增大到某些时候，达到最终收敛精度上的最优

batchsize会影响模型性能，过大或者过小都不合适。设置过大的batch_size，可能会对训练时网络的准确性产生负面影响，因为它降低了梯度下降的随机性。 怎么做?
要在可接受的训练时间内，确定最小的batch_size。一个能合理利用GPU并行性能的batch_size可能不会达到最佳的准确率，因为在有些时候，较大的batch_size可能需要训练更多迭代周期才能达到相同的正确率。
在开始时，要大胆地尝试很小的batch_size，如16、8，甚至是1。 为什么?_
较小的batch_size能带来有更多起伏、更随机的权重更新。这有两个积极的作用，一是能帮助训练”跳出”之前可能卡住它的局部最小值，二是能让训练在”平坦”的最小值结束，这通常会带来更好的泛化性能。

References:
深度机器学习中的batch的大小对学习效果有何影响？

2. 几个问题和技巧汇总

1). 关于验证集的loss曲线和acc曲线震荡，不平滑问题
出现loss震荡不平滑的原因可能如下:

学习率可能太大
batch size太小
样本分布不均匀

2). 如果训练中发现loss的值为NAN，这时可能的原因如下:

学习率太高
如果是自定义的损失函数，这时可能是所设计的损失函数有问题

3). 一般来说，较高的acc对应的loss较低，但这不是绝对，毕竟他们是两个不同的东西, 有时候即使acc高，但是loss值也高.

References:
keras中的一些小tips（一）

3. 训练集和测试集的选取

1、训练集中样本数量要足够多，一般至少大于总样本数的50%
2、训练集和测试集必须从完整的数据集中均匀取样(各个类有相近的数量)。均匀取样的目的是希望减少训练集、测试集与原数据集之间的偏差。当样本数量足够多时，通过随机取样，便可以实现均匀取样的效果。（随机取样，可重复性差）

4. 新手易犯的错误

1).数据规范化(感觉用标准化更好些)
大体上说，规范化(normalize)是指从数据中减去均值，然后再除以标准差的操作
通常这个操作对每个输入和输出特征是分别完成的
需要规范化数据的主要原因是，在神经网络中几乎所有的数据传输途径中，都是假设输入和输出的数据分布满足标准差接近于1，均值几乎为0。这个假设在深度学习中的每个地方都会出现，从权重因子的初始化，到激活函数，再到训练网络的优化算法
使用规范化是为了将所有输入的特征等价

References:
我搭的神经网络不work该怎么办！看看这11条新手最容易犯的错误