伯努利分布和二项式分布
https://blog.csdn.net/adczsw/article/details/118331225
雅克比矩阵
逻辑回归
https://cloud.tencent.com/developer/article/1694338
卷积神经网络
https://zhuanlan.zhihu.com/p/21930884
如何确定神经网络的层数和隐藏层神经元数量
https://zhuanlan.zhihu.com/p/100419971
激活函数
激活函数的主要作用是提供网络的非线性表达建模能力,想象一下如果没有激活函数,那么神经网络只能表达线性映射,此刻即便是有再多的隐藏层,其整个网络和单层的神经网络都是等价的。
RELU sigmod tanh
0-1(二元输出层) 用 sigmod
其他的偏向 RELU
首先使用 ReLU,速度最快,然后观察模型的表现。
如果 ReLU 效果不是很好,可以尝试 Leaky ReLU 或 Maxout 等变种。
尝试 tanh 正切函数(以零点为中心,零点处梯度为 1)。
在深度不是特别深的 CNN 中,激活函数的影响一般不会太大。
Kaggle 比赛,试试 Mish?
Back Propagation(梯度反向传播)实例讲解(经典必看)
https://zhuanlan.zhihu.com/p/40378224
拟合说明
过拟合:训练出的模型在测试集上 Loss 很小,在训练集上 Loss 较大
欠拟合:训练出的模型在测试集上 Loss 很大,在训练集上 Loss 也很大
拟合:训练的刚刚好,在测试集上 Loss 很小,在训练集上 Loss 也很小
梯度下降优化算法
- 运动梯度下降算法
- RMSprop
- Adam
Batch Normalization 原理与实战 (加快收敛)
https://zhuanlan.zhihu.com/p/34879333
transforms.Normalize
1 | transform.ToTensor(), |
那 transform.Normalize()是怎么工作的呢?以上面代码为例,ToTensor()能够把灰度范围从 0-255 变换到 0-1 之间,而后面的 transform.Normalize()则把 0-1 变换到(-1,1).具体地说,对每个通道而言,Normalize 执行以下操作:
image=(image-mean)/std
其中 mean 和 std 分别通过(0.5,0.5,0.5)和(0.5,0.5,0.5)进行指定。原来的 0-1 最小值 0 则变成(0-0.5)/0.5=-1,而最大值 1 则变成(1-0.5)/0.5=1
torch.nn.MaxPool2d 详解
https://blog.csdn.net/weixin_38481963/article/details/109962715
卷积数据输入说明
卷积输入输出是四维张量
1 | import torch |
torch.nn.Linear() 详解
https://www.cnblogs.com/blairgrowing/p/15976598.html
One/zero-shot
One/zero-shot learning 都是用来进行学习分类的算法。One-shot learning 就是对某一/某些类别只提供一个或者少量的训练样本;http://vision.stanford.edu/documents/Fei-FeiFergusPerona2006.pdfZero-shot learning 顾名思义就是对某一/某些类别完全不提供训练样本。
Word Embedding(文本数据转换为数值型数据)
文本表示的类型:
基于 one-hot、tf-idf、textrank 等的 bag-of-words;
主题模型:LSA(SVD)、pLSA、LDA;
基于词向量的固定表征:word2vec、fastText、glove
基于词向量的动态表征:ELMO、GPT、bert