深度学习-概率知识

伯努利分布和二项式分布

https://blog.csdn.net/adczsw/article/details/118331225

雅克比矩阵

逻辑回归

https://cloud.tencent.com/developer/article/1694338

卷积神经网络

https://zhuanlan.zhihu.com/p/21930884

如何确定神经网络的层数和隐藏层神经元数量

https://zhuanlan.zhihu.com/p/100419971

激活函数

激活函数的主要作用是提供网络的非线性表达建模能力,想象一下如果没有激活函数,那么神经网络只能表达线性映射,此刻即便是有再多的隐藏层,其整个网络和单层的神经网络都是等价的。

RELU sigmod tanh

0-1(二元输出层) 用 sigmod
其他的偏向 RELU

首先使用 ReLU,速度最快,然后观察模型的表现。
如果 ReLU 效果不是很好,可以尝试 Leaky ReLU 或 Maxout 等变种。
尝试 tanh 正切函数(以零点为中心,零点处梯度为 1)。
在深度不是特别深的 CNN 中,激活函数的影响一般不会太大。
Kaggle 比赛,试试 Mish?

Back Propagation(梯度反向传播)实例讲解(经典必看)

https://zhuanlan.zhihu.com/p/40378224

拟合说明

过拟合:训练出的模型在测试集上 Loss 很小,在训练集上 Loss 较大
欠拟合:训练出的模型在测试集上 Loss 很大,在训练集上 Loss 也很大
拟合:训练的刚刚好,在测试集上 Loss 很小,在训练集上 Loss 也很小

梯度下降优化算法

  1. 运动梯度下降算法
  2. RMSprop
  3. Adam

Batch Normalization 原理与实战 (加快收敛)

https://zhuanlan.zhihu.com/p/34879333

transforms.Normalize

1
2
transform.ToTensor(),
transform.Normalize((0.5,0.5,0.5),(0.5,0.5,0.5))

那 transform.Normalize()是怎么工作的呢?以上面代码为例,ToTensor()能够把灰度范围从 0-255 变换到 0-1 之间,而后面的 transform.Normalize()则把 0-1 变换到(-1,1).具体地说,对每个通道而言,Normalize 执行以下操作:

image=(image-mean)/std

其中 mean 和 std 分别通过(0.5,0.5,0.5)和(0.5,0.5,0.5)进行指定。原来的 0-1 最小值 0 则变成(0-0.5)/0.5=-1,而最大值 1 则变成(1-0.5)/0.5=1

torch.nn.MaxPool2d 详解

https://blog.csdn.net/weixin_38481963/article/details/109962715

卷积数据输入说明

卷积输入输出是四维张量

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import torch
import torch.nn as nn

# 仅定义一个 3x3 的池化层窗口
m = nn.MaxPool2d(kernel_size=(3, 3))

# 定义输入
# 四个参数分别表示 (batch_size, C_in, H_in, W_in)
# 分别对应,批处理大小,输入通道数,图像高度(像素),图像宽度(像素)
# 为了简化表示,我们只模拟单张图片输入,单通道图片,图片大小是6x6
input = torch.randn(1, 1, 6, 6)

print(input)

output = m(input)

print(output)

torch.nn.Linear() 详解

https://www.cnblogs.com/blairgrowing/p/15976598.html

One/zero-shot

One/zero-shot learning 都是用来进行学习分类的算法。One-shot learning 就是对某一/某些类别只提供一个或者少量的训练样本;http://vision.stanford.edu/documents/Fei-FeiFergusPerona2006.pdfZero-shot learning 顾名思义就是对某一/某些类别完全不提供训练样本。

Word Embedding(文本数据转换为数值型数据)

文本表示的类型:

基于 one-hot、tf-idf、textrank 等的 bag-of-words;
主题模型:LSA(SVD)、pLSA、LDA;
基于词向量的固定表征:word2vec、fastText、glove
基于词向量的动态表征:ELMO、GPT、bert

nn.Embedding 的用法和理解

https://blog.csdn.net/qq_39540454/article/details/115215056