TensorFlow implementation

import tensoflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense
 
model = Sequential([
		Dense(units = 25, actibation = 'sigmoid'), Dense(units = 15, activation = 'sigmoid'), Dense(units = 1, activation = 'sigmoid'),
					])
from tensorflow.keras.losser import BinaryCrossentropy
	model.compile(loss = BinaryCrossentropy())
 
	model.fit(X, Y, epochs = 100)
 
 
# BinaryCrossentropy  二元 交叉熵损失函数

指定模型
编译模型
训练模型

模型实现

指定输入，输入与输出之间的计算公式 — 指定模型
指定损失和成本 — 编译模型指定损失函数，编译则会让模型在之后的训练中计算该损失函数的平均值
最小化成本函数 — 训练模型 fit函数实现反向传播 ，即计算偏导数并实现梯度下降减少成本函数

激活函数

ReLU

Rectified Linear Unit

$g (z) = ma x (0, z)$

Advanced Learning Algorithms W2 2024-03-13 07.17.13.excalidraw
⚠ Switch to EXCALIDRAW VIEW in the MORE OPTIONS menu of this document. ⚠

Text Elements
Link to original

特点是，小于0就取0，大于0为线性分布，是最常使用的激活函数之一

各层与激活函数

输出层激活函数适用情形：

sigmoid 二元分类
linear 有正有负
ReLU 只有非负数

隐藏层激活函数：

ReLU 最常见计算快，只有一边是稳定的，对梯度下降更适用，速度更快 -TensorFlow一般适用ReLU作为激活函数
Linear 几乎没用事实上线性回归的激活函数也是线性的，无法在逐次激活中有更复杂的内涵。如果最后一个是其他函数的话，也会直接表现为其他函数的特征。如此看来线性激活函数可以认为是没有使用激活函数
sigmoid 常用之一因为双边稳定，梯度下降没有ReLU那么快，在一些特殊情况适用

多类分类问题 multiclass

SoftMax 激活函数

是sigmoid的泛化拓展

假定 $z_{1} = w_{1} \cdot x_{1} + b_{1} z_{2} = w_{2} \cdot x_{2} + b_{2} \dots\dots z_{n} = w_{n} \cdot x_{n} + b_{n}$ 那么有 $a_{i} = e^{z_{i}} / (e^{z_{1}} + e^{z_{2}} \dots\dots + e^{z_{n}}) = P (y = i ∣ x)$ 表示输入为 x （矩阵）时，输出为第 i 类的概率

损失函数 Pasted image 20240313074222 同样是 sigmoid 的泛化在TensorFlow称为 SparseCategoricalCross-entropy 函数稀疏分类交叉熵损失函数

loss = SparseCategoricalCrossentropy()

注意到这个SoftMax是n个神经元相关的输出，这与目前接触到的函数不同（只是一个神经元的输出），这意味着有n个x的权重，n种x的选择被用来计算其中一种分类的概率

成本函数 $1 {y == n} == {1, 0, if y == n . otherwise .$ Now the cost is:

J (w, b) = - [i = 1 \sum m j = 1 \sum N 1 {y^{(i)} == j} lo g \frac{e ^{z_{j}^{(i)}}}{\sum _{k = 1}^{N} e ^{z_{k}^{(i)}}}]

遍历所有最终输出，每个输出遍历其类别，确认类别后计算损失函数，最后相加

更好的实现

对于像sigmoid和SoftMax的计算，由于涉及到大的分母，计算时会有浮点数参与运算，如果处理不当，由于浮点数离散的存储方式会导致在运算时精度下降。

减少中间量

在每层计算时会发现总有输出 a 作为下一层计算的中间量，如果a是sigmoid或Soft Max的输出，那么a就是浮点数运算的结果

把 a 运算过程直接在 loss 函数里进行可以减少一些误差（因为这样TensorFlow会变化计算方式来减少精度误差）

model.compile(loss = BinaryCrossEntropy(from_logits = True)) #logits 其实是z，就是把a的运算融入到loss的计算

改为这种计算后，其实输出层计算的就是线性激活函数，直接将z传到loss里

# 然后需要把概率输出
logit = model(x)
f_x = tf.nn.softmax(logits)

SoftMax 另外

SoftMax因为是指数运算，在计算时会因为指数过大等原因产生overflow错误

可以上下同乘一个数来减小计算结果，并且可以保证结果不变（因为是除法）

a_j = \frac{e^{z_j-C}}{ \sum_{i=1}^{N}{e^{z_i-C} }} \quad\quad\text{where}\quad C=max_j(\mathbf{z})

ReMind

Recent Writing

强化学习

Deeplab

Explorer

Advanced Learning Algorithms W2

TensorFlow implementation

模型实现

激活函数

ReLU

Advanced Learning Algorithms W2 2024-03-13 07.17.13.excalidraw

Text Elements

各层与激活函数

多类分类问题 multiclass

SoftMax 激活函数

更好的实现

减少中间量

SoftMax 另外

Graph View

Table of Contents

Backlinks