Jaime Raúl Toaquiza

Para entrenar a la red, propiamente dicho, se hará uso del error en las salidas de la red; se procece analizando la variación del coste (este coste puede ser el error cuadratico medio, etc)

¿Cómo varía el coste ante un cambio del parámetro $w$?

$$ \cfrac{\partial C}{\partial w} $$

Supongamos una red neuronal de:

$L$ capas
Capa de entrada tenemos 2 variables $x_1$ y $x_2$, más el nodo de sesgo.
La suma ponderada: $y=b+w_1x_1+w_2x_2$
- Nótese que tenemos dos tipos de parámetros (pesos y sesgos)
- Tendremos dos tipos de derivadas parciales (respecto a pesos y a sesgo)
$$ \underbrace{\cfrac{\partial C}{\partial w}}{respecto\;a\; los\;pesos \;w}\quad \underbrace{\cfrac{\partial C}{\partial b}}{respecto\;a\; los\;sesgos \;b}\quad $$

Derivada de la última capa (capa de salida)

Denotemos por:

Resultados de la suma ponderada: $\displaystyle {\color{green}Z^L}=b^L+\sum_k w_k^L {\color{blue}a^{L-1}(\cdot)}$
Función de activación: $\displaystyle \color{blue} a(\cdot)$
Función de coste: $\color{red}C(\cdot)=error$

Tenemos la función de coste u error

$$ {\color{red}C\Big(}{\color{blue}a\big(}{\color{green}Z^L}{\color{blue}\big)}{\color{red}\Big)}={\color{red}error} $$

→ Es claro que tenemos una composición de funciones, por tant usaremos la regla de la cadena para hallar las derivadas parciales.

Así, tenemos la derivada de la última capa:

$$ \begin{aligned} \cfrac{\partial C}{\partial w^L}&= \cfrac{\partial C}{\partial a^L}\cdot \cfrac{\partial a^L}{\partial z^L}\cdot \cfrac{\partial z^L}{\partial {\color{cyan}w}^L}\\ \\ \cfrac{\partial C}{\partial b^L}&= \cfrac{\partial C}{\partial a^L}\cdot \cfrac{\partial a^L}{\partial z^L}\cdot \cfrac{\partial z^L}{\partial {\color{cyan}b}^L}\\ \\ Z^L&= W^L\cdot a^{L-1}+b^L\\ C(a^L(Z^L))&=error^L \end{aligned} $$

$\displaystyle \cfrac{\partial C}{\partial w^L}$: la variación del coste por perturbaciones de los pesos
$\displaystyle \cfrac{\partial C}{\partial b^L}$: la variación del coste por perturbaciones de los sesgos o bias
$\displaystyle \cfrac{\partial C}{\partial a^L}$: la variación del coste por perturbaciones de las salidas de la función de activación
$\displaystyle \cfrac{\partial a^L}{\partial z^L}$: la variación de la función de activación por pertubaciones en la suma ponderada
$\displaystyle \cfrac{\partial z^L}{\partial w^L}$: la variación de la suma ponderada por pertubación de los pesos
$\displaystyle \cfrac{\partial z^L}{\partial b^L}$: la variación de la suma ponderada por pertubación de los sesgos o bias.

Función de coste - Error cuadrático medio

$$ C(a^L_j)=\cfrac{1}{2} \sum_{j} (y_j-a_j^L)^2 $$

Nótese que $y_j$ es el valor real de las salidas (usa para el entrenamiento)

Se sigue que la derivada de esta función es:

$$ \cfrac{\partial C}{\partial a^L_j}=\Big(a_j^L-y_j\Big) $$

Función de activación - Sigmoide

Consideremos la función de activación sigmoide:

$$ a^L(z^L)=\cfrac{1}{1+e^{-z^L}} $$

la derivada de esta función está dado por:

$$ \cfrac{\partial a^L}{\partial z^L}=a^L(z^L)\cdot \Big(1-a^L(z^L)\Big) $$

Derivada de la suma ponderada

Tenemos la suma ponderada

$$ z^L=b^L+\sum_i w_i^La_i^{L-1} $$

así, tenemos las derivadas respecto a cada parámetro:

$$ \begin{cases} \cfrac{\partial z^L}{\partial b^L}=1 \\ \\ \cfrac{\partial z^L}{\partial w^L}=a_i^{L-1} \end{cases} $$

Nótese que la derivada de la suma ponderada respecto de los pesos: depende enteramente de los resultados de la función de activación de la capa previa.

Error imputado a la neurona

A mode de resumen tenemos:

$$ \begin{cases} \cfrac{\partial C}{\partial w^L}&= \cfrac{\partial C}{\partial a^L}\cdot \cfrac{\partial a^L}{\partial z^L}\cdot \cfrac{\partial z^L}{\partial {\color{cyan}w}^L}\\ \\ \cfrac{\partial C}{\partial b^L}&= \cfrac{\partial C}{\partial a^L}\cdot \cfrac{\partial a^L}{\partial z^L}\cdot \cfrac{\partial z^L}{\partial {\color{cyan}b}^L} \end{cases}\Rightarrow \begin{cases} \cfrac{\partial C}{\partial a^L_j}=\Big(a_j^L-y_j\Big) \\ \\ \cfrac{\partial a^L}{\partial z^L}=a^L(z^L)\cdot \Big(1-a^L(z^L)\Big) \\\\ \cfrac{\partial z^L}{\partial b^L}=1 \\ \\ \cfrac{\partial z^L}{\partial w^L}=a_i^{L-1} \end{cases} $$

Se define el error imputado a la neurona en la capa L como:

$$ \cfrac{\partial C}{\partial w^L}= \underbrace{\color{magenta}\cfrac{\partial C}{\partial a^L}\cdot \cfrac{\partial a^L}{\partial z^L}}_{\color{magenta}\cfrac{\partial C}{\partial z^L}= \delta ^L}\cdot \cfrac{\partial z^L}{\partial {\color{cyan}w}^L} $$

es decir:

$$ \delta^L=\cfrac{\partial C}{\partial w^L}= \overbrace{\cfrac{\partial C}{\partial a^L}}^{\text{Derv. func de coste}}\cdot \underbrace{\cfrac{\partial a^L}{\partial z^L}}_{Der. func de activación} $$

Así, con los resultados y la nueva notación se tiene:

$$ \begin{cases} \cfrac{\partial C}{\partial w^L}&= \delta^L \cdot a_i^{L-1}\\ \\ \cfrac{\partial C}{\partial b^L}&= \delta^L \end{cases} $$

Con estos cálculos hemos culminado el cálculo de todas las derivadas parsiales para la última capa.

Derivadas parciales de capas previas

No os desespereís, que para el cálculo de las derivadas de las capas previas usaremos los resultados de las dervidas de la capa $L$, solo, bastará calcular una derivada más por cada capa.

Supongamos nos encontramos en la capa $L-1$ (penúltima)

Las derivadas parciales tienen la siguiente cara:

$$ \begin{aligned} \cfrac{\partial C}{\partial w^{L-1}}&= \cfrac{\partial C}{\partial a^L}\cdot \cfrac{\partial a^L}{\partial z^{L-1}}\cdot {\color{green}\cfrac{\partial a^{L-1}}{\partial z^{L-1}}}\cdot \cfrac{\partial z^{L-1}}{\partial {\color{cyan}w}^{L-1}}\\ \\ \cfrac{\partial C}{\partial b^{L-1}}&= \cfrac{\partial C}{\partial a^L}\cdot \cfrac{\partial a^L}{\partial z^{L-1}}\cdot {\color{green}\cfrac{\partial a^{L-1}}{\partial z^{L-1}}}\cdot \cfrac{\partial z^{L-1}}{\partial {\color{cyan}b}^{L-1}} \\ \\ Z^{L-1}&= W^{L-1}\cdot a^{L-2}+b^{L-1}\\ C(a^L(W^La^{L-1}(W^{L-1}a^{L-2}+b^{L-1})+b^L))&=error^{L-1} \end{aligned} $$

Notaciones

Error de la neurona en la capa $L$: $\displaystyle \delta^L= \cfrac{\partial C}{\partial a^L}\cdot \cfrac{\partial a^L}{\partial z^L}$
Derivada de la suma ponderada respecto a los pesos: $\cfrac{\partial z^{L-1}}{\partial w^{L_1}}=a^{L-2}$
Derivada de la suma ponderada respecto a los sesgos: $\cfrac{\partial z^{L-1}}{\partial b^{L_1}}=1$
Derivada de la función de activación: $\cfrac{\partial a^{L-1}}{\partial z^{L-1}}=a^{L-1}(z^{L-1})\cdot \Big(1-a^{L-1}(z^{L-1})\Big)$ Función sigmoide
Derivada de la suma ponderada de la capa $L$ respecto a la perturbación de la función de activación de la capa $L-1$: $\cfrac{\partial z^L}{\partial a^{L-1}}=W^L$ → $W^L$: es una matriz de parámetros que conecta ambas capas

Y finalmente denotemos por: $\delta^{L-1}=\cfrac{\partial C}{\partial z^{L-1}}= \cfrac{\partial C}{\partial a^L}\cdot \cfrac{\partial a^L}{\partial z^{L-1}}\cdot {\color{green}\cfrac{\partial a^{L-1}}{\partial z^{L-1}}}$

Así, tenemos las derivadas recursivas:

$$ \begin{cases} \cfrac{\partial C}{\partial w^{L-1}}&= \cfrac{\partial C}{\partial a^L}\cdot \cfrac{\partial a^L}{\partial z^{L-1}}\cdot {\color{green}\cfrac{\partial a^{L-1}}{\partial z^{L-1}}}\cdot \cfrac{\partial z^{L-1}}{\partial {\color{cyan}w}^{L-1}}\\ \\ \cfrac{\partial C}{\partial b^{L-1}}&= \cfrac{\partial C}{\partial a^L}\cdot \cfrac{\partial a^L}{\partial z^{L-1}}\cdot {\color{green}\cfrac{\partial a^{L-1}}{\partial z^{L-1}}}\cdot \cfrac{\partial z^{L-1}}{\partial {\color{cyan}b}^{L-1}} \end{cases} \Rightarrow \begin{cases} \cfrac{\partial C}{\partial w^{L-1}}&= \delta^{L-1 }\cdot a^{L-2}\\ \\ \cfrac{\partial C}{\partial b^{L-1}}&= \delta^{L-1} \end{cases} $$

Resumen:

Cómputo del error de la última capa

$$ \delta^L=\cfrac{\delta C}{\delta a^L}\cdot \cfrac{\partial a^L}{\partial z^L} $$
Retropropagamos el error a la capa anterior

$\delta^{L-1}=W^L\cdot \delta^L\cdot \cfrac{\partial a^{L-1}}{\partial z^{L-1}}$
Calculamos las derivadas de las capa usando el error

$$ \cfrac{\partial C}{\partial b^{L-1}}=\delta ^{L-1},\quad \cfrac{\partial C}{\partial w^{L-1}}=\delta^{L-1}\cdot a^{L-2} $$