Обучение однослойного персептрона

Обучение однослойного персептрона

Для обучения однослойного персептрона обычно применяется алгоритм обратного распространения. Рассмотрим его принцип работы более подробно на примере одного нейрона выходного слоя персептрона. 

Предположим, что нелинейная активационная функция нейрона задается функцией гиперболического тангенса, а именно 

Обучение однослойного персептрона
(1)

где 

Обучение однослойного персептрона

– нелинейной активационной функции;

Обучение однослойного персептрона

–значение сигнала от j-го нейрона;

Обучение однослойного персептрона

Целью обучения является минимизация квадрата ошибки выходного сигнала изменяя синаптические веса wji

Постановку задачи для обучения можно сформулировать следующим образом. 

Дано множество синоптических весов wji и смещение —

Обучение однослойного персептрона

Необходимо найти насколько требуется увеличить или уменьшить синаптические веса, чтобы уменьшить ошибку задаваемую функцией Ej. Это может быть сделано, используя правило градиентного наискорейшего спуска задаваемое выражением 

Обучение однослойного персептрона

где

Обучение однослойного персептрона

– это положительный параметр обучения, определяющий скорость приближения к минимуму. 

Учитывая, что ошибка

Обучение однослойного персептрона

где

Обучение однослойного персептрона

wji – вес синапса, который в j-м нейроне умножается на входящий сигнал xi;

Обучение однослойного персептрона

— смещение j-го нейрона;

Обучение однослойного персептрона

x0=1.

Применим цепное правило.

Обучение однослойного персептрона

Получим

Обучение однослойного персептрона
(2)

где

Обучение однослойного персептрона

— называется обучающим сигналом или локальной ошибкой, определяемой как 

Обучение однослойного персептрона

Если в качестве сигмоидальной функции активации выбрана функция гиперболического тангенса (1), тогда производная

Обучение однослойного персептрона

будет равна

Обучение однослойного персептрона

В этом случае выражение (2) может быть записано

Обучение однослойного персептрона

где

Обучение однослойного персептрона

Заметим, что изменения весов выполняется стабильно, если yj приблизительно -1 или +1, поскольку производная

Обучение однослойного персептрона

, равна

Обучение однослойного персептрона

, достигая своего максимума при yj=0 и минимума при

Обучение однослойного персептрона

Синаптические веса обычно изменяются с определенным шагом и постепенно сходятся к тем значениям, которые позволяют решить поставленую задачу. В основе алгоритма положено выражение (2), которое с шагом (при дискретном времени) изменяет веса wji. Шаг можно записать в виде 

Обучение однослойного персептрона

где

Обучение однослойного персептрона
Обучение однослойного персептрона
Обучение однослойного персептрона

Обычно

Обучение однослойного персептрона

Реализация всего алгоритма требует точного знания сигмоидальной функции и ее производной. График этих функций для различных значений параметра

Обучение однослойного персептрона

изображен на рисунке 1. Заметим, что форма и значения экстремумов производной сигмоидной нелинейности строго зависят от значений параметра

Обучение однослойного персептрона

(см. рис. 2). 

Обучение однослойного персептрона
Рис. 1 — Сигмоидальная активационная функция
Обучение однослойного персептрона
Рис. 2 — Производная сигмоидальной активационной функци