Это не официальный сайт wikipedia.org 01.01.2023

Softmax — Википедия

Softmax — это обобщение логистической функции для многомерного случая. Функция преобразует вектор z размерности K в вектор σ той же размерности, где каждая координата σ i полученного вектора представлена вещественным числом в интервале [0,1] и сумма координат равна 1.

Координаты σ i вычисляются следующим образом:

σ ( z ) i = e z i k = 1 K e z k

Применение в машинном обученииПравить

Функция Softmax применяется в машинном обучении для задач классификации, когда количество возможных классов больше двух (для двух классов используется логистическая функция). Координаты σ i   полученного вектора при этом трактуются как вероятности того, что объект принадлежит к классу i  . Вектор-столбец z   при этом рассчитывается следующим образом:

z = w T x θ  

где x   — вектор-столбец признаков объекта размерности M × 1  ; w T   — транспонированная матрица весовых коэффициентов признаков, имеющая размерность K × M  ; θ   — вектор-столбец с пороговыми значениями размерности K × 1   (см. перцептрон), где K  — количество классов объектов, а M   — количество признаков объектов.

Часто Softmax используется для последнего слоя глубоких нейронных сетей для задач классификации. Для обучения нейронной сети при этом в качестве функции потерь используется перекрёстная энтропия.