Функция активации

В искусственных нейронных сетях функция активации нейрона определяет выходной сигнал, который определяется входным сигналом или набором входных сигналов. Стандартная компьютерная микросхема может рассматриваться как цифровая сеть функций активации, которые могут принимать значения «ON» (1) или «OFF» (0) в зависимости от входа. Это похоже на поведение линейного перцептрона в нейронных сетях. Однако только нелинейные функции активации позволяют таким сетям решать нетривиальные задачи с использованием малого числа узлов. В искусственных нейронных сетях эта функция также называется передаточной функцией.

Функции

В биологических нейронных сетях функция активации обычно является абстракцией, представляющей скорость возбуждения потенциала действия в клетке ^[1]. В наиболее простой форме эта функция является двоичной — то есть нейрон либо возбуждается, либо нет. Функция выглядит как $\phi (v_{i})=U(v_{i})$ , где $U$ — ступенчатая функция Хевисайда. В этом случае нужно использовать много нейронов для вычислений за пределами линейного разделения категорий.

Прямая с положительным угловым коэффициентом может быть использована для отражения увеличения скорости возбуждения по мере увеличения входного сигнала. Такая функция имела бы вид $\phi (v_{i})=\mu v_{i}$ , где $\mu$ — наклон прямой. Эта функция активации линейна, а потому имеет те же проблемы, что и двоичная функция. Кроме того, сети, построенные с использованием такой модели, имеют нестабильную сходимость^[англ.], поскольку возбуждение приоритетных входов нейронов стремится к безграничному увеличению, так как эта функция не нормализуема.

Все проблемы, упомянутые выше, можно решить с помощью нормализуемой сигмоидной функции активации. Одна из реалистичных моделей остаётся в нулевом состоянии, пока не придёт входной сигнал, в этот момент скорость возбуждения сначала быстро возрастает, но постепенно достигает асимптоты в 100 % скорости возбуждения. Математически, это выглядит как $\phi (v_{i})=U(v_{i})\mathrm {th} \,(v_{i})$ , где гиперболический тангенс можно заменить любой сигмоидой. Такое поведение реально имеет место в биологическом нейроне, поскольку нейроны не могут физически возбуждаться быстрее некоторой определённой скорости. Эта модель, однако, имеет несколько проблем в вычислительных сетях, поскольку функция не дифференцируема, что нужно для вычисления обратной передачи ошибки обучения.

Последняя модель, которая используется в многослойных перцептронах — сигмоидная функция активации в форме гиперболического тангенса. Обычно используются два вида этой функции: $\phi (v_{i})=\mathrm {th} \,(v_{i})$ , образ которой нормализован к интервалу [-1, 1], и $\phi (v_{i})=(1+\exp(-v_{i}))^{-1}$ , сдвинутая по вертикали для нормализации от 0 до 1. Последняя модель считается более биологически реалистичной, но имеет теоретические и экспериментальные трудности с вычислительными ошибками некоторых типов.

Альтернативные структуры

Специальный класс функций активации, известный как радиальные базисные функции (РБФ) используются в РБФ сетях, которые крайне эффективны в качестве универсальных аппроксиматоров функций. Эти функции активации могут принимать множество форм, но обычно берётся одна из следующих трёх функций:

Гауссова: $\,\phi (v_{i})=\exp \left(-{\frac {\|v_{i}-c_{i}\|^{2}}{2\sigma ^{2}}}\right)$
Мультиквадратичная (англ. Multiquadratics): $\,\phi (v_{i})={\sqrt {\|v_{i}-c_{i}\|^{2}+a^{2}}}$
Обратная мультиквадратичная (англ. Inverse Multiquadratics): $\,\phi (v_{i})=(\|v_{i}-c_{i}\|^{2}+a^{2})^{-1/2}$

где $c_{i}$ является вектором, представляющим центр функции, а $a$ и $\sigma$ являются параметрами, влияющими на расходимость радиуса.

Методы опорных векторов (SVM) могут эффективно использовать класс функций активации, который включает как сигмоиды, так и РБФ. В этом случае вход преобразуется для отражения гиперплоскости границы решений основываясь на нескольких обучающих входных данных, называемых опорными векторами $x$ . О функции активации для закрытого уровня этих машин говорят как о ядре скалярного произведения (англ. inner product kernel), $K(v_{i},x)=\phi (v_{i})$ . Опорные вектора представляются как центры в РБФ с ядром, равным функции активации, но они принимают единственный вид в перцептроне

\,\phi (v_{i})=\mathrm {th} \,\left(\beta _{1}+\beta _{0}\sum _{j}v_{i,j}x_{j}\right)

,

где для сходимости $\beta _{0}$ и $\beta _{1}$ должны удовлетворять некоторым условиям. Эти машины могут принимать полиномиальные функции активации любого порядка

\,\phi (v_{i})=\left(1+\sum _{j}v_{i,j}x_{j}\right)^{p}

^[2].

Функции активации бывают следующих типов:

Тождественная функция
Двоичная ступенчатая функция
Биполярная^[3] ступенчатая функция
Cигмоидная функция
- Двоичная cигмоидальная функция
- Биполярная сигмоидная функция
Функция подъёма^[4]

Сравнение функций активации

Некоторые желательные свойства функций активации:

Нелинейность – Если функция активации нелинейна, можно доказать, что двухуровневая нейронная сеть будет универсальным аппроксиматором функции ^[5]. Тождественная функция активации не удовлетворяет этому свойству. Если несколько уровней используют тождественную функцию активации, вся сеть эквивалентна одноуровневой модели.
Непрерывная дифференцируемость – Это свойство желательно (RELU не является непрерывно дифференцируемой и имеет некоторые проблемы с оптимизацией, основанной на градиентном спуске, но остаётся допустимой возможностью) для обеспечения методов оптимизации на основе градиентного спуска. Двоичная ступенчатая функция активации не дифференцируема в точке 0 и её производная равна 0 во всех других точках, так что методы градиентного спуска не дают никакого успеха для неё^[6].
Область значений – Если множество значений функции активации ограничено, методы обучения на основе градиента более стабильны, поскольку представления эталонов существенно влияют лишь на ограниченный набор весов связей. Если область значений бесконечна, обучение, как правило, более эффективно, поскольку представления эталонов существенно влияют на большинство весов. В последнем случае обычно необходим меньший темп обучения.
Монотонность – Если функция активации монотонна, поверхность ошибок, ассоциированная с одноуровневой моделью, гарантированно будет выпуклой ^[7].
Гладкие функции с монотонной производной – Показано, что в некоторых случаях они обеспечивают более высокую степень общности.
Аппроксимирует тождественную функцию около начала координат – Если функции активации имеют это свойство, нейронная сеть будет обучаться эффективно, если её веса инициализированы малыми случайными значениями. Если функция активации не аппроксимирует тождество около начала координат, нужно быть осторожным при инициализации весов^[8]. В таблице ниже функции активации, у которых $f(0)=0$ , $f'(0)=1$ и $f'$ непрерывна в точке 0, помечены как имеющие это свойство.

Следующая таблица сравнивает свойства некоторых функций активации, которые являются функциями одной свёртки x от предыдущего уровня или уровней:

Название	Уравнение	Производная (по x)	Область значений	Порядок гладкости	Монотонная	Монотонная производная	Аппроксимирует тождественную функцию около начала координат
Тождественная	$f(x)=x$	$f'(x)=1$	$(-\infty ,\infty )$	$C^{\infty }$	Да	Да	Да
Единичная ступенька	$f(x)={\begin{cases}0&x<0\\1&x\geqslant 0\end{cases}}$	$f'(x)={\begin{cases}0&x\neq 0\\?&x=0\end{cases}}$	$\{0,1\}$	$C^{-1}$	Да	Нет	Нет
Логистическая (сигмоида или Гладкая ступенька)	$f(x)=\sigma (x)={\frac {1}{1+e^{-x}}}$ ^[1]	$f'(x)=f(x)(1-f(x))$	$(0,1)$	$C^{\infty }$	Да	Нет	Нет
th	$f(x)=\mathrm {th} \,(x)={\frac {(e^{x}-e^{-x})}{(e^{x}+e^{-x})}}$	$f'(x)=1-f(x)^{2}$	$(-1,1)$	$C^{\infty }$	Да	Нет	Да
arctg	$f(x)=\mathrm {tg} \,^{-1}(x)$	$f'(x)={\frac {1}{x^{2}+1}}$	$\left(-{\frac {\pi }{2}},{\frac {\pi }{2}}\right)$	$C^{\infty }$	Да	Нет	Да
Softsign^[9]^[10]	$f(x)={\frac {x}{1+\|x\|}}$	$f'(x)={\frac {1}{(1+\|x\|)^{2}}}$	$(-1,1)$	$C^{1}$	Да	Нет	Да
Обратный квадратный корень (англ. Inverse square root unit, ISRU)^[11]	$f(x)={\frac {x}{\sqrt {1+\alpha x^{2}}}}$	$f'(x)=\left({\frac {1}{\sqrt {1+\alpha x^{2}}}}\right)^{3}$	$\left(-{\frac {1}{\sqrt {\alpha }}},{\frac {1}{\sqrt {\alpha }}}\right)$	$C^{\infty }$	Да	Нет	Да
Линейный выпрямитель^[англ.] (или Полулинейный элемент) (англ. Rectified linear unit, ReLU) ^[12]^[13]	$f(x)={\begin{cases}0&x<0\\x&x\geqslant 0\end{cases}}$	$f'(x)={\begin{cases}0&x<0\\1&x\geqslant 0\end{cases}}$	$[0,\infty )$	$C^{0}$	Да	Да	Нет
Линейный выпрямитель с «утечкой» (англ. Leaky rectified linear unit, Leaky ReLU)^[14]	$f(x)={\begin{cases}0,01x&x<0\\x&x\geqslant 0\end{cases}}$	$f'(x)={\begin{cases}0,01&x<0\\1&x\geqslant 0\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$	Да	Да	Нет
Параметрический линейный выпрямитель (англ. Parameteric rectified linear unit, PReLU)^[15]	$f(\alpha ,x)={\begin{cases}\alpha x&x<0\\x&x\geqslant 0\end{cases}}$	$f'(\alpha ,x)={\begin{cases}\alpha &x<0\\1&x\geqslant 0\end{cases}}$	$(-\infty ,\infty )$ ^[2]	$C^{0}$	Да, когда $\alpha \geqslant 0$	Да	Да, когда $\alpha =1$
Рандомизированный линейный выпрямитель с «утечкой» (англ. Randomized leaky rectified linear unit, RReLU)^[16]	$f(\alpha ,x)={\begin{cases}\alpha x&x<0\\x&x\geqslant 0\end{cases}}$ ^[3]	$f'(\alpha ,x)={\begin{cases}\alpha &x<0\\1&x\geqslant 0\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$	Да	Да	Нет
Экспоненциальная линейная функция (англ. Exponential linear unit, ELU)^[17]	$f(\alpha ,x)={\begin{cases}\alpha (e^{x}-1)&x<0\\x&x\geqslant 0\end{cases}}$	$f'(\alpha ,x)={\begin{cases}f(\alpha ,x)+\alpha &x<0\\1&x\geqslant 0\end{cases}}$	$(-\alpha ,\infty )$	${\begin{cases}C_{1}&\alpha =1\\C_{0}&\alpha \neq 1\end{cases}}$	Да, когда $\alpha \geqslant 0$	Да, когда $0\leqslant \alpha \leqslant 1$	Да, когда $\alpha =1$
Масштабированная экспоненциальная линейная функция (англ. Scaled exponential linear unit, SELU)^[18]	$f(\alpha ,x)=\lambda {\begin{cases}\alpha (e^{x}-1)&x<0\\x&x\geqslant 0\end{cases}}$ с $\lambda =1,0507$ и $\alpha =1,67326$	$f'(\alpha ,x)=\lambda {\begin{cases}\alpha (e^{x})&x<0\\1&x\geqslant 0\end{cases}}$	$(-\lambda \alpha ,\infty )$	$C^{0}$	Да	Нет	Нет
Линейный S-выпрямитель (англ. S-shaped rectified linear activation unit, SReLU)^[19]	$f_{t_{l},a_{l},t_{r},a_{r}}(x)={\begin{cases}t_{l}+a_{l}(x-t_{l})&x\leqslant t_{l}\\x&t_{l}<x<t_{r}\\t_{r}+a_{r}(x-t_{r})&x\geqslant t_{r}\end{cases}}$ $t_{l},a_{l},t_{r},a_{r}$ являются параметрами.	$f'_{t_{l},a_{l},t_{r},a_{r}}(x)={\begin{cases}a_{l}&x\leqslant t_{l}\\1&t_{l}<x<t_{r}\\a_{r}&x\geqslant t_{r}\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$	Нет	Нет	Нет
Обратный квадратный линейный корень (англ. Inverse square root linear unit, ISRLU)^[11]	$f(x)={\begin{cases}{\frac {x}{\sqrt {1+\alpha x^{2}}}}&x<0\\x&x\geqslant 0\end{cases}}$	$f'(x)={\begin{cases}\left({\frac {1}{\sqrt {1+\alpha x^{2}}}}\right)^{3}&x<0\\1&x\geqslant 0\end{cases}}$	$\left(-{\frac {1}{\sqrt {\alpha }}},\infty \right)$	$C^{2}$	Да	Да	Да
Адаптивная кусочно-линейная функция (англ. Adaptive piecewise linear, APL)^[20]	$f(x)=\max(0,x)+\sum _{s=1}^{S}a_{i}^{s}\max(0,-x+b_{i}^{s})$	$f'(x)=H(x)-\sum _{s=1}^{S}a_{i}^{s}H(-x+b_{i}^{s})$ ^[4]	$(-\infty ,\infty )$	$C^{0}$	Нет	Нет	Нет
SoftPlus^[21]	$f(x)=\ln(1+e^{x})$	$f'(x)={\frac {1}{1+e^{-x}}}$	$(0,\infty )$	$C^{\infty }$	Да	Да	Нет
Выгнутая тождественная функция (англ. Bent identity)	$f(x)={\frac {{\sqrt {x^{2}+1}}-1}{2}}+x$	$f'(x)={\frac {x}{2{\sqrt {x^{2}+1}}}}+1$	$(-\infty ,\infty )$	$C^{\infty }$	Да	Да	Да
Cигмоидно-взвешенная линейная функция (англ. Sigmoid-weighted linear unit, SiLU)^[22]	$f(x)=x\cdot \sigma (x)$ ^[5]	$f'(x)=f(x)+\sigma (x)(1-f(x))$ ^[6]	$[\approx -0,28,\infty )$	$C^{\infty }$	Нет	Нет	Нет
SoftExponential^[23]	$f(\alpha ,x)={\begin{cases}-{\frac {\ln(1-\alpha (x+\alpha ))}{\alpha }}&\alpha <0\\x&\alpha =0\\{\frac {e^{\alpha x}-1}{\alpha }}+\alpha &\alpha >0\end{cases}}$	$f'(\alpha ,x)={\begin{cases}{\frac {1}{1-\alpha (\alpha +x)}}&\alpha <0\\e^{\alpha x}&\alpha \geqslant 0\end{cases}}$	$(-\infty ,\infty )$	$C^{\infty }$	Да	Да	Да, когда $\alpha =0$
Синусоида^[24]	$f(x)=\sin(x)$	$f'(x)=\cos(x)$	$[-1,1]$	$C^{\infty }$	Нет	Нет	Да
Sinc	$f(x)={\begin{cases}1&x=0\\{\frac {\sin(x)}{x}}&x\neq 0\end{cases}}$	$f'(x)={\begin{cases}0&x=0\\{\frac {\cos(x)}{x}}-{\frac {\sin(x)}{x^{2}}}&x\neq 0\end{cases}}$	$[\approx -0,217234,1]$	$C^{\infty }$	Нет	Нет	Нет
Гауссова	$f(x)=e^{-x^{2}}$	$f'(x)=-2xe^{-x^{2}}$	$(0,1]$	$C^{\infty }$	Нет	Нет	Нет

↑ Здесь, H является ступенчатой функцией Хевисайда.

↑ α является стохастической переменной, берущейся из равномерного распределения в момент обучения, значение которой фиксируется равным математическому ожиданию распределения в момент тестирования.

↑ ↑ ↑ Здесь

\sigma

является логистической функцией.

Следующая таблица перечисляет функции активации, которые не являются функциями от одной свёртки x от предыдущего уровня или уровней:

Название	Уравнение	Производные	Область значений	Степень гладкости
Softmax	$f_{i}({\vec {x}})={\frac {e^{x_{i}}}{\sum _{j=1}^{J}e^{x_{j}}}}$ для i = 1, …, J	${\frac {\partial f_{i}({\vec {x}})}{\partial x_{j}}}=f_{i}({\vec {x}})(\delta _{ij}-f_{j}({\vec {x}}))$ ^[7]	$(0,1)$	$C^{\infty }$
Maxout^[25]	$f({\vec {x}})=\max _{i}x_{i}$	${\frac {\partial f}{\partial x_{j}}}={\begin{cases}1&j={\underset {i}{\operatorname {argmax} }}\,x_{i}\\0&j\neq {\underset {i}{\operatorname {argmax} }}\,x_{i}\end{cases}}$	$(-\infty ,\infty )$	$C^{0}$

↑ Здесь $\delta _{ij}$ обозначает символ Кронекера.

См. также

Примечания

↑ Hodgkin, Huxley, 1952, с. 500–544.
↑ Haykin, 1999.
↑ Биполярная – принимающая значение -1 до начала координат и 1 после, в отличие от двоичной ступенчатой функции, которая принимает до начала координат значения 0.)
↑ Функция подъёма принимает значение 0 до начала координат и линейна после.
↑ Cybenko, 2006, с. 303.
↑ Snyman, 2005.
↑ Wu, 2009, с. 3432–3441.
↑ Sussillo, David; Abbott, L. F. (2014-12-19). "Random Walk Initialization for Training Very Deep Feedforward Networks". arXiv:1412.6558 [cs.NE].
↑ James Bergstra, Guillaume Desjardins, Pascal Lamblin, Yoshua Bengio. Quadratic polynomials learn better image features". Technical Report 1337 (неопр.). Département d’Informatique et de Recherche Opérationnelle, Université de Montréal (2009). Дата обращения: 30 сентября 2018. Архивировано из оригинала 25 сентября 2018 года.
↑ Glorot, Bengio, 2010.
↑ ¹ ² Carlile, Brad; Delamarter, Guy; Kinney, Paul; Marti, Akiko; Whitney, Brian (2017-11-09). "Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs)". arXiv:1710.09967 [cs.LG].
↑ По аналогии с диодом – пропускает ток (не меняя его) в одну сторону, и не пропускает в другую.
↑ Nair, Hinton, 2010, с. 807–814.
↑ Maas, Hannun, Ng, 2013.
↑ He, Zhang, Ren, Sun, 2015.
↑ Xu, Wang, Chen, Li, 2015.
↑ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015-11-23). "Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)". arXiv:1511.07289 [cs.LG].
↑ Klambauer, Unterthiner, Mayr, Hochreiter, 2017.
↑ Jin, Xiaojie; Xu, Chunyan; Feng, Jiashi; Wei, Yunchao; Xiong, Junjun; Yan, Shuicheng (2015-12-22). "Deep Learning with S-shaped Rectified Linear Activation Units". arXiv:1512.07030 [cs.CV].
↑ Forest Agostinelli; Matthew Hoffman; Peter Sadowski; Pierre Baldi (21 Dec 2014). "Learning Activation Functions to Improve Deep Neural Networks". arXiv:1412.6830 [cs.NE].
↑ Xavier Glorot, Antoine Bordes, Yoshua Bengio. Deep sparse rectifier neural networks (неопр.). International Conference on Artificial Intelligence and Statistics (2011). Дата обращения: 30 сентября 2018. Архивировано 19 июня 2018 года.
↑ Elfwing, Uchibe, Doya, 2018.
↑ Godfrey, Gashler, 2016, с. 481–486.
↑ Gashler, Ashmore, 2014.
↑ Goodfellow, Warde-Farley, Mirza, Courville, Bengio, 2013, с. 1319–1327.

Литература

Hodgkin A. L., Huxley A. F. A quantitative description of membrane current and its application to conduction and excitation in nerve // The Journal of Physiology. — 1952. — Т. 117, вып. 4. — С. 500–544. — PMID 12991237. — PMC 1392413.
Simon S. Haykin. Neural Networks: A Comprehensive Foundation. — Prentice Hall, 1999. — ISBN 978-0-13-273350-2.
Cybenko G.V. Approximation by Superpositions of a Sigmoidal function // Mathematics of Control, Signals, and Systems / Jan H. van Schuppen. — Springer International, 2006. — С. 303.
Jan Snyman. Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms. — Springer Science & Business Media, 2005. — ISBN 978-0-387-24348-1.
Huaiqin Wu. Global stability analysis of a general class of discontinuous neural networks with linear growth activation functions // Information Sciences. — 2009. — Т. 179, вып. 19. — С. 3432–3441. — doi:10.1016/j.ins.2009.06.006.
Xavier Glorot, Yoshua Bengio. Understanding the difficulty of training deep feedforward neural networks // International Conference on Artificial Intelligence and Statistics (AISTATS'10). — Society for Artificial Intelligence and Statistics, 2010.
Vinod Nair, Geoffrey E. Hinton. Rectified Linear Units Improve Restricted Boltzmann Machines // 27th International Conference on International Conference on Machine Learning. — USA: Omnipress, 2010. — С. 807–814. — (ICML'10). — ISBN 9781605589077.
Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng. Rectifier nonlinearities improve neural network acoustic models // Proc. ICML. — 2013. — Июнь (т. 30, вып. 1).
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Proceeding ICCV’15 Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). — Washington: IEEE Computer Society, 2015. — С. 1026-1034. — ISBN 978-1-4673-8391-2.
Bing Xu, Naiyan Wang, Tianqi Chen, Mu Li. Empirical Evaluation of Rectified Activations in Convolutional Network // Computer Vision and Pattern Recognition. — 2015.
Günter Klambauer, Thomas Unterthiner, Andreas Mayr, Sepp Hochreiter. Self-Normalizing Neural Networks // Advances in Neural Information Processing Systems. — 2017. — Июнь (т. 30, вып. 2017). — Bibcode: 2017arXiv170602515K. — arXiv:1706.02515.
Stefan Elfwing, Eiji Uchibe, Kenji Doya. Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning // Neural Networks. — 2018.
Luke B. Godfrey, Michael S. Gashler. A continuum among logarithmic, linear, and exponential functions, and its potential to improve generalization in neural networks // 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management: KDIR. — 2016. — Февраль (т. 1602). — Bibcode: 2016arXiv160201321G. — arXiv:1602.01321.
Michael S. Gashler, Stephen C. Ashmore. Training Deep Fourier Neural Networks To Fit Time-Series Data // International Conference on Intelligent Computing. — Springrt, Cham, 2014. — С. 48-55.
Ian J. Goodfellow, David Warde-Farley, Mehdi Mirza, Aaron Courville, Yoshua Bengio. Maxout Networks // JMLR Workshop and Conference Proceedings. — 2013. — Т. 28, вып. 3. — С. 1319–1327. — Bibcode: 2013arXiv1302.4389G. — arXiv:1302.4389.

[_653dfdd102df7ebe-1] Hodgkin, Huxley, 1952, с. 500–544.

[_b042a02f006726c9-2] Haykin, 1999.

[3] Биполярная – принимающая значение -1 до начала координат и 1 после, в отличие от двоичной ступенчатой функции, которая принимает до начала координат значения 0.)

[4] Функция подъёма принимает значение 0 до начала координат и линейна после.

[_092fe98cbf11e210-5] Cybenko, 2006, с. 303.

[_5dfad8e1028567c2-6] Snyman, 2005.

[_c7f85f5a7f697d81-7] Wu, 2009, с. 3432–3441.

[8] Sussillo, David; Abbott, L. F. (2014-12-19). "Random Walk Initialization for Training Very Deep Feedforward Networks". arXiv:1412.6558 [cs.NE].

[9] James Bergstra, Guillaume Desjardins, Pascal Lamblin, Yoshua Bengio. Quadratic polynomials learn better image features". Technical Report 1337 (неопр.). Département d’Informatique et de Recherche Opérationnelle, Université de Montréal (2009). Дата обращения: 30 сентября 2018. Архивировано из оригинала 25 сентября 2018 года.

[_142d9e44f34b99d7-10] Glorot, Bengio, 2010.

[isrlu-11] ¹ ² Carlile, Brad; Delamarter, Guy; Kinney, Paul; Marti, Akiko; Whitney, Brian (2017-11-09). "Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs)". arXiv:1710.09967 [cs.LG].

[12] По аналогии с диодом – пропускает ток (не меняя его) в одну сторону, и не пропускает в другую.

[_caeed0d8d8fac9b5-13] Nair, Hinton, 2010, с. 807–814.

[_3b36b3b2888beb52-14] Maas, Hannun, Ng, 2013.

[_9dfb84a6d3c487d1-15] He, Zhang, Ren, Sun, 2015.

[_43155c1d5e4ce04a-16] Xu, Wang, Chen, Li, 2015.

[17] Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015-11-23). "Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)". arXiv:1511.07289 [cs.LG].

[_3ca0e58b226cf935-18] Klambauer, Unterthiner, Mayr, Hochreiter, 2017.

[19] Jin, Xiaojie; Xu, Chunyan; Feng, Jiashi; Wei, Yunchao; Xiong, Junjun; Yan, Shuicheng (2015-12-22). "Deep Learning with S-shaped Rectified Linear Activation Units". arXiv:1512.07030 [cs.CV].

[20] Forest Agostinelli; Matthew Hoffman; Peter Sadowski; Pierre Baldi (21 Dec 2014). "Learning Activation Functions to Improve Deep Neural Networks". arXiv:1412.6830 [cs.NE].

[21] Xavier Glorot, Antoine Bordes, Yoshua Bengio. Deep sparse rectifier neural networks (неопр.). International Conference on Artificial Intelligence and Statistics (2011). Дата обращения: 30 сентября 2018. Архивировано 19 июня 2018 года.

[_38a415f0c0b6ea99-22] Elfwing, Uchibe, Doya, 2018.

[_7d858eaad32535ac-23] Godfrey, Gashler, 2016, с. 481–486.

[_3d367112ded81063-24] Gashler, Ashmore, 2014.

[_059862e4f447cd6c-25] Goodfellow, Warde-Farley, Mirza, Courville, Bengio, 2013, с. 1319–1327.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[1]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[2]

[16]

[3]

[17]

[18]

[19]

[20]

[4]

[21]

[22]

[5]

[6]

[23]

[24]

[7]

[25]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG