Выделение признаков
Выделение признаков — это разновидность абстрагирования, процесс снижения размерности, в котором исходный набор исходных переменных сокращается до более управляемых групп (признаков) для дальнейшей обработки, оставаясь при этом достаточным набором для точного и полного описания исходного набора данных[1]. Выделение признаков используется в машинном обучении, распознавании образов и при обработке изображений. Выделение признаков начинает с исходного набора данных, выводит вторичные значения (признаки), для которых предполагается, что они должны быть информативными и не быть избыточными, что способствует последующему процессу машинного обучения и обобщению шагов, а в некоторых случаях ведёт и к лучшей человеческой интерпретацией данных.
Когда входные данные алгоритма слишком большие для обработки и есть подозрение, что данные избыточные (например, измерения проведены как в футах, так и в метрах, или повторяемость изображений представлена пикселами), то они могут быть преобразованы в сокращённый набор признаков (называемый вектором признаков). Определение подмножества начальных признаков называется отбором признаков[2]. Отобранные признаки проверяются на содержание необходимой информации во входных данных, так что желаемая задача может быть выполнена с помощью этого сокращённого набора вместо исходных полных данных.
Общий подход
Выделение признаков вовлекает сокращение числа ресурсов, необходимых для описания большого набора данных. Когда осуществляется анализ сложных данных, одна из главных проблем вызывается числом вовлекаемых переменных. Анализ с большим числом переменных в общем случае требует большой памяти и вычислительной мощности, а также это может вызвать для алгоритмов задачи классификации переподгонку относительно тренировочной выборки, что приводит в общем случае к плохим результатам для новых образцов. Выделение признаков является основным термином для методов построения комбинаций переменных, чтобы обойти эти проблемы, тем не менее описывая данные с достаточной точностью. Многие практики машинного обучения верят, что должным образом оптимизированное выделение признаков является ключом для построения эффективной модели[3].
Результаты могут быть улучшены с использованием построенного набора зависящих от приложения признаков, обычно построенных экспертами. Один из таких процессов называется конструированием признаков. Альтернативно, используются техники общего снижения размерности, такие как:
- Анализ независимых компонент
- Isomap[англ.]
- Ядерный метод главных компонент[англ.]
- Латентно-семантический анализ
- Регрессия частных наименьших квадратов[англ.]
- Метод главных компонент
- Снижение размерности многофакторного пространства[англ.]
- Нелинейное снижение размерности[англ.]
- Полилинейный метод главных компонент[англ.]
- Полилинейное обучение подпространств[англ.]
- Полуопределённое вложение[англ.]
- Автокодировщик
Обработка изображений
Одна из очень важных областей приложения выделения признаков — обработка изображений, в которой используются алгоритмы для обнаружения и изоляции различных желательных порций или фигур (признаков) цифрового изображения или видеопотока. Одна из важных областей приложения методов — оптическое распознавание символов.
Низкоуровневое
- Выделение границ
- Обнаружение углов[англ.]
- Обнаружение пятен[англ.]
- Обнаружение хребтов[англ.]
- Преобразование признаков, инвариантное к масштабу[англ.]
Кривизна
- Направление рёбер, изменение интенсивности, автокорреляция.
Движущиеся изображения
- Обнаружение движения[англ.]. Зональный и дифференциальный подходы. Оптический поток.
Методы, основанные на форме
- Пороговая фильтрация[англ.]
- Выделение объектов[англ.]
- Сравнение с шаблоном[англ.]
- Алгоритм для поиска особых точек и их сравнения SIFT
- Преобразование Хафа
- Прямые
- Окружности/эллипсы
- Произвольные фигуры (обобщённое преобразование Хафа)
- Работа с любыми параметризуемыми признаками (параметры класса, обнаружение кластеров и т.д..)
Гибкие методы
- Деформируемые, параметризованные фигуры
- Активные контуры (извивающиеся)
Выделение признаков в программном обеспечении
Многие пакеты статистической обработки обеспечивают возможность выделения признаков и сокращения размерности. Общие системы численной обработки, такие как MATLAB, Scilab, NumPy и язык R поддерживают некоторые простые техники выделения признаков (например, метод главных компонент) с помощью встроенных команд. Более специфичные алгоритмы часто доступны как общедоступные скрипты или разработки сторонних фирм. Существуют также пакеты, разработанные для конкретных приложений машинного обучения специально для выделения признаков.[4]
См. также
- Кластерный анализ
- Снижение размерности
- Выявление признаков[англ.]
- Отбор признаков
- Data mining
- Маркировка связных компонент[англ.]
- Сегментация (обработка изображений)
Примечания
- ↑ What is Feature Extraction? deepai.org. Архивировано 2 марта 2021 года.
- ↑ Alpaydin, 2010, с. 110.
- ↑ Reality AI Blog, "Its all about the features", September 2017, https://reality.ai/it-is-all-about-the-features/ Архивная копия от 18 августа 2019 на Wayback Machine
- ↑ см., например, https://reality.ai/ Архивная копия от 25 марта 2021 на Wayback Machine
Литература
- Ethem Alpaydin. Introduction to Machine Learning. — London: The MIT Press, 2010. — ISBN 978-0-262-01243-0.
Для улучшения этой статьи желательно:
|