Отбор признаков

Отбор признаков, известный также как отбор переменных, отбор атрибутов или отбор поднабора переменных, это разновидность абстрагирования, процесс отбора подмножества значимых признаков (переменных зависимых и независимых) для использования в построении модели. Техники отбора признаков используются по четырём причинам:

упрощение моделей для того, чтобы сделать их проще для интерпретации исследователями/пользователями,

более короткое время тренировки,

чтобы избежать проклятие размерности,

улучшенное обобщение путём сокращения переобучения (формально, уменьшение дисперсии).Центральный посыл использования техники отбора признаков — что данные содержат некоторые признаки, которые либо излишни, либо незначимы, а потому могут быть удалены без существенной потери информации. "Излишний" и "незначимый" являются двумя различными понятиями, поскольку один значимый признак может быть излишним при присутствии другого существенного признака, с которым он сильно коррелирует .

Техники отбора признаков следует отличать от выделения признаков. Выделение признаков создаёт новые признаки как функции от оригинальных признаков, в то время как отбор признаков возвращает подмножество признаков. Техники отбора признаков часто используются в областях, где имеется много признаков и выборки сравнительно малы (мало точек данных). Классическими местами применения отбора признаков являются анализ рукописных текстов и ДНК-микрочипы, где имеется много тысяч признаков и от десятков до сотен экземпляров выборки.

Источник: Википедия