Обнаружение аномалий

При анализе данных обнаружение аномалий (также обнаружение выбросов) — это идентификация редких элементов, событий или наблюдений, которые вызывают подозрения, поскольку значительно отличаются от большинства данных. Одним из применений обнаружения аномалий является безопасность или бизнес-аналитика как способ определения уникальных условий нормального или наблюдаемого распределения. Аномальные распределения отличаются от среднего тремя способами. Во-первых, они могут быть соотнесены с предыдущими значениями; во-вторых, существует постоянная скорость изменения (в противном случае они являются выбросом); и в-третьих, они имеют нулевое среднее значение. Регулярное распределение является нормальным распределением. Аномалии в данных могут быть обнаружены путем измерения среднего значения и деления на значение среднего значения. Поскольку не существует теоретического верхнего предела количества вхождений в наборе данных, эти множественные значения подсчитываются и представляют элементы, которые имеют отклонения от среднего, хотя они не обязательно представляют собой истинную аномалию.

Сходства аномалий данных

Понятие аномалии можно описать как значение данных, которое значительно отличается от среднего распределения. Но описание аномалий также достаточно общее. В наборе данных может возникнуть любое количество отклонений, если существует разница между наблюдаемыми отношениями или пропорциями. Эта концепция наиболее известна для наблюдения за отношениями. Они усредняются для получения распределения. Сходство наблюдаемого соотношения или пропорции гораздо меньше аномалии. Аномалии не обязательно редки. Даже когда наблюдения более похожи, чем ожидаемые значения, наблюдаемое распределение не является типичным или ожидаемым распределением (выбросами). Однако существует также естественное распределение возможных значений, в которое могут вписаться наблюдения. Аномалии легко обнаружить, наблюдая за статистическим распределением наблюдаемых данных.

Во втором сценарии известное распределение отсутствует, поэтому невозможно сделать вывод, что наблюдения типичны для какого-либо распределения. Однако может быть доступное распределение, которое предсказывает распределение наблюдений в этом случае.

В третьем сценарии имеется достаточно различных точек данных, чтобы использовать полученное распределение для прогнозирования наблюдаемых данных. Это возможно при использовании данных, которые не являются очень нормальными или имеют разную степень отклонения от наблюдаемого распределения. В этом случае имеется среднее или ожидаемое значение. Прогноз — это распределение, которое будет описывать данные, которые не являются типичными для данных, хотя они не обязательно являются аномалиями. Это особенно характерно для нерегулярных наборов данных (также известных как выбросы).

Аномалии не ограничиваются естественными наблюдениями. Фактически, большинство данных в деловой, социальной, математической или научной областях иногда имеют необычные значения или распределения. Чтобы помочь в принятии решений в таких ситуациях, можно выявить закономерности, относящиеся к различным значениям данных, отношениям, пропорциям или отличиям от нормального распределения. Эти закономерности или аномалии представляют собой отклонения, имеющие некоторое теоретическое значение. Однако значение отклонения обычно настолько мало, что большинство людей его не замечают. Его можно назвать аномальным значением, аномалией или разницей, причем любой из этих терминов относится как к наблюдаемым данным, так и к возможному основному распределению вероятностей, которое генерирует данные.

Проблемы оценки аномалий данных

Теперь, когда мы немного знаем об аномалиях данных, давайте рассмотрим, как интерпретировать данные и оценить возможность аномалии. Полезно рассматривать аномалии, исходя из предположения, что данные генерируются относительно простыми и предсказуемыми процессами. Следовательно, если бы данные были сгенерированы конкретным процессом с известным распределением вероятностей, то мы могли бы уверенно идентифицировать аномалию и наблюдать за отклонением данных.

Маловероятно, что все аномалии связаны с распределением вероятностей, поскольку маловероятно, что некоторые аномалии связаны. Однако если есть какие-либо аномалии, связанные с распределением вероятностей, то это будет свидетельствовать о том, что данные действительно генерируются процессами или процессами, которые, вероятно, предсказуемы.

В этих обстоятельствах аномалия свидетельствует о вероятности обработки данных. Маловероятно, что закономерность отклонений или аномальных значений данных является случайным отклонением лежащего в основе распределения вероятностей. Это говорит о том, что отклонение связано с конкретным, случайным процессом. В соответствии с этим предположением аномалии можно рассматривать как аномалии данных, генерируемых процессом. Однако аномалия не обязательно связана с процессом обработки данных.

Понимание аномалии данных

В контексте оценки аномалий данных важно понимать распределение вероятности и ее вероятность. Также важно знать, распределена ли вероятность приблизительно или нет. Если она приблизительно распределена, то вероятность, скорее всего, будет примерно равна истинной вероятности. Если оно не распределено приблизительно, то есть вероятность, что вероятность отклонения может быть немного больше, чем истинная вероятность. Это позволяет интерпретировать аномалии с возможностью большего отклонения как аномалии большей величины. Вероятность аномалии данных можно оценить с помощью любой меры вероятности, такой как вероятность выборки, правдоподобие или доверительные интервалы. Даже если аномалия не связана с конкретным процессом, все же можно оценить вероятность отклонения.

Эти вероятности необходимо сравнить с естественным распределением. Если вероятность намного больше естественной вероятности, то существует вероятность того, что отклонение не такой же величины. Однако маловероятно, чтобы отклонение намного превышало естественную вероятность, поскольку вероятность очень мала. Следовательно, это не свидетельствует о фактическом отклонении от распределения вероятностей.

Выявление значимости аномалий данных

В контексте оценки аномалий данных полезно определить соответствующие обстоятельства. Например, если есть аномалия в количестве задержанных рейсов, может случиться так, что отклонение будет довольно небольшим. Если задерживается много рейсов, более вероятно, что количество задержек очень близко к естественной вероятности. Если есть несколько рейсов, которые задерживаются, маловероятно, что отклонение намного превышает естественную вероятность. Следовательно, это не будет свидетельствовать о значительно более высоком отклонении. Это говорит о том, что аномалия данных не имеет большого значения.

Если процентное отклонение от нормального распределения значительно выше, то есть вероятность, что аномалии данных связаны с процессом, как в случае с этой аномалией. Это является дополнительным свидетельством того, что аномалия данных является отклонением от нормального распределения.

После анализа значимости аномалии важно узнать, в чем причина аномалии. Связано ли это с процессом, сгенерировавшим данные, или не связано? Возникла ли аномалия данных в ответ на внешнее воздействие или она возникла внутри? Эта информация полезна при определении того, каковы перспективы получения дополнительной информации о процессе.

Причина в том, что не все отклонения связаны с изменчивостью процесса и по-разному влияют на процесс. В отсутствие понятного процесса определение влияния аномалии данных может оказаться сложной задачей.

Анализ важности аномалий данных

При отсутствии признаков отклонения от распределения вероятностей аномалии данных часто игнорируются. Это дает возможность выявить аномалии данных, которые имеют большое значение. В такой ситуации полезно рассчитать вероятность отклонения. Если вероятность достаточно мала, то аномалией можно пренебречь. Если вероятность намного выше, чем естественная вероятность, то она может предоставить достаточную информацию, чтобы сделать вывод о том, что процесс имеет большую величину, а потенциальное воздействие аномалии имеет большое значение. Наиболее разумным предположением является то, что аномалии данных возникают часто.

Вывод

В контексте оценки точности данных важно выявить и проанализировать количество аномалий данных. Когда количество аномалий данных относительно невелико, маловероятно, что отклонение имеет значительную величину и влияние аномалии невелико. В этой ситуации аномалии данных можно игнорировать, но, когда количество аномалий данных велико, вполне вероятно, что аномалии данных связаны с процессом, который можно понять и оценить. В этом случае проблема заключается в том, как оценить влияние аномалии данных на процесс. Качество данных, частота данных и скорость, с которой генерируются данные, являются факторами, определяющими, как оценивать влияние аномалии.

Анализ аномалий данных имеет решающее значение для изучения процессов и повышения их производительности. Он предоставляет информацию о характере процесса. Эта информация может быть использована при оценке влияния отклонения, оценке рисков и преимуществ применения корректировок процесса. В конце концов, аномалии данных важны, потому что они дают представление о процессах.

Непрерывный процесс оценки воздействия аномалий данных предоставляет ценную информацию. Эта информация предоставляет полезную информацию о процессе и предоставляет лицам, принимающим решения, информацию, которую можно использовать для повышения эффективности процесса.

Этот подход дает возможность создавать аномалии данных, которые дают возможность оценить влияние аномалии. Цель состоит в том, чтобы получить представление о процессах и улучшить их производительность. В таком сценарии подход дает четкое представление о типе изменения процесса, которое может быть произведено, и о влиянии отклонения. Это может быть полезная информация, которую можно использовать для выявления аномалий процесса, которые можно оценить для оценки влияния отклонения. Процесс выявления аномалий процесса очень важен для получения ценных данных для оценки потенциальных аномалий в производительности процесса.

Анализ аномалий — это процесс, который оценивает частоту отклонений данных и сравнивает ее с фоновой частотой. Критерием оценки частоты отклонения данных является большее количество отклонений данных, а не естественное возникновение аномалий данных. В этом случае частота измеряется путем сравнения количества отклонений данных с фоном возникновения отклонений данных.

Это предоставляет информацию о том, сколько отклонений данных вызвано процессом с течением времени и частотой отклонения. Это также может обеспечить связь с основным процессом отклонения. Эта информация может быть использована для понимания основной причины отклонения. Более высокая частота отклонения данных дает ценную информацию о процессе отклонения. В такой ситуации, вероятно, будет обнаружен риск отклонения и могут быть оценены необходимые изменения процесса.

Многие исследования проводятся по анализу аномалий данных для выявления факторов, способствующих возникновению аномалий данных. Некоторые из этих факторов относятся к процессам, которые требуют частых изменений процессов. Некоторые из этих факторов можно использовать для выявления процессов, которые могут быть аномальными. Многие параметры можно найти в системах, обеспечивающих характеристики процесса.

Интеллектуальный анализ данных. Учебник

Оглавление

Купить книгу