Неуверенные данные

В области информатики, неуверенные данные — это данные, содержащие шум, который заставляет данные отклоняться от правильных, предполагаемых или исходных значений. В эпоху больших данных неуверенность или достоверность — одна из определяющих характеристик данных. Данные постоянно растут в объёме, разнообразии, скорости и неуверенности (1/правдивость). Неуверенные данные в изобилии имеются сегодня в интернете, в сенсорных сетях, на предприятиях как в структурированных, так и в неструктурированных источниках. Например, это может быть неуверенность в адресе заказчика в базе данных компании или показания температуры, считанные специальным датчиком, из-за процесса старения датчика. В 2012 году компания IBM опубликовала информацию об «управлении неуверенными данными в масштабе» в своём докладе о глобальном технологическом прогнозе, который представляет собой комплексный анализ от трёх до десяти лет ближайшего будущего, направленный на выявление существенных, разрушительных технологий, которые изменят мир. Для того, чтобы принимать уверенные бизнес-решения на основе реальных данных, анализ должен обязательно учитывать целый ряд различных видов неуверенности, присутствующей в больших объёмах данных. Анализ на основе неуверенных данных будет влиять на качество последующих решений, поэтому степень и типы неточностей в конкретных неуверенных данных не могут быть проигнорированы.

Неуверенные данные встречается в области сенсорных сетей; тексты с шумом в изобилии встречаются в социальных сетях, интернете и на предприятиях, где структурированные и неструктурированные данные могут быть старыми, устаревшими или попросту некорректными; в моделировании, когда математическая модель способна быть лишь приближением реального процесса. При представлении таких данных в базе данных, указание вероятностии корректности различных значений также должно быть произведено.

Существует три основных модели неуверенных данных в базах данных. В атрибутной неуверенности, каждый неуверенный атрибут в кортеже — объект собственного независимого распределения вероятностей. Например, если снимаются показания температуры и скорости ветра, каждое из показаний будет описано своим распределением вероятностей, так как знание показаний одного измерения не даст никакой информации о других измерениях.

В коррелируемой неуверенности, несколько атрибутов могут быть описаны с помощью совместного распределения вероятностей. Например, если снимаются показания позиции объекта в качестве х- и у-координат, то вероятность различных значений может зависеть от дистанции от записанных координат. Так как расстояние зависит от обоих координат, может быть целесообразно использовать совместное распределение для этих координат, поскольку они не являются независимыми.

В кортежной неуверенности, все атрибуты кортежа подлежат совместному распределению вероятностей. Это охватывает и случай коррелируемой неуверенности, а также включает в себя случай, когда есть вероятность того, что кортеж не принадлежит соответствующему отношению, о чём можно судить по сумме всех вероятностей, не равняющейся 1. Например, предположим у нас есть следующий кортеж из вероятностной базы данных:

Значит, кортеж имеет 10 % шанс того, что он не существует в базе данных.

Источник: Википедия