Неуверенные данные
В области информатики , неуверенные данные — это данные, содержащие шум , который заставляет данные отклоняться от правильных, предполагаемых или исходных значений. В эпоху больших данных неуверенность или достоверность — одна из определяющих характеристик данных. Данные постоянно растут в объёме, разнообразии, скорости и неуверенности (1/правдивость). Неуверенные данные в изобилии имеются сегодня в интернете, в сенсорных сетях, на предприятиях как в структурированных, так и в неструктурированных источниках. Например, это может быть неуверенность в адресе заказчика в базе данных компании или показания температуры, считанные специальным датчиком, из-за процесса старения датчика. В 2012 году компания IBM опубликовала информацию об «управлении неуверенными данными в масштабе» в своём докладе о глобальном технологическом прогнозе, который представляет собой комплексный анализ от трёх до десяти лет ближайшего будущего, направленный на выявление существенных, разрушительных технологий, которые изменят мир. Для того, чтобы принимать уверенные бизнес-решения на основе реальных данных, анализ должен обязательно учитывать целый ряд различных видов неуверенности, присутствующей в больших объёмах данных. Анализ на основе неуверенных данных будет влиять на качество последующих решений, поэтому степень и типы неточностей в конкретных неуверенных данных не могут быть проигнорированы.
Неуверенные данные встречается в области сенсорных сетей; тексты с шумом в изобилии встречаются в социальных сетях, интернете и на предприятиях, где структурированные и неструктурированные данные могут быть старыми, устаревшими или попросту некорректными; в моделировании, когда математическая модель способна быть лишь приближением реального процесса. При представлении таких данных в базе данных, указание вероятностии корректности различных значений также должно быть произведено.
Существует три основных модели неуверенных данных в базах данных. В атрибутной неуверенности, каждый неуверенный атрибут в кортеже — объект собственного независимого распределения вероятностей . Например, если снимаются показания температуры и скорости ветра, каждое из показаний будет описано своим распределением вероятностей, так как знание показаний одного измерения не даст никакой информации о других измерениях.
В коррелируемой неуверенности, несколько атрибутов могут быть описаны с помощью совместного распределения вероятностей. Например, если снимаются показания позиции объекта в качестве х- и у-координат, то вероятность различных значений может зависеть от дистанции от записанных координат. Так как расстояние зависит от обоих координат, может быть целесообразно использовать совместное распределение для этих координат, поскольку они не являются независимыми.
В кортежной неуверенности, все атрибуты кортежа подлежат совместному распределению вероятностей. Это охватывает и случай коррелируемой неуверенности, а также включает в себя случай, когда есть вероятность того, что кортеж не принадлежит соответствующему отношению, о чём можно судить по сумме всех вероятностей, не равняющейся 1. Например, предположим у нас есть следующий кортеж из вероятностной базы данных:
Значит, кортеж имеет 10 % шанс того, что он не существует в базе данных.
Источник: Википедия
Связанные понятия
Модели дискретного выбора — экономические (эконометрические) модели, позволяющие описывать, объяснять и прогнозировать выбор между, двумя или более альтернативами (то есть когда множество альтернатив не более чем счетно). Модели дискретного выбора позволяют на основе некоторых характеристик (атрибутов) экономического субъекта или ситуации оценить вероятность выбора той или иной альтернативы.
Подробнее: Дискретный выбор
В статистике метод оценки с помощью апостериорного максимума (MAP) тесно связан с методом максимального правдоподобия (ML), но дополнительно при оптимизации использует априорное распределение величины, которую оценивает.
Подробнее: Оценка апостериорного максимума
Статистический параметр или параметр совокупности — это величина, которая индексирует семейство распределений вероятностей. Его можно расценивать как числовую характеристику совокупности или статистической модели.
Минимизация эмпирического риска (МЭР, англ. Empirical risk minimization, ERM) — это принцип статистической теории обучения, который определяет семейство алгоритмов обучения и который задаёт теоретические границы производительности.
Интервальная оце́нка — это пара чисел в математической статистике, оцениваемых на основе наблюдений, между которыми предположительно находится оцениваемый параметр.
Комбинаторный взрыв — термин, используемый для описания эффекта резкого («взрывного») роста временной сложности алгоритма при увеличении размера входных данных задачи.
Анализ полных наблюдений (англ. listwise/casewise deletion, реже англ. complete-case analysis) — статистический метод обработки пропущенных данных, основанный на удалении всех наблюдений с неполными признаковыми описаниями. Считается самым простым способом разрешения проблемы пропущенных данных.
Зако́н Амдала (англ. Amdahl's law, иногда также Закон Амдаля-Уэра) — иллюстрирует ограничение роста производительности вычислительной системы с увеличением количества вычислителей. Джин Амдал сформулировал закон в 1967 году, обнаружив простое по существу, но непреодолимое по содержанию ограничение на рост производительности при распараллеливании вычислений: «В случае, когда задача разделяется на несколько частей, суммарное время её выполнения на параллельной системе не может быть меньше времени выполнения...
Закон сравнительных суждений - психофизический закон, определяющий отношение между двумя объектами в психическом пространстве человека. Сформулирован Л. Л. Терстоуном.
Q-критерий Розенбаума — простой непараметрический статистический критерий, используемый для оценки различий между двумя выборками по уровню какого-либо признака, измеренного количественно.
Функция предельного правдоподобия (англ. Marginal Likelihood Function) или интегрированное правдоподобие (англ. integrated likelihood) — это функция правдоподобия, в которой некоторые переменные параметры исключены. В контексте байесовской статистики, функция может называться обоснованностью (англ. evidence) или обоснованностью модели (англ. model evidence).
Подробнее: Предельное правдоподобие
Пото́к одноро́дных собы́тий — случайная последовательность событий, упорядоченных по неубыванию моментов времени. Если данный момент времени совпадает с одним или несколькими событиями данной последовательности, то говорят, что в этот момент произошло соответствующее число событий потока.
Глобальная переменная в программировании — переменная, областью видимости которой является вся программа, кроме специально затенённых областей. Механизмы взаимодействия с глобальными переменными называют механизмами доступа к глобальному окружению или состоянию (англ. global environment, global state). Глобальные переменные могут использоваться для взаимодействия между процедурами и функциями как альтернатива передачи аргументов и возвращения значений.
Лине́йная интерполя́ция — интерполяция алгебраическим двучленом P1(x) = ax + b функции f, заданной в двух точках x0 и x1 отрезка . В случае, если заданы значения в нескольких точках, функция заменяется кусочно-линейной функцией.
Преобразование Вигнера — Вилла (англ. Wigner — Ville transform) — один из эффективных методов спектрально-временного анализа нестационарных сигналов. Встречаются другие названия: преобразование Вигнера — Вилля, распределение Вигнера — Вилла (англ. Wigner — Ville distribution), распределение Вигнера — Вилля, функция Вигнера.
Граф зависи́мостей — ориентированный граф, отображающий соотношение множества элементов некоторой совокупности в соответствии с выбранным транзитивным отношением над ней.
Вне́шне несвя́занные уравне́ния (англ. Seemingly Unrelated Regressions (SUR)) — система эконометрических уравнений, каждое из которых является самостоятельным уравнением со своей зависимой и объясняющими экзогенными переменными. Модель предложена Зельнером в 1968 году. Важной особенностью данных уравнений является то, что несмотря на кажущуюся несвязанность уравнений их случайные ошибки предполагаются коррелированными между собой.
Ядро м (англ. kernel) в статистике и эконометрике называют окно (весовую функцию). Байесовская, непараметрическая статистика и теория распознавания образов трактуют термин по-разному.
Статистическая мощность в математической статистике — вероятность отклонения основной (или нулевой) гипотезы при проверке статистических гипотез в случае, когда конкурирующая (или альтернативная) гипотеза верна. Чем выше мощность статистического теста, тем меньше вероятность совершить ошибку второго рода. Величина мощности также используется для вычисления размера выборки, необходимой для подтверждения гипотезы с необходимой силой эффекта.
Случайные сигналы — сигналы, мгновенные значения которых (в отличие от детерминированных сигналов) не известны, а могут быть лишь предсказаны с некоторой вероятностью, меньшей единицы. Характеристики таких сигналов являются статистическими, то есть имеют вероятностный вид.
Подробнее: Случайный сигнал
Задача выполнимости формул в теориях (англ. satisfiability modulo theories, SMT) — это задача разрешимости для логических формул с учётом лежащих в их основе теорий. Примерами таких теорий для SMT-формул являются: теории целых и вещественных чисел, теории списков, массивов, битовых векторов и т. п.
Уничтожение данных — последовательность операций, предназначенных для осуществления программными или аппаратными средствами необратимого удаления данных, в том числе остаточной информации.
В математической статистике
критерий знаков используется при проверке нулевой гипотезы о равенстве медианы некоторому заданному значению (для одной выборки) или о равенстве нулю медианы разности (для двух связанных выборок). Это непараметрический критерий, то есть он не использует никаких данных о характере распределения, и может применяться в широком спектре ситуаций, однако при этом он может иметь меньшую мощность, чем более специализированные критерии.
Признаковое описание объекта (англ. feature vector) — это вектор, который составлен из значений, соответствующих некоторому набору признаков для данного объекта. Значения признаков могут быть различного, не обязательно числового, типа. Является одним из самых распространённых в машинном обучении способов ввода данных.
В исследованиях графов и сетей: степенью узла сети называют число его связей с другими узлами. Распределение степеней (узлов, вершин) - это распределение вероятностей степеней во всей сети.
Подробнее: Распределение степеней
Задача о наибольшем пустом прямоугольнике или задача о максимальном пустом прямоугольнике — это задача поиска прямоугольника максимального размера, который следует разместить среди препятствий на плоскости. Существует несколько вариантов задачи, в зависимости от особенностей формулировки, в частности, от способов измерения «размера», области (типы препятствий) и ориентации прямоугольника.
Функция принадлежности нечёткого множества — обобщение индикаторной (или характеристической) функции классического множества. В нечёткой логике она представляет степень принадлежности каждого члена пространства рассуждения к данному нечёткому множеству.
По́лная систе́ма коммути́рующих наблюда́емых (ПСКН) — множество перестановочных (коммутирующих) самосопряжённых операторов, описывающих квантовые наблюдаемые и определяющих обобщённый базис пространства чистых состояний квантовой системы. Это понятие впервые было предложено Дираком и является одним из основных в квантовой механике. Обобщенные собственные значения операторов ПСКН называются квантовыми числами.
Квантовое машинное обучение — раздел науки на стыке квантовой физики и информатики, в котором разрабатываются и изучаются методы машинного обучения, способные эффективно задействовать параллелизм квантовых компьютеров.
Термостатика — одно из названий классической термодинамики, акцентирующее внимание на том, что эта научная дисциплина представляет собой феноменологическую теорию стационарных состояний и квазистатических процессов в сплошных средах, и в явном виде отражающее современное деление термодинамики на статическую и нестатическую части — равновесную термодинамику и неравновесную термодинамику.
Краудтестинг (англ. crowdtesting, crowd — «толпа» и testing— «тестирование») — привлечение к задачам обеспечения качества продукта широкого круга лиц для использования их творческих способностей, знаний и опыта по типу субподрядной работы на добровольных началах с применением инфокоммуникационных технологий (как правило, специализированные крауд-платформы).
Многомерное шкалирование — метод анализа и визуализации данных с помощью расположения точек, соответствующих изучаемым (шкалируемым) объектам, в пространстве меньшей размерности чем пространство признаков объектов. Точки размещаются так, чтобы попарные расстояния между ними в новом пространстве как можно меньше отличались от эмпирически измеренных расстояний в пространстве признаков изучаемых объектов. Если элементы матрицы расстояний получены по интервальным шкалам, метод многомерного шкалирования...
Тест Хаусмана , называемый также тестом Ву-Хаусмана или Дарбина-Ву-Хаусмана — применяемый в эконометрике тест для сравнения моделей, оцененных разными методами, один из которых позволяет получить состоятельные оценки и при нулевой и при альтернативной гипотезе, а другой — только при нулевой гипотезе.
Функциональная спецификация в системной инженерии и разработке программного обеспечения — это документ, описывающий требуемые характеристики системы (функциональность). Документация описывает необходимые для пользователя системы входные и выходные параметры (например, программная система).
Эффекти́вная оце́нка в математической статистике — несмещенная статистическая оценка, дисперсия которой совпадает с нижней гранью в неравенстве Крамера-Рао.
Автоматическое планирование и диспетчеризация (англ. Automated planning and scheduling, APS) — область задач искусственного интеллекта, касающаяся выполнения стратегии или последовательности действий, обычно для интеллектуальных агентов, автономных роботов и беспилотных аппаратов. В отличие от классических проблем управления и классификации, решения задач данной области комплексны, неизвестны и должны разрабатываться и оптимизироваться в многомерном пространстве.
Точка следования (англ. sequence point) — в программировании любая точка программы, в которой гарантируется, что все побочные эффекты предыдущих вычислений уже проявились, а побочные эффекты последующих ещё отсутствуют.
Ограничивающая сфера (англ. bounding sphere, enclosing sphere, enclosing ball) — термин в компьютерной графике и вычислительной геометрии, один из типов ограничивающего объёма (англ. bounding volume). Ограничивающая сфера описывает ограниченную область пространства в виде шара, которая разделяет объекты внутри и снаружи неё. Для двухмерного пространства ограничивающая сфера является кругом (англ. bounding circle, enclosing circle).
Сверка часов — важный элемент в подготовке к войсковым и полицейским операциям, и ежедневный флотский ритуал. Результатом пренебрежения сверкой часов могут стать бо́льшие потери личного состава и техники из-за нескоординированности и несинхронности действий привлечённых сил.
Итерация в программировании — в широком смысле — организация обработки данных, при которой действия повторяются многократно, не приводя при этом к вызовам самих себя (в отличие от рекурсии). В узком смысле — один шаг итерационного, циклического процесса.
Таблица фактов — является основной таблицей хранилища данных. Как правило, она содержит сведения об объектах или событиях, совокупность которых будет в дальнейшем анализироваться. Обычно говорят о четырёх наиболее часто встречающихся типах фактов. К ним относятся...
Фиктивная переменная (англ. dummy variable) — качественная переменная, принимающая значения 0 и 1, включаемая в эконометрическую модель для учёта влияния качественных признаков и событий на объясняемую переменную. При этом фиктивные переменные позволяют учесть влияние не только качественных признаков, принимающих два значения, но и несколько возможных. В этом случае добавляются несколько фиктивных переменных. Фиктивная переменная может быть также индикатором принадлежности наблюдения к некоторой...
Теорема схем , или теорема шаблонов — основная теорема теории генетических алгоритмов, дающая обоснование их эффективности. Впервые сформулирована и доказана Дж. Холландом в 1975 году.
Машина вывода — программа, которая выполняет логический вывод из предварительно построенной базы фактов и правил в соответствии с законами формальной логики.
Мемоизация (запоминание, от англ. memoization (англ.) в программировании) — сохранение результатов выполнения функций для предотвращения повторных вычислений. Это один из способов оптимизации, применяемый для увеличения скорости выполнения компьютерных программ. Перед вызовом функции проверяется, вызывалась ли функция ранее...
Фунарг — сокращение от «функциональный аргумент»; в компьютерных науках, проблема фунарга относится к сложности реализации функций как первоклассных объектов в стеково-ориентированных языках программирования (в широком смысле, включая все языки, в которых передача параметров функциям осуществляется через стек).
Подробнее: Проблема фунарга