Ошибки первого и второго рода (статистика)

Ошибки первого рода - "ложная тревога" (англ. type I errors, α errors, false positive) и ошибки второго рода - "пропуск цели" (англ. type II errors, β errors, false negative) в математической статистике — это ключевые понятия задач проверки статистических гипотез.

Тем не менее, данные понятия часто используются и в других областях, когда речь идёт о принятии «бинарного» решения (да/нет) на основе некоего критерия (теста, проверки, измерения), который с некоторой вероятностью может давать ложный результат.

Источник: Википедия

Связанные понятия

Ключ для определения в биологии — это описанный или реализованный в CAE-системе алгоритм, служащий для помощи в идентификации биологических сущностей, таких как растения, животные, фоссилии, микроорганизмы, зёрна пыльцы. Такие ключи, кроме того, нашли широкое применение в различных областях науки и техники для идентификации разного вида сущностей, например заболеваний, почв, минералов, археологических и антропологических артефактов.

Случайность имеет множество применений в области науки, искусства, статистики, криптографии, игр, азартных игр, и других областях. Например, случайное распределение в рандомизированных контролируемых исследованиях помогает ученым проверять гипотезы, а также случайные и псевдослучайные числа находят применение в видео-играх, таких как видеопокер.

Подробнее: Применения случайности

Обучение ассоциативным правилам или поиск ассоциативных правил — это метод обучения машин на базе правил обнаружения интересующих нас связей между переменными в большой базе данных. Метод предлагается для установления сильных правил, обнаруженных в базе данных с помощью некоторых мер интересности. Этот основанный на правилах подход генерирует также новые правила по мере анализа дополнительных данных. Конечной целью, исходя из достаточно большого набора данных, помочь машине имитировать выделение...

Модель Миллса — способ оценки количества ошибок в программном коде, созданный в 1972 году программистом Харланом Миллсом. Он получил широкое распространение благодаря своей простоте и интуитивной привлекательности.

Неуверенные данные встречается в области сенсорных сетей; тексты с шумом в изобилии встречаются в социальных сетях, интернете и на предприятиях, где структурированные и неструктурированные данные могут быть старыми, устаревшими или попросту некорректными; в моделировании, когда математическая модель способна быть лишь приближением реального процесса. При представлении таких данных в базе данных, указание вероятностии корректности различных значений также должно быть произведено.

Отношение шансов — характеристика, применяемая в математической статистике (на русском обозначается аббревиатурой «ОШ», на английском «OR» от odds ratio) для количественного описания тесноты связи признака А с признаком Б в некоторой статистической популяции.

Анализ выживаемости (англ. survival analysis) — класс статистических моделей, позволяющих оценить вероятность наступления события.

Тео́рия приня́тия реше́ний — область исследования, вовлекающая понятия и методы математики, статистики, экономики, менеджмента и психологии с целью изучения закономерностей выбора людьми путей решения проблем и задач, а также способов достижения желаемого результата.

Атака на генератор псевдослучайных чисел — атака, направленная на раскрытие параметров генератора псевдослучайных чисел (ГПСЧ) с целью дальнейшего предсказания псевдослучайных чисел.

Ошибка на единицу или ошибка неучтённой единицы (англ. off-by-one error) — логическая ошибка в алгоритме, включающая в частности дискретный вариант нарушения граничных условий.

Разрешение лексической многозначности (word sense disambiguation, WSD) — это неразрешенная проблема обработки естественного языка, которая заключается в задаче выбора значения (или смысла) многозначного слова или словосочетания в зависимости от контекста, в котором оно находится. Данная задача возникает в дискурсивном анализе, при оптимизации релевантности результатов поисковыми системами, при разрешении анафорических отсылок, в исследовании лингвистической когерентность текста, при анализе умозаключений...

Дифференциальная приватность — совокупность методов, которые обеспечивают максимально точные запросы в статистическую базу данных при одновременной минимизации возможности идентификации отдельных записей в ней.

Анализ полных наблюдений (англ. listwise/casewise deletion, реже англ. complete-case analysis) — статистический метод обработки пропущенных данных, основанный на удалении всех наблюдений с неполными признаковыми описаниями. Считается самым простым способом разрешения проблемы пропущенных данных.

Проблема Гальтона, названная в честь сэра Фрэнсиса Гальтона, представляет собой проблему выведения заключений из кросс-культурных данных на основании статистического феномена, известного на сегодняшний день как сетевая автокорреляция. В настоящее время проблема признается проблемой общего характера, которая применяется ко всем неэкспериментальным исследованиям, а также к экспериментальному проектированию. Ее можно наиболее просто описать как проблему внешних зависимостей при проведении статистических...

Тестирование чёрного ящика или поведенческое тестирование — стратегия (метод) тестирования функционального поведения объекта (программы, системы) с точки зрения внешнего мира, при котором не используется знание о внутреннем устройстве тестируемого объекта. Под стратегией понимаются систематические методы отбора и создания тестов для тестового набора. Стратегия поведенческого теста исходит из технических требований и их спецификаций.

Выборочное представление фактов, избирательный подход, выборочное цитирование или черри-пикинг (англ. cherry picking, досл. «сбор вишенок») — логическая ошибка, состоящая в указании на отдельные случаи либо данные, подтверждающие определённое положение, при игнорировании значительной части связанных случаев или данных, которые могут противоречить этому положению. Может быть как умышленным, так и неумышленным.

Систематическая ошибка отбора — статистическое понятие, показывающее, что выводы, сделанные применительно к какой-либо группе, могут оказаться неточными вследствие неправильного отбора в эту группу.

Код с запашко́м (код с душко́м, дурно пахнущий код англ. code smell) — термин, обозначающий код с признаками (запахами) проблем в системе. Был введён Кентом Беком и использован Мартином Фаулером в его книге Рефакторинг. Улучшение существующего кода.

Генети́ческая дактилоскопи́я, или ДНК-дактилоскопи́я, — система научных методов биологической идентификации индивидуумов (организмов) на основе уникальности последовательности нуклеотидов ДНК каждого живого существа (за исключением однояйцевых близнецов), своеобразного «генетического отпечатка», остающегося индивидуальным и неизменным на протяжении всей жизни индивидуума (организма).

Эвристика доступности (англ. availability heuristic) — это интуитивный процесс, в котором человек «оценивает частоту или возможность события по легкости, с которой примеры или случаи приходят на ум», т. е. легче вспоминаются. При подобной оценке человек полагается на ограниченное количество примеров или случаев. Это упрощает комплексную задачу оценки вероятности и прогнозирования значимости события до простых суждений, основанных на собственных воспоминаниях, поэтому такой процесс является необъективным...

В современном мире под термином «медиа» в первую очередь ошибочно подразумевают только средства массовой информации, но по своей изначальному смыслу под «медиа» следует понимать любые средства коммуникации. Медиа- это любой посредник между людьми, между человеком и средой, это любой способ передачи какой-либо информации. Например, медиа могут быть не только ТВ, радио, газета, социальные сети и т.д.., но и такие специфические вещи как танец, фотография, картинка, дневник, предмет гардероба или даже...

Подробнее: Методы исследования медиа

Цифровой водяной знак (ЦВЗ) — технология, созданная для защиты авторских прав мультимедийных файлов. Обычно цифровые водяные знаки невидимы. Однако ЦВЗ могут быть видимыми на изображении или видео. Обычно это информация представляет собой текст или логотип, который идентифицирует автора.

Закон Парето (принцип Парето, принцип 80/20) — эмпирическое правило, названное в честь экономиста и социолога Вильфредо Парето, в наиболее общем виде формулируется как «20 % усилий дают 80 % результата, а остальные 80 % усилий — лишь 20 % результата». Может использоваться как базовая установка в анализе факторов эффективности какой-либо деятельности и оптимизации её результатов: правильно выбрав минимум самых важных действий, можно быстро получить значительную часть от планируемого полного результата...

Обработка сложных событий (англ. complex event processing, CEP) заключается в обработке множества событий, происходящих на всех уровнях организации, при этом идентифицируются наиболее существенные события из множества событий, анализируется их влияние и в режиме реального времени предпринимаются соответствующие действия.

Когнити́вные измере́ния — это принципы разработки синтаксиса, пользовательских интерфейсов и других особенностей языков программирования, описанные исследователями Томасом Грином и Марианом Петре. Измерения могут использоваться для оценки юзабилити существующих языков или для рекомендаций по дизайну новых.

Эффект якоря, или эвристика привязки и корректировки, эффект привязки (от англ. anchoring and adjustment heuristic), — особенность оценки числовых значений человеком, из-за которой оценка смещается в сторону начального приближения. Эффект проявляется в тяготении оценки неизвестного значения к ранее предъявленным или полученным числам.

Состояние гонки (англ. race condition), также конкуренция — ошибка проектирования многопоточной системы или приложения, при которой работа системы или приложения зависит от того, в каком порядке выполняются части кода. Своё название ошибка получила от похожей ошибки проектирования электронных схем (см. Гонки сигналов).

Скрытая марковская модель (СММ) — статистическая модель, имитирующая работу процесса, похожего на марковский процесс с неизвестными параметрами, и задачей ставится разгадывание неизвестных параметров на основе наблюдаемых. Полученные параметры могут быть использованы в дальнейшем анализе, например, для распознавания образов. СММ может быть рассмотрена как простейшая байесовская сеть доверия.

Классификация документов — одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.

Субитизация — функция восприятия, обеспечивающая моментальное определение количества предметов в поле зрения, когда это количество укладывается в диапазон от одного до четырёх (диапазон субитизации). Этот термин был введен Э. Л. Кауфманом (E. L. Kaufman) и его коллегами и происходит от латинского subitus (внезапный).

ДСМ-метод — метод автоматического порождения гипотез. Формализует схему правдоподобного и достоверного вывода, называемую ДСМ-рассуждением.

Ме́тод проб и оши́бок (в просторечии также: метод (научного) тыка) — является врождённым эмпирическим методом мышления человека. Также этот метод называют методом перебора вариантов.

Картирование коротких прочтений (англ. Short-Read Sequence Alignment, Short-Read Sequence Mapping) — биоинформатический метод анализа результатов секвенирования нового поколения, состоящий в определении позиций в референсном геноме или транскриптоме, откуда с наибольшей вероятностью могло быть получено каждое конкретное короткое прочтение. Обычно является первой стадией в обработке данных в случае, если известен геном исследуемого организма.

Принцип единственной ответственности (англ. The Single Responsibility Principle, SRP) — принцип ООП, обозначающий, что каждый объект должен иметь одну ответственность и эта ответственность должна быть полностью инкапсулирована в класс. Все его поведения должны быть направлены исключительно на обеспечение этой ответственности.

Реше́ние зада́ч — процесс выполнения действий или мыслительных операций, направленный на достижение цели, заданной в рамках проблемной ситуации — задачи; является составной частью мышления.

Систематическая ошибка согласованности является одним из видов когнитивных искажений, это явление схоже с предвзятостью подтверждения. Систематическая ошибка согласованности происходит из-за чрезмерной увлеченности людей непосредственно исследовать данную гипотезу, пренебрегая косвенным опытом.

Стохастичность (др.-греч. στόχος — цель, предположение) означает случайность. Случайный (стохастический) процесс — это процесс, поведение которого не является детерминированным, и последующее состояние такой системы описывается как величинами, которые могут быть предсказаны, так и случайными. Однако, по М. Кацу и Э. Нельсону, любое развитие процесса во времени (неважно, детерминированное или вероятностное) при анализе в терминах вероятностей будет случайным процессом (иными словами, все процессы...

Фидуциальный вывод (от лат. fides: вера, доверие), как разновидность статистического вывода, был впервые предложен сэром Р. Э. Фишером.

Гейзенбаг (англ. heisenbug) — жаргонный термин, используемый в программировании для описания программной ошибки, которая исчезает или меняет свои свойства при попытке её обнаружения. Это слово, в отличие от слова «баг» (англ. bug), в русском языке используется редко. Не полностью идентичный, но достаточно близкий по значению русскоязычный термин — «плавающая ошибка», жаргонный термин — «глюк».

Ошибка хайндсайта (англ. hindsight bias; в русскоязычной литературе распространено написание «хиндсайт») (другие названия: феномен «я знал это с самого начала» / «я так и знал» / «Так я и знал!» (англ. I-knew-it-all-along), суждение задним числом, ретроспективный детерминизм, ретроспективное искажение) — это склонность воспринимать события, которые уже произошли, или факты, которые уже были установлены, как очевидные и предсказуемые, несмотря на отсутствие достаточной первоначальной информации для...

Стеганогра́фия (от греч. στεγανός «скрытый» + γράφω «пишу»; букв. «тайнопись») — способ передачи или хранения информации с учётом сохранения в тайне самого факта такой передачи (хранения). Этот термин ввел в 1499 году аббат бенедиктинского монастыря Св. Мартина в Шпонгейме Иоганн Тритемий в своем трактате «Стеганография» (лат. Steganographia), зашифрованном под магическую книгу.

Ситуацио́нная тео́рия реше́ния пробле́м (теория STOPS -от англ. Situational theory of problem solving) исследует различные типы поведения человека во время кризисной ситуации и устанавливает связь между осведомленностью о проблеме и дальнейшими коммуникативными действиями. Теория STOPS была представлена Чонг-Нам Кимом и Джеймсом Грюнигом в 2011 году в их статье «Решение проблем и коммуникативные действия: ситуационная теория решения проблем» (англ.) и является расширением Ситуационной теории общества...

Скрытый канал — это коммуникационный канал, пересылающий информацию методом, который изначально был для этого не предназначен.

Принцип минимальной длины описания (англ. minimum description length, MDL) — это формализация бритвы Оккама, в которой лучшая гипотеза (модель и её параметры) для данного набора данных это та, которая ведёт к лучшему сжиманию даных. Принцип MDL предложил Йорма Риссанен в 1978. Принцип является важной концепцией в теории информации и теории вычислительного обучения.

Методика сопряженных моторных реакций — психофизиологическая методика, созданная А. Р. Лурией, направленная на определение нервно-психического состояния испытуемого. Основывается на методе свободных ассоциаций...

Ансамбль методов в статистике и обучении машин использует несколько обучающих алгоритмов с целью получения лучшей эффективности прогнозирования, чем могли бы получить от каждого обучающего алгоритма по отдельности.

Качественная, дискретная, или категорийная переменная — это переменная, которая может принимать одно из ограниченного и, обычно, фиксированного числа возможных значений, назначая каждую единицу наблюдения определённой группе или номинальной категории на основе некоторого качественного свойства. В информатике и некоторых других ветвях математики качественные переменные называются перечислениями или перечисляемыми типами. Обычно (хотя не в этой статье), каждое из возможных значений качественной переменной...

Научный контроль — это эксперимент или наблюдение, созданные с целью минимизировать влияние вмешивающихся переменных, отличных от независимой. Это повышает надежность результатов, часто с помощью сравнения показателей экспериментальной и контрольной групп. Научный контроль — один из научных методов.

Метод обратного распространения ошибки (англ. backpropagation) — метод вычисления градиента, который используется при обновлении весов многослойного перцептрона. Впервые метод был описан в 1974 г. А. И. Галушкиным, а также независимо и одновременно Полом Дж. Вербосом. Далее существенно развит в 1986 г. Дэвидом И. Румельхартом, Дж. Е. Хинтоном и Рональдом Дж. Вильямсом и независимо и одновременно С.И. Барцевым и В.А. Охониным (Красноярская группа). Это итеративный градиентный алгоритм, который используется...

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Подробнее: Надёжность психологического теста

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я