Статистическая модель Миллса

Модель Миллса — способ оценки количества ошибок в программном коде, созданный в 1972 году программистом Харланом Миллсом. Он получил широкое распространение благодаря своей простоте и интуитивной привлекательности.

Источник: Википедия

Связанные понятия

Ошибки первого рода - "ложная тревога" (англ. type I errors, α errors, false positive) и ошибки второго рода - "пропуск цели" (англ. type II errors, β errors, false negative) в математической статистике — это ключевые понятия задач проверки статистических гипотез.

Трёхточечный метод или взвешенная трёхточечная оценка или PERT-оценка — метод оценки времени и усилий в управлении проектами. Он расширяет двукратный метод, состоящий только из наилучшего и наихудшего сценариев времени дополнительным параметром «наиболее вероятное время исполнения».

Случайность имеет множество применений в области науки, искусства, статистики, криптографии, игр, азартных игр, и других областях. Например, случайное распределение в рандомизированных контролируемых исследованиях помогает ученым проверять гипотезы, а также случайные и псевдослучайные числа находят применение в видео-играх, таких как видеопокер.

Подробнее: Применения случайности

Фидуциальный вывод (от лат. fides: вера, доверие), как разновидность статистического вывода, был впервые предложен сэром Р. Э. Фишером.

Коэффициент Байеса — это байесовская альтернатива проверке статистических гипотез. Байесовское сравнение моделей — это метод выбора моделей на основе коэффициентов Байеса. Обсуждаемые модели являются статистическими моделями. Целью коэффициента Байеса является количественное выражение поддержки модели по сравнению с другой моделью, независимо от того, верны модели или нет. Техническое определение понятия «поддержка» в контексте байесовского вывода дано ниже.

Тео́рия приня́тия реше́ний — область исследования, вовлекающая понятия и методы математики, статистики, экономики, менеджмента и психологии с целью изучения закономерностей выбора людьми путей решения проблем и задач, а также способов достижения желаемого результата.

Принцип минимальной длины описания (англ. minimum description length, MDL) — это формализация бритвы Оккама, в которой лучшая гипотеза (модель и её параметры) для данного набора данных это та, которая ведёт к лучшему сжиманию даных. Принцип MDL предложил Йорма Риссанен в 1978. Принцип является важной концепцией в теории информации и теории вычислительного обучения.

Неуверенные данные встречается в области сенсорных сетей; тексты с шумом в изобилии встречаются в социальных сетях, интернете и на предприятиях, где структурированные и неструктурированные данные могут быть старыми, устаревшими или попросту некорректными; в моделировании, когда математическая модель способна быть лишь приближением реального процесса. При представлении таких данных в базе данных, указание вероятностии корректности различных значений также должно быть произведено.

Анализ полных наблюдений (англ. listwise/casewise deletion, реже англ. complete-case analysis) — статистический метод обработки пропущенных данных, основанный на удалении всех наблюдений с неполными признаковыми описаниями. Считается самым простым способом разрешения проблемы пропущенных данных.

Информационный критерий Акаике (AIC) — критерий, применяющийся исключительно для выбора из нескольких статистических моделей. Разработан в 1971 как «an information criterion» («(некий) информационный критерий») Хироцугу Акаике и предложен им в статье 1974 года.

Ошибка на единицу или ошибка неучтённой единицы (англ. off-by-one error) — логическая ошибка в алгоритме, включающая в частности дискретный вариант нарушения граничных условий.

Тестирование чёрного ящика или поведенческое тестирование — стратегия (метод) тестирования функционального поведения объекта (программы, системы) с точки зрения внешнего мира, при котором не используется знание о внутреннем устройстве тестируемого объекта. Под стратегией понимаются систематические методы отбора и создания тестов для тестового набора. Стратегия поведенческого теста исходит из технических требований и их спецификаций.

Обработка аналитических иерархий (Analytic Hierarchy Process, AHP) — структурированная техника принятия комплексных решений (en:MCDA). Она не дает ответа на вопрос, что правильно, а что нет, но позволяет человеку, принимающему решение, оценить, какой из рассматриваемых им вариантов лучше всего удовлетворяет его нуждам и его...

Подробнее: Аналитический иерархический процесс

Обучение ассоциативным правилам или поиск ассоциативных правил — это метод обучения машин на базе правил обнаружения интересующих нас связей между переменными в большой базе данных. Метод предлагается для установления сильных правил, обнаруженных в базе данных с помощью некоторых мер интересности. Этот основанный на правилах подход генерирует также новые правила по мере анализа дополнительных данных. Конечной целью, исходя из достаточно большого набора данных, помочь машине имитировать выделение...

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Подробнее: Надёжность психологического теста

Отношение шансов — характеристика, применяемая в математической статистике (на русском обозначается аббревиатурой «ОШ», на английском «OR» от odds ratio) для количественного описания тесноты связи признака А с признаком Б в некоторой статистической популяции.

Тест Айзенка — тест коэффициента интеллекта (IQ), разработанный английским психологом Гансом Айзенком. Известно восемь различных вариантов теста Айзенка на интеллект.

Ме́тод проб и оши́бок (в просторечии также: метод (научного) тыка) — является врождённым эмпирическим методом мышления человека. Также этот метод называют методом перебора вариантов.

Гетероскедастичность (англ. heteroscedasticity) — понятие, используемое в прикладной статистике (чаще всего — в эконометрике), означающее неоднородность наблюдений, выражающуюся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели. Гетероскедастичность противоположна гомоскедастичности, означающей однородность наблюдений, то есть постоянство дисперсии случайных ошибок модели.

Выбор модели — это задача выбора статистической модели из набора моделей-кандидатов по имеющимся данным. В простейшем случае рассматривается существующий набор данных. Однако задача может вовлекать планирование экспериментов, так что сбор данных связан с задачей выбора модели. Если заданы кандидаты в модели с одинаковой силой предсказания или объяснения, наиболее простая модель скорее всего будет лучшим выбором (бритва Оккама).

Проблема Гальтона, названная в честь сэра Фрэнсиса Гальтона, представляет собой проблему выведения заключений из кросс-культурных данных на основании статистического феномена, известного на сегодняшний день как сетевая автокорреляция. В настоящее время проблема признается проблемой общего характера, которая применяется ко всем неэкспериментальным исследованиям, а также к экспериментальному проектированию. Ее можно наиболее просто описать как проблему внешних зависимостей при проведении статистических...

Дифференциальная приватность — совокупность методов, которые обеспечивают максимально точные запросы в статистическую базу данных при одновременной минимизации возможности идентификации отдельных записей в ней.

Когнити́вные измере́ния — это принципы разработки синтаксиса, пользовательских интерфейсов и других особенностей языков программирования, описанные исследователями Томасом Грином и Марианом Петре. Измерения могут использоваться для оценки юзабилити существующих языков или для рекомендаций по дизайну новых.

Ансамбль методов в статистике и обучении машин использует несколько обучающих алгоритмов с целью получения лучшей эффективности прогнозирования, чем могли бы получить от каждого обучающего алгоритма по отдельности.

Закон Парето (принцип Парето, принцип 80/20) — эмпирическое правило, названное в честь экономиста и социолога Вильфредо Парето, в наиболее общем виде формулируется как «20 % усилий дают 80 % результата, а остальные 80 % усилий — лишь 20 % результата». Может использоваться как базовая установка в анализе факторов эффективности какой-либо деятельности и оптимизации её результатов: правильно выбрав минимум самых важных действий, можно быстро получить значительную часть от планируемого полного результата...

Метод обратного распространения ошибки (англ. backpropagation) — метод вычисления градиента, который используется при обновлении весов многослойного перцептрона. Впервые метод был описан в 1974 г. А. И. Галушкиным, а также независимо и одновременно Полом Дж. Вербосом. Далее существенно развит в 1986 г. Дэвидом И. Румельхартом, Дж. Е. Хинтоном и Рональдом Дж. Вильямсом и независимо и одновременно С.И. Барцевым и В.А. Охониным (Красноярская группа). Это итеративный градиентный алгоритм, который используется...

Анализ выживаемости (англ. survival analysis) — класс статистических моделей, позволяющих оценить вероятность наступления события.

Байесовское программирование — это формальная система и методология определения вероятностных моделей и решения задач, когда не вся необходимая информация является доступной.

Ключ для определения в биологии — это описанный или реализованный в CAE-системе алгоритм, служащий для помощи в идентификации биологических сущностей, таких как растения, животные, фоссилии, микроорганизмы, зёрна пыльцы. Такие ключи, кроме того, нашли широкое применение в различных областях науки и техники для идентификации разного вида сущностей, например заболеваний, почв, минералов, археологических и антропологических артефактов.

Атака на генератор псевдослучайных чисел — атака, направленная на раскрытие параметров генератора псевдослучайных чисел (ГПСЧ) с целью дальнейшего предсказания псевдослучайных чисел.

Наи́вный ба́йесовский классифика́тор — простой вероятностный классификатор, основанный на применении теоремы Байеса со строгими (наивными) предположениями о независимости.

Эффективность алгоритма — это свойство алгоритма, которое связано с вычислительными ресурсами, используемыми алгоритмом. Алгоритм должен быть проанализирован с целью определения необходимых алгоритму ресурсов. Эффективность алгоритма можно рассматривать как аналог производственной производительности повторяющихся или непрерывных процессов.

Автокорреляция — статистическая взаимосвязь между последовательностями величин одного ряда, взятыми со сдвигом, например, для случайного процесса — со сдвигом по времени.

Логическая вероятность — логическое отношение между двумя предложениями, степень подтверждения гипотезы H свидетельством E.

Цензурированная регрессия (англ. Censored regression) — регрессия, с зависимой переменной, наблюдаемой с ограничением (цензурированием) возможных значений. При этом модель может быть цензурирована только с одной стороны (снизу или сверху) или с обеих сторон. Цензурированная регрессия отличается от усеченной регрессии (англ. truncated regression), тем что значения факторов, в отличие от зависимой переменной, наблюдаются без ограничений.

Обучение с ошибками (англ. Learning with errors) — это концепция машинного обучения, суть которой заключается в том, что в простые вычислительные задачи (например, системы линейных уравнений) намеренно вносится ошибка, делая их решение известными методами неосуществимым за приемлемое время.

Шкала максимального различия (англ. maximum difference scaling, MaxDiff) — это методика исследования с очень специфичными предположениями о том, как люди осуществляют выбор: она предполагает, что респонденты оценивают все возможные пары позиций в рамках предложенного набора и выбирают пару, которая отображает максимальное отклонение в предпочтении или важности.

ДСМ-метод — метод автоматического порождения гипотез. Формализует схему правдоподобного и достоверного вывода, называемую ДСМ-рассуждением.

Картирование коротких прочтений (англ. Short-Read Sequence Alignment, Short-Read Sequence Mapping) — биоинформатический метод анализа результатов секвенирования нового поколения, состоящий в определении позиций в референсном геноме или транскриптоме, откуда с наибольшей вероятностью могло быть получено каждое конкретное короткое прочтение. Обычно является первой стадией в обработке данных в случае, если известен геном исследуемого организма.

Разрешение лексической многозначности (word sense disambiguation, WSD) — это неразрешенная проблема обработки естественного языка, которая заключается в задаче выбора значения (или смысла) многозначного слова или словосочетания в зависимости от контекста, в котором оно находится. Данная задача возникает в дискурсивном анализе, при оптимизации релевантности результатов поисковыми системами, при разрешении анафорических отсылок, в исследовании лингвистической когерентность текста, при анализе умозаключений...

Тест стандартными прогрессивными матрицами Равена (Рейвена) — тест, предназначенный для дифференцировки испытуемых по уровню их интеллектуального развития. Авторы теста Джон Рейвен и Л. Пенроуз. Предложен в 1936 году. Тест Равена известен как один из наиболее «чистых» измерений фактора общего интеллекта g, выделенного Ч.Э. Спирменом. Успешность выполнения теста SPM интерпретируется как показатель способности к научению на основе обобщения собственного опыта и создания схем, позволяющих обрабатывать...

В теории массового обслуживания, разделе теории вероятностей, законом Литтла (англ. Little's law, также результатом, леммой, формулой Литтла) называют сформулированную американским учёным Джоном Литтлом теорему...

Подробнее: Закон Литтла

Классификация документов — одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.

Теория перспектив — экономическая теория, описывающая поведение людей при принятии решений, связанных с рисками. Эта теория описывает то, как люди выбирают между альтернативами, вероятности различных исходов в которых известны. Каждый возможный исход имеет определенную вероятность возникновения и ценность, которую человек определяет субъективным образом. Ценности могут быть как положительными, так и отрицательными. Во втором случае ценности являются для человека потерями. Теория перспектив делает...

Эвристический алгоритм (эвристика) — алгоритм решения задачи, включающий практический метод, не являющийся гарантированно точным или оптимальным, но достаточный для решения поставленной задачи. Позволяет ускорить решение задачи в тех случаях, когда точное решение не может быть найдено.

Демпстера-Шафера теория — математическая теория очевидностей (свидетельств) (), основанная на функции доверия (belief functions) и функции правдоподобия (plausible reasoning), которые используются, чтобы скомбинировать отдельные части информации (свидетельства) для вычисления вероятности события. Теория была развита Артуром П. Демпстером и Гленном Шафером.

Стохасти́ческое программи́рование — подход в математическом программировании, позволяющий учитывать неопределённость в оптимизационных моделях.

Код с запашко́м (код с душко́м, дурно пахнущий код англ. code smell) — термин, обозначающий код с признаками (запахами) проблем в системе. Был введён Кентом Беком и использован Мартином Фаулером в его книге Рефакторинг. Улучшение существующего кода.

Трансвычисли́тельная зада́ча (англ. Transcomputational problem) — в теории сложности вычислений задача, для решения которой требуется обработка более чем 1093 бит информации. Число 1093, называемое «пределом Бремерманна», согласно Гансу-Иоахиму Бремерманну, представляет собой общее число бит, обрабатываемых гипотетическим компьютером размером с Землю, работающим с максимально возможной скоростью, за период времени, равный общему времени существования Земли. Термин «трансвычислительность» был предложен...

Скрытая марковская модель (СММ) — статистическая модель, имитирующая работу процесса, похожего на марковский процесс с неизвестными параметрами, и задачей ставится разгадывание неизвестных параметров на основе наблюдаемых. Полученные параметры могут быть использованы в дальнейшем анализе, например, для распознавания образов. СММ может быть рассмотрена как простейшая байесовская сеть доверия.

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я