Связанные понятия
Фидуциальный вывод (от лат. fides: вера, доверие), как разновидность статистического вывода, был впервые предложен сэром Р. Э. Фишером.
Гетероскедастичность (англ. heteroscedasticity) — понятие, используемое в прикладной статистике (чаще всего — в эконометрике), означающее неоднородность наблюдений, выражающуюся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели. Гетероскедастичность противоположна гомоскедастичности, означающей однородность наблюдений, то есть постоянство дисперсии случайных ошибок модели.
Ме́тод моме́нтов — метод оценки неизвестных параметров распределений в математической статистике и эконометрике, основанный на предполагаемых свойствах моментов (Пирсон, 1894 г.). Идея метода заключается в замене истинных соотношений выборочными аналогами.
Модель Миллса — способ оценки количества ошибок в программном коде, созданный в 1972 году программистом Харланом Миллсом. Он получил широкое распространение благодаря своей простоте и интуитивной привлекательности.
Анализ полных наблюдений (англ. listwise/casewise deletion, реже англ. complete-case analysis) — статистический метод обработки пропущенных данных, основанный на удалении всех наблюдений с неполными признаковыми описаниями. Считается самым простым способом разрешения проблемы пропущенных данных.
Анализ выживаемости (англ. survival analysis) — класс статистических моделей, позволяющих оценить вероятность наступления события.
Цензурированная регрессия (англ. Censored regression) — регрессия, с зависимой переменной, наблюдаемой с ограничением (цензурированием) возможных значений. При этом модель может быть цензурирована только с одной стороны (снизу или сверху) или с обеих сторон. Цензурированная регрессия отличается от усеченной регрессии (англ. truncated regression), тем что значения факторов, в отличие от зависимой переменной, наблюдаются без ограничений.
Коэффициент Байеса — это байесовская альтернатива проверке статистических гипотез. Байесовское сравнение моделей — это метод выбора моделей на основе коэффициентов Байеса. Обсуждаемые модели являются статистическими моделями. Целью коэффициента Байеса является количественное выражение поддержки модели по сравнению с другой моделью, независимо от того, верны модели или нет. Техническое определение понятия «поддержка» в контексте байесовского вывода дано ниже.
Метод обратного распространения ошибки (англ. backpropagation) — метод вычисления градиента, который используется при обновлении весов многослойного перцептрона. Впервые метод был описан в 1974 г. А. И. Галушкиным, а также независимо и одновременно Полом Дж. Вербосом. Далее существенно развит в 1986 г. Дэвидом И. Румельхартом, Дж. Е. Хинтоном и Рональдом Дж. Вильямсом и независимо и одновременно С.И. Барцевым и В.А. Охониным (Красноярская группа). Это итеративный градиентный алгоритм, который используется...
Выборка по значимости (англ. importance sampling, далее ВЗ) — один из методов уменьшения дисперсии случайной величины, который используется для улучшения сходимости процесса моделирования какой-либо величины методом Монте-Карло. Идея ВЗ основывается на том, что некоторые значения случайной величины в процессе моделирования имеют бо́льшую значимость (вероятность) для оцениваемой функции (параметра), чем другие. Если эти «более вероятные» значения будут появляться в процессе выбора случайной величины...
Отношение шансов — характеристика, применяемая в математической статистике (на русском обозначается аббревиатурой «ОШ», на английском «OR» от odds ratio) для количественного описания тесноты связи признака А с признаком Б в некоторой статистической популяции.
Информационный критерий Акаике (AIC) — критерий, применяющийся исключительно для выбора из нескольких статистических моделей. Разработан в 1971 как «an information criterion» («(некий) информационный критерий») Хироцугу Акаике и предложен им в статье 1974 года.
Алгоритм Марзулло — это алгоритм согласования данных, использующийся для выбора более точных источников для оценки точного времени из ряда источников времени, разной степени точности и усреднения времени, полученными от разных NTP-серверов. Переработанная версия этого алгоритма, названная «алгоритмом пересечений», является частью сетевого протокола для синхронизации времени (NTP).
Обработка аналитических иерархий (Analytic Hierarchy Process, AHP) — структурированная техника принятия комплексных решений (en:MCDA). Она не дает ответа на вопрос, что правильно, а что нет, но позволяет человеку, принимающему решение, оценить, какой из рассматриваемых им вариантов лучше всего удовлетворяет его нуждам и его...
Подробнее: Аналитический иерархический процесс
Робастность (англ. robustness, от robust — «крепкий», «сильный», «твёрдый», «устойчивый») — свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивости к помехам. Выбросоустойчивый (робастный) метод — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки.
В теории вычислительной сложности сложность алгоритма в среднем — это количество неких вычислительных ресурсов (обычно — время), требуемое для работы алгоритма, усреднённое по всем возможным входным данным. Понятие часто противопоставляется сложности в худшем случае, где рассматривается максимальная сложность алгоритма по всем входным данным.
Тео́рия приня́тия реше́ний — область исследования, вовлекающая понятия и методы математики, статистики, экономики, менеджмента и психологии с целью изучения закономерностей выбора людьми путей решения проблем и задач, а также способов достижения желаемого результата.
Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.
Подробнее: Надёжность психологического теста
Качественная, дискретная, или категорийная переменная — это переменная, которая может принимать одно из ограниченного и, обычно, фиксированного числа возможных значений, назначая каждую единицу наблюдения определённой группе или номинальной категории на основе некоторого качественного свойства. В информатике и некоторых других ветвях математики качественные переменные называются перечислениями или перечисляемыми типами. Обычно (хотя не в этой статье), каждое из возможных значений качественной переменной...
Стандартные ошибки в форме Ньюи-Уеста или состоятельные при гетероскедастичности и автокорреляции стандартные ошибки (HAC s.e. — Heteroskedasticity and Autocorrelation consistent standard errors) — применяемая в эконометрике оценка ковариационной матрицы МНК-оценок (в частности и стандартных ошибок) параметров линейной модели регрессии, альтернативная стандартной (классической) оценке, которая состоятельна при гетероскедастичности и автокорреляции случайных ошибок модели (в отличие от несостоятельной...
Случайность имеет множество применений в области науки, искусства, статистики, криптографии, игр, азартных игр, и других областях. Например, случайное распределение в рандомизированных контролируемых исследованиях помогает ученым проверять гипотезы, а также случайные и псевдослучайные числа находят применение в видео-играх, таких как видеопокер.
Подробнее: Применения случайности
Шкала максимального различия (англ. maximum difference scaling, MaxDiff) — это методика исследования с очень специфичными предположениями о том, как люди осуществляют выбор: она предполагает, что респонденты оценивают все возможные пары позиций в рамках предложенного набора и выбирают пару, которая отображает максимальное отклонение в предпочтении или важности.
Двоичная, бинарная или дихотомическая классификация — это задача классификации элементов заданного множества в две группы (предсказание, какой из групп принадлежит каждый элемент множества) на основе правила классификации. Контекст, в котором требуется решение, имеет ли объект некоторое качественное свойство, некоторые специфичные характеристики или некоторую типичную двоичную классификацию, включает...
Поточный алгоритм (англ. streaming algorithm) — алгоритм для обработки последовательности данных в один или малое число проходов.
Семплирование по Гиббсу — алгоритм для генерации выборки совместного распределения множества случайных величин. Он используется для оценки совместного распределения и для вычисления интегралов методом Монте-Карло. Этот алгоритм является частным случаем алгоритма Метрополиса-Гастингса и назван в честь физика Джозайи Гиббса.
Авторегрессионная условная гетероскедастичность (англ. ARCH; AutoRegressive Conditional Heteroscedasticity) — применяемая в эконометрике модель для анализа временных рядов (в первую очередь финансовых), у которых условная (по прошлым значениям ряда) дисперсия ряда зависит от прошлых значений ряда, прошлых значений этих дисперсий и иных факторов. Данные модели предназначены для «объяснения» кластеризации волатильности на финансовых рынках, когда периоды высокой волатильности длятся некоторое время...
Вычисли́тельная сло́жность — понятие в информатике и теории алгоритмов, обозначающее функцию зависимости объёма работы, которая выполняется некоторым алгоритмом, от размера входных данных. Раздел, изучающий вычислительную сложность, называется теорией сложности вычислений. Объём работы обычно измеряется абстрактными понятиями времени и пространства, называемыми вычислительными ресурсами. Время определяется количеством элементарных шагов, необходимых для решения задачи, тогда как пространство определяется...
Обобщённый ме́тод моме́нтов (ОММ; англ. GMM — Generalized Method of Moments) — метод, применяемый в математической статистике и эконометрике для оценки неизвестных параметров распределений и эконометрических моделей, являющийся обобщением классического метода моментов. Метод был предложен Хансеном в 1982 году. В отличие от классического метода моментов количество ограничений может быть больше количества оцениваемых параметров.
Статистика широко применяется в оценивании программ. Способ, при помощи которого проводится оценка программы и соответствующих относящихся к программе факторов, в большой степени определяет те аналитические методы и статистические показатели, которые будут использоваться в процессе оценивания.
Подробнее: Применение статистики в оценивании
Ансамбль методов в статистике и обучении машин использует несколько обучающих алгоритмов с целью получения лучшей эффективности прогнозирования, чем могли бы получить от каждого обучающего алгоритма по отдельности.
Эффективность алгоритма — это свойство алгоритма, которое связано с вычислительными ресурсами, используемыми алгоритмом. Алгоритм должен быть проанализирован с целью определения необходимых алгоритму ресурсов. Эффективность алгоритма можно рассматривать как аналог производственной производительности повторяющихся или непрерывных процессов.
В математической статистике
семплирование — обобщенное название методов манипулирования начальной выборкой при известной цели моделирования, которые позволяют выполнить структурно-параметрическую идентификацию наилучшей статистической модели стационарного эргодического случайного процесса.
Вероятностное округление — это широко используемый подход для разработки и анализа таких аппроксимационных алгоритмов. Базовая идея — использование вероятностного метода для преобразования соответствующей оптимального решения задачи линейного программирования (ЛП) в приближённое к оптимальному решению исходной задачи.
Модель бинарного выбора — применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения — 0 и 1) от совокупности факторов. Построение обычной линейной регрессии для таких переменных теоретически некорректно, так как условное математическое ожидание таких переменных равно вероятности того, что зависимая переменная примет значение 1, а линейная регрессия допускает и отрицательные значения и значения выше 1. Поэтому обычно используются некоторые интегральные функции...
Алгоритм Ванга-Ландау , предложенный Фугао Вангом и Дэвидом Ландау, это метод Монте-Карло, предназначенный для расчета плотности состояний системы. Метод выполняет немарковские случайные переходы для построения плотности состояний, посещая все возможные состояния. Алгоритм Ванга и Ландау, это важный для получения плотности состояний метод, требуемый для выполнения мультиканонического моделирования...
Анализ независимых компонент (АНК, англ. Independent Component Analysis, ICA), называемый также Метод независимых компонент (МНК) — это вычислительный метод в обработке сигналов для разделения многомерного сигнала на аддитивные подкомпоненты. Этот метод применяется при предположении, что подкомпоненты являются негауссовыми сигналами и что они статистически независимы друг от друга. АНК является специальным случаем слепого разделения сигнала. Типичным примером приложения является «Задача о шумной...
Метод группового учёта аргументов (МГУА) — семейство индуктивных алгоритмов для математического моделирования мультипараметрических данных. Метод основан на рекурсивном селективном отборе моделей, на основе которых строятся более сложные модели. Точность моделирования на каждом следующем шаге рекурсии увеличивается за счет усложнения модели.
Стандартные ошибки в форме Уайта или состоятельные при гетероскедастичности стандартные ошибки (HC s.e. — Heteroskedasticity consistent standard errors) — применяемая в эконометрике оценка ковариационной матрицы (в частности и стандартных ошибок) МНК-оценок параметров линейной модели регрессии, которая состоятельна при гетероскедастичности случайных ошибок модели, альтернативная стандартной (классической) оценке, которая в данном случае является несостоятельной.
Автокорреляция — статистическая взаимосвязь между последовательностями величин одного ряда, взятыми со сдвигом, например, для случайного процесса — со сдвигом по времени.
Байесовское программирование — это формальная система и методология определения вероятностных моделей и решения задач, когда не вся необходимая информация является доступной.
Принцип минимальной длины описания (англ. minimum description length, MDL) — это формализация бритвы Оккама, в которой лучшая гипотеза (модель и её параметры) для данного набора данных это та, которая ведёт к лучшему сжиманию даных. Принцип MDL предложил Йорма Риссанен в 1978. Принцип является важной концепцией в теории информации и теории вычислительного обучения.
Для того, чтобы оценить программу, необходимо собрать информацию о результатах её реализации. Наиболее убедительными и наглядными являются результаты проведения реального эксперимента: наблюдатель сразу собственными глазами может опознать произошедшие изменения. Однако в число серьёзных недостатков этого метода входят дороговизна проведения серьёзных полномасштабных экспериментов, а также сложность их проведения, ведь подчас качественное оценивание политических программ требует получения экспериментальных...
Подробнее: Эконометрические методы в оценивании
Обучение с ошибками (англ. Learning with errors) — это концепция машинного обучения, суть которой заключается в том, что в простые вычислительные задачи (например, системы линейных уравнений) намеренно вносится ошибка, делая их решение известными методами неосуществимым за приемлемое время.
Выбор модели — это задача выбора статистической модели из набора моделей-кандидатов по имеющимся данным. В простейшем случае рассматривается существующий набор данных. Однако задача может вовлекать планирование экспериментов, так что сбор данных связан с задачей выбора модели. Если заданы кандидаты в модели с одинаковой силой предсказания или объяснения, наиболее простая модель скорее всего будет лучшим выбором (бритва Оккама).
Скрытая марковская модель (СММ) — статистическая модель, имитирующая работу процесса, похожего на марковский процесс с неизвестными параметрами, и задачей ставится разгадывание неизвестных параметров на основе наблюдаемых. Полученные параметры могут быть использованы в дальнейшем анализе, например, для распознавания образов. СММ может быть рассмотрена как простейшая байесовская сеть доверия.
Критерий оптимальности (критерий оптимизации) — характерный показатель решения задачи, по значению которого оценивается оптимальность найденного решения, то есть максимальное удовлетворение поставленным требованиям. В одной задаче может быть установлено несколько критериев оптимальности.
Метод инструментальных переменных (ИП, IV — Instrumental Variables) — метод оценки параметров регрессионных моделей, основанный на использовании дополнительных, не участвующих в модели, так называемых инструментальных переменных. Метод применяется в случае, когда факторы регрессионной модели не удовлетворяют условию экзогенности, то есть являются зависимыми со случайными ошибками. В этом случае, оценки метода наименьших квадратов являются смещенными и несостоятельными.
Неуверенные данные встречается в области сенсорных сетей; тексты с шумом в изобилии встречаются в социальных сетях, интернете и на предприятиях, где структурированные и неструктурированные данные могут быть старыми, устаревшими или попросту некорректными; в моделировании, когда математическая модель способна быть лишь приближением реального процесса. При представлении таких данных в базе данных, указание вероятностии корректности различных значений также должно быть произведено.