Связанные понятия
Несмещённая оце́нка в математической статистике — это точечная оценка, математическое ожидание которой равно оцениваемому параметру.
Коэффициент Байеса — это байесовская альтернатива проверке статистических гипотез. Байесовское сравнение моделей — это метод выбора моделей на основе коэффициентов Байеса. Обсуждаемые модели являются статистическими моделями. Целью коэффициента Байеса является количественное выражение поддержки модели по сравнению с другой моделью, независимо от того, верны модели или нет. Техническое определение понятия «поддержка» в контексте байесовского вывода дано ниже.
Состоя́тельная оце́нка в математической статистике — это точечная оценка, сходящаяся по вероятности к оцениваемому параметру.
Апостерио́рная вероя́тность — условная вероятность случайного события при условии того, что известны апостериорные данные, т.е. полученные после опыта.
То́чечная оце́нка в математической статистике — это число, оцениваемое на основе наблюдений, предположительно близкое к оцениваемому параметру.
Гетероскедастичность (англ. heteroscedasticity) — понятие, используемое в прикладной статистике (чаще всего — в эконометрике), означающее неоднородность наблюдений, выражающуюся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели. Гетероскедастичность противоположна гомоскедастичности, означающей однородность наблюдений, то есть постоянство дисперсии случайных ошибок модели.
Нулевая гипотеза — принимаемое по умолчанию предположение о том, что не существует связи между двумя наблюдаемыми событиями, феноменами. Так, нулевая гипотеза считается верной до того момента, пока нельзя доказать обратное. Опровержение нулевой гипотезы, то есть приход к заключению о том, что связь между двумя событиями, феноменами существует, — главная задача современной науки. Статистика как наука даёт чёткие условия, при наступлении которых нулевая гипотеза может быть отвергнута.
Статистика — измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения элементов выборки.
Ме́тод максима́льного правдоподо́бия или метод наибольшего правдоподобия (ММП, ML, MLE — англ. maximum likelihood estimation) в математической статистике — это метод оценивания неизвестного параметра путём максимизации функции правдоподобия. Основан на предположении о том, что вся информация о статистической выборке содержится в функции правдоподобия.
Ме́тод моме́нтов — метод оценки неизвестных параметров распределений в математической статистике и эконометрике, основанный на предполагаемых свойствах моментов (Пирсон, 1894 г.). Идея метода заключается в замене истинных соотношений выборочными аналогами.
Усло́вное распределе́ние в теории вероятностей — это распределение случайной величины при условии, что другая случайная величина принимает определённое значение.
Кванти́ль в математической статистике — значение, которое заданная случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль называется процентилем или перцентилем (см. ниже).
Статистический критерий — строгое математическое правило, по которому принимается или отвергается та или иная статистическая гипотеза с известным уровнем значимости. Построение критерия представляет собой выбор подходящей функции от результатов наблюдений (ряда эмпирически полученных значений признака), которая служит для выявления меры расхождения между эмпирическими значениями и гипотетическими.
Ковариацио́нная ма́трица (или ма́трица ковариа́ций) в теории вероятностей — это матрица, составленная из попарных ковариаций элементов одного или двух случайных векторов.
Многоме́рное норма́льное распределе́ние (или многоме́рное га́уссовское распределе́ние) в теории вероятностей — это обобщение одномерного нормального распределения. Случайный вектор, имеющий многомерное нормальное распределение, называется гауссовским вектором.
Автокорреляция — статистическая взаимосвязь между последовательностями величин одного ряда, взятыми со сдвигом, например, для случайного процесса — со сдвигом по времени.
В математической статистике
семплирование — обобщенное название методов манипулирования начальной выборкой при известной цели моделирования, которые позволяют выполнить структурно-параметрическую идентификацию наилучшей статистической модели стационарного эргодического случайного процесса.
Робастность (англ. robustness, от robust — «крепкий», «сильный», «твёрдый», «устойчивый») — свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивости к помехам. Выбросоустойчивый (робастный) метод — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки.
Функция потерь — функция, которая в теории статистических решений характеризует потери при неправильном принятии решений на основе наблюдаемых данных. Если решается задача оценки параметра сигнала на фоне помех, то функция потерь является мерой расхождения между истинным значением оцениваемого параметра и оценкой параметра.
Ковариа́ция (корреляционный момент, ковариационный момент) — в теории вероятностей и математической статистике мера линейной зависимости двух случайных величин.
Модель бинарного выбора — применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения — 0 и 1) от совокупности факторов. Построение обычной линейной регрессии для таких переменных теоретически некорректно, так как условное математическое ожидание таких переменных равно вероятности того, что зависимая переменная примет значение 1, а линейная регрессия допускает и отрицательные значения и значения выше 1. Поэтому обычно используются некоторые интегральные функции...
Логистическая регрессия или логит-регрессия (англ. logit model) — это статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём подгонки данных к логистической кривой.
Информационный критерий Акаике (AIC) — критерий, применяющийся исключительно для выбора из нескольких статистических моделей. Разработан в 1971 как «an information criterion» («(некий) информационный критерий») Хироцугу Акаике и предложен им в статье 1974 года.
Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В отличие от t-критерия, позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance).
Байесовская вероятность — это интерпретация понятия вероятности, используемая в байесовской теории. Вероятность определяется как степень уверенности в истинности суждения. Для определения степени уверенности в истинности суждения при получении новой информации в байесовской теории используется теорема Байеса.
Метод инструментальных переменных (ИП, IV — Instrumental Variables) — метод оценки параметров регрессионных моделей, основанный на использовании дополнительных, не участвующих в модели, так называемых инструментальных переменных. Метод применяется в случае, когда факторы регрессионной модели не удовлетворяют условию экзогенности, то есть являются зависимыми со случайными ошибками. В этом случае, оценки метода наименьших квадратов являются смещенными и несостоятельными.
Генеральная совокупность (от лат. generis — общий, родовой) — совокупность всех объектов (единиц), относительно которых предполагается делать выводы при изучении конкретной задачи.
Выброс (англ. outlier), промах — в статистике результат измерения, выделяющийся из общей выборки.
Семплирование по Гиббсу — алгоритм для генерации выборки совместного распределения множества случайных величин. Он используется для оценки совместного распределения и для вычисления интегралов методом Монте-Карло. Этот алгоритм является частным случаем алгоритма Метрополиса-Гастингса и назван в честь физика Джозайи Гиббса.
Статистический вывод (англ. statistical inference), также называемый индуктивной статистикой (англ. inferential statistics, inductive statistics) — обобщение информации из выборки для получения представления о свойствах генеральной совокупности.
Проклятие размерности (ПР) — термин, используемый в отношении ряда свойств многомерных пространств и комбинаторных задач. В первую очередь это касается экспоненциального роста необходимых экспериментальных данных в зависимости от размерности пространства при решении задач вероятностно-статистического распознавания образов, машинного обучения, классификации и дискриминантного анализа. Также это касается экспоненциального роста числа вариантов в комбинаторных задачах в зависимости от размера исходных...
Статистическая теория обучения — это модель для обучения машин на основе статистики и функционального анализа. Статистическая теория обучения имеет дело с задачами нахождения функции предсказывания, основанной на данных. Статистическая теория обучения привела к успешным приложениям в таких областях, как компьютерное зрение, распознавание речи, биоинформатика и бейсбол.
Доверительный интервал — термин, используемый в математической статистике при интервальной оценке статистических параметров, более предпочтительной при небольшом объёме выборки, чем точечная. Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью.
Переобучение (переподгонка, пере- в значении «слишком», англ. overfitting) в машинном обучении и статистике — явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении (на примерах из тестовой выборки).
Двоичная, бинарная или дихотомическая классификация — это задача классификации элементов заданного множества в две группы (предсказание, какой из групп принадлежит каждый элемент множества) на основе правила классификации. Контекст, в котором требуется решение, имеет ли объект некоторое качественное свойство, некоторые специфичные характеристики или некоторую типичную двоичную классификацию, включает...
Для определения средних или наиболее типичных значений совокупности используются показатели центра распределения. Основные из них — математическое ожидание, среднее арифметическое, среднее геометрическое, среднее гармоническое, среднее степенное, взвешенные средние, центр сгиба, медиана, мода.
Подробнее: Показатели центра распределения
Нера́венство Ма́ркова в теории вероятностей даёт оценку вероятности, что случайная величина превзойдёт по модулю фиксированную положительную константу, в терминах её математического ожидания. Хотя получаемая оценка обычно груба, она позволяет получить определённое представление о распределении, когда последнее не известно явным образом.
Метод наименьших квадратов (МНК) — математический метод, применяемый для решения различных задач, основанный на минимизации суммы квадратов отклонений некоторых функций от искомых переменных. Он может использоваться для «решения» переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных систем уравнений, для аппроксимации точечных значений некоторой функции. МНК является одним из базовых методов...
Центра́льные преде́льные теоре́мы (Ц. П. Т.) — класс теорем в теории вероятностей, утверждающих, что сумма достаточно большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада), имеет распределение, близкое к нормальному.
Подробнее: Центральная предельная теорема
Двухшаговый метод наименьших квадратов (Двухшаговый МНК, ДМНК,TSLS, 2SLS — англ. Two-Stage Least Squares ) — метод оценки параметров эконометрических моделей, в частности систем одновременных уравнений, состоящий из двух этапов (шагов), на каждом из которых применяется метод наименьших квадратов.
Непреры́вное равноме́рное распределе́ние — в теории вероятностей — распределение случайной вещественной величины, принимающей значения, принадлежащие интервалу , характеризующееся тем, что плотность вероятности на этом интервале постоянна.
Качественная, дискретная, или категорийная переменная — это переменная, которая может принимать одно из ограниченного и, обычно, фиксированного числа возможных значений, назначая каждую единицу наблюдения определённой группе или номинальной категории на основе некоторого качественного свойства. В информатике и некоторых других ветвях математики качественные переменные называются перечислениями или перечисляемыми типами. Обычно (хотя не в этой статье), каждое из возможных значений качественной переменной...
Выборка или выборочная совокупность — часть генеральной совокупности элементов, которая охватывается экспериментом (наблюдением, опросом).
Ядерная оценка плотности (ЯОП, англ. Kernel Density Estimation, KDE) — это непараметрический способ оценки плотности случайной величины. Ядерная оценка плотности является задачей сглаживания данных, когда делается заключение о совокупности, основываясь на конечных выборках данных. В некоторых областях, таких как обработка сигналов и математическая экономика, метод называется также методом окна Парзена-Розенблатта. Как считается, Эммануэль Парзен и Мюррей Розенблатт независимо создали метод в существующем...
Сре́днее значе́ние — числовая характеристика множества чисел или функций (в математике); — некоторое число, заключённое между наименьшим и наибольшим из их значений.