Связанные понятия
Доход на душу населения — показатель экономического благосостояния страны, измеряющий среднестатистический доход, получаемый отдельно взятым лицом в стране за год. Вычисляется из национального дохода, поделенного на численность населения. Как показатель доход на душу населения принципиально отличается от валового внутреннего продукта и валового национального продукта на душу населения.
Кванти́ль в математической статистике — значение, которое заданная случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль называется процентилем или перцентилем (см. ниже).
Сре́днее арифмети́ческое (в математике и статистике) множества чисел — число, равное сумме всех чисел множества, делённой на их количество. Является одной из наиболее распространённых мер центральной тенденции.
Для определения средних или наиболее типичных значений совокупности используются показатели центра распределения. Основные из них — математическое ожидание, среднее арифметическое, среднее геометрическое, среднее гармоническое, среднее степенное, взвешенные средние, центр сгиба, медиана, мода.
Подробнее: Показатели центра распределения
В математической статистике
критерий знаков используется при проверке нулевой гипотезы о равенстве медианы некоторому заданному значению (для одной выборки) или о равенстве нулю медианы разности (для двух связанных выборок). Это непараметрический критерий, то есть он не использует никаких данных о характере распределения, и может применяться в широком спектре ситуаций, однако при этом он может иметь меньшую мощность, чем более специализированные критерии.
Упоминания в литературе
Наиболее распространенными характеристиками статистического распределения являются средние величины: мода, медиана и средняя арифметическая (или выборочная средняя). Мода (Мо) равна варианте, которой соответствует наибольшая частота. Медиана (Ме) равна варианте, которая расположена в середине статистического распределения. Она делит статистический (вариационный) ряд на две равные части. Выборочная средняя (ХВ) определяется
как среднее арифметическое значение вариант статистического ряда.
Основным статистическим методом изучения демографических процессов является (статистическое наблюдение. Оно используется для сбора данных о населении и получения информации о происходящих процессах возобновления. Используется также метод группировки и классификации, который позволяет разделить рассматриваемую совокупность на группы по конкретным признакам. Структуру явлений по количественным признакам изучают с помощью таких статистических показателей, как средняя, мода,
медиана, показатели вариации. Для более глубокого изучения демографии используют следующие методы статистики: корреляционный и факторный анализ, индексный метод, метод выравнивания динамических рядов и др.
Более известным средством является так называемый боксплот (или «ящик с усами»). Он
позволяет компактно отобразить медиану, общий и межквартильный размах, а также прикинуть, насколько распределение ваших данных близко к нормальному и есть ли у вас выбросы.
4) смещение медианного значения вверх или вниз с
соответствующим сжатием спектра доходов выше или ниже медианы и растяжением противоположной части спектра доходов[14].
4) смещением медианного значения вверх или вниз с
соответствующим сжатием спектра доходов выше или ниже медианы и растяжением противоположной части спектра доходов [108].
4) смещением медианного значения вверх или вниз с
соответствующим сжатием спектра доходов выше или ниже медианы и растяжением противоположной части спектра доходов[14].
Еще пример – при сравнительном изучении 1752 пар гаплотипов в 17-маркерном формате было выявлено 84 мутации. Из них 83 были одношаговые (98,8 %) и одна – двухшаговая (1,2 % от всех). Поскольку все 1752 гаплотипа содержали 1752 х 17 = 29784 маркера, то средняя скорость мутаций соответствовала 84/29784 = 0.00282 мутации на маркер на
поколение, медиана была равна 0.0025 мутации на маркер на поколение. Из этих 84 мутаций 43 мутации были «вверх» (число повторов в аллели возросло) и 41 – «вниз». Самая высокая скорость мутаций была в маркере DYS458 (0.0074 мутаций за поколение), самая низкая – в маркере DYS448 (0.0003 мутаций за поколение, то есть примерно в 25 раз медленнее). Когда все отцы были подразделены на две (неравные) группы – те, у кого произошла мутация в гаплотипах, и те, у кого мутаций не было, то средний возраст первых и вторых составил – при рождении сына – 34.4?11.6 лет (округленно 34?12) и 30.3?10.2 лет (округлённо 30?10). Хотя разница в возрасте и имела место, эти величины находятся в пределах погрешности эксперимента. Объединение всех опубликованных данных подобных экспериментов выявило 331 мутацию на 135212 маркерах, то есть средняя скорость оказалась равна 0.00244 мутации на маркер за поколение. При сопоставлении скоростей мутаций с генеалогическими данными и историческими событиями (при калибровке) средняя скорость мутаций в 17-маркерных гаплотипах составила 0.0020 мутаций на маркер на поколение.
2. Диагностика креативности реализовывалась при помощи теста Е. Торренса (Torrance Test of Creative Thinking) в адаптации Е. Е. Туник (Туник, 1998). Оценивалась вербальная и невербальная креативность, но в настоящей работе приводятся данные по невербальной креативности. Распределение студентов на группы с более высокими и менее высокими показателями креативности
осуществлялось на основе медианы (51,35 баллов).
Связанные понятия (продолжение)
Закон больших чисел (ЗБЧ) в теории вероятностей — принцип, описывающий результат выполнения одного и того же эксперимента много раз. Согласно закону, среднее значение конечной выборки из фиксированного распределения близко к математическому ожиданию этого распределения.
Статистика — измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения элементов выборки.
Центра́льные преде́льные теоре́мы (Ц. П. Т.) — класс теорем в теории вероятностей, утверждающих, что сумма достаточно большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада), имеет распределение, близкое к нормальному.
Подробнее: Центральная предельная теорема
Частотное распределение — метод статистического описания данных (измеренных значений, характерных значений). Математически распределение частот является функцией, которая в первую очередь определяет для каждого показателя идеальное значение, так как эта величина обычно уже измерена. Такое распределение можно представить в виде таблицы или графика, моделируя функциональные уравнения. В описательной статистике частота распределения имеет ряд математических функций, которые используются для выравнивания...
Множество больших тригонометрических сумм — понятие теории чисел — множество индексов, в которых преобразование Фурье характеристической функции заданного подмножества группы принимает достаточно большие значения.
Т-критерий Вилкоксона — (также используются названия Т-критерий Уилкоксона, критерий Вилкоксона, критерий знаковых рангов Уилкоксона, критерий суммы рангов Уилкоксона) непараметрический статистический тест (критерий), используемый для проверки различий между двумя выборками парных или независимых измерений по уровню какого-либо количественного признака, измеренного в непрерывной или в порядковой шкале.. Впервые предложен Фрэнком Уилкоксоном. Другие названия — W-критерий Вилкоксона, критерий знаковых...
Подробнее: Критерий Уилкоксона
Статистический параметр или параметр совокупности — это величина, которая индексирует семейство распределений вероятностей. Его можно расценивать как числовую характеристику совокупности или статистической модели.
Полуинвариант ы, или семиинварианты, или кумулянты — коэффициенты в разложении логарифма характеристической функции случайной величины в ряд Маклорена.
Двоичная, бинарная или дихотомическая классификация — это задача классификации элементов заданного множества в две группы (предсказание, какой из групп принадлежит каждый элемент множества) на основе правила классификации. Контекст, в котором требуется решение, имеет ли объект некоторое качественное свойство, некоторые специфичные характеристики или некоторую типичную двоичную классификацию, включает...
Двенадцатикратный путь или двенадцать сценариев — это систематическая классификация 12 связанных перечислительных задач, касающихся двух конечных множеств, которые включают классические задачи подсчёта перестановок, сочетаний, мультимножеств и разбиений либо множества, либо числа. Идею классификации приписывают Джиану-Карло Роту, а название двенадцатикратный путь предложил Джоэл Спенсер. Название намекает, что используя те же подходы в 12 случаях, но с небольшими изменениями в условиях, мы получаем...
Регрессия Деминга эквивалентна оценке максимального правдоподобия на модели с ошибками в переменных, в которой ошибки двух переменных считаются независимыми и имеют нормальное распределение, а отношение их дисперсий, δ, известно . На практике это отношение может быть оценено из исходных данных. Однако процедура регрессии не принимает во внимание возможные ошибки в оценке отношений дисперсии.
Модель бинарного выбора — применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения — 0 и 1) от совокупности факторов. Построение обычной линейной регрессии для таких переменных теоретически некорректно, так как условное математическое ожидание таких переменных равно вероятности того, что зависимая переменная примет значение 1, а линейная регрессия допускает и отрицательные значения и значения выше 1. Поэтому обычно используются некоторые интегральные функции...
Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В отличие от t-критерия, позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance).
Кванти́ли распределе́ния хи-квадра́т — числовые характеристики, широко используемые в задачах математической статистики таких как построение доверительных интервалов, проверка статистических гипотез и непараметрическое оценивание.
Вариа́ция — различие значений какого-либо признака у разных единиц совокупности за один и тот же промежуток времени. Причиной возникновения вариации являются различные условия существования разных единиц совокупности. Вариация — необходимое условие существования и развития массовых явлений.
Метод наименьших квадратов (МНК) — математический метод, применяемый для решения различных задач, основанный на минимизации суммы квадратов отклонений некоторых функций от искомых переменных. Он может использоваться для «решения» переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных систем уравнений, для аппроксимации точечных значений некоторой функции. МНК является одним из базовых методов...
Семплирование по Гиббсу — алгоритм для генерации выборки совместного распределения множества случайных величин. Он используется для оценки совместного распределения и для вычисления интегралов методом Монте-Карло. Этот алгоритм является частным случаем алгоритма Метрополиса-Гастингса и назван в честь физика Джозайи Гиббса.
Кванти́ли распределе́ния Стью́дента (коэффициенты Стьюдента) — числовые характеристики, широко используемые в задачах математической статистики, таких как построение доверительных интервалов и проверка статистических гипотез.
Робастность (англ. robustness, от robust — «крепкий», «сильный», «твёрдый», «устойчивый») — свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивости к помехам. Выбросоустойчивый (робастный) метод — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки.
Теорема об уголках — доказанный результат в области аддитивной комбинаторики, утверждающий присутствие некой упорядоченной (в арифметическом смысле) структуры, называемой уголком, в достаточно больших двумерных множествах любой фиксированной плотности.
Сре́днее значе́ние — числовая характеристика множества чисел или функций (в математике); — некоторое число, заключённое между наименьшим и наибольшим из их значений.
Вероятностный метод — неконструктивный метод доказательства существования математического объекта с заданными свойствами. В основном используется в комбинаторике, но также и в теории чисел, линейной алгебре и математическом анализе, а также в информатике (например, метод вероятностного округления) и теории информации.
Неравенство Берри — Эссеена — неравенство, позволяющее оценить скорость сходимости суммы независимых случайных величин к случайной величине с нормальным распределением. Сам факт подобной сходимости носит в теории вероятностей название центральной предельной теоремы. Это неравенство было независимо выведено Эндрю Берри в 1941 и Карлом-Густавом Эссееном в 1942 годах.
Статистические оценки — это статистики, которые используются для оценивания неизвестных параметров распределений случайной величины.
В статистике
степенной закон (англ. power law) - это такая функциональная зависимость между двумя величинами, при которой относительное изменение одной величины приводит к пропорциональному относительному изменению другой величины, независимо от исходных значений этих величин: зависимость одной величины от другой представляет собой степенную функцию. Например, рассмотрим зависимость площади квадрата от длины его стороны. Если длина будет увеличена вдвое, то площадь увеличится вчетверо.
Качественная, дискретная, или категорийная переменная — это переменная, которая может принимать одно из ограниченного и, обычно, фиксированного числа возможных значений, назначая каждую единицу наблюдения определённой группе или номинальной категории на основе некоторого качественного свойства. В информатике и некоторых других ветвях математики качественные переменные называются перечислениями или перечисляемыми типами. Обычно (хотя не в этой статье), каждое из возможных значений качественной переменной...
Тождество максимумов и минимумов — математическое соотношение между максимальным элементом конечного множества чисел и минимальными элементами всех его непустых подмножеств.
Складной нож (англ. jackknife) — один из методов ресэмплинга (линейное приближением статистического бутстрэпа), используемый для оценки погрешности в статистическом выводе. Способ заключается в следующем: для каждого элемента вычисляется среднее значение выборки без учёта данного элемента, а затем — среднее всех таких значений. Для выборки из N элементов оценка получается путём вычисления среднего значения остальных N-1 элементов.
Закон повторного логарифма — предельный закон теории вероятностей. Теорема определяет порядок роста делителя последовательности сумм случайных величин, при котором эта последовательность не сходится к нулю, но остается почти всюду в конечных пределах.
Доля единицы (аликвотная дробь) — это рациональное число в виде дроби, числитель которой равен единице, а знаменатель — положительное целое число. Доля единицы, таким образом, является обратным числом положительного целого числа, 1/n. Примеры — 1/1, 1/2, 1/3, 1/4 и т. д.
В комбинаторной математике под числом встреч понимается число перестановок множества {1, ..., n} с заданным числом неподвижных элементов.
Подробнее: Число встреч (комбинаторика)
Ящик с усами , диаграмма размаха (англ. box-and-whiskers diagram or plot, box plot) — график, использующийся в описательной статистике, компактно изображающий одномерное распределение вероятностей.
Праймориал (англ. Primorial, иногда именуется также «примориал») — в теории чисел функция над рядом натуральных чисел, схожая с функцией факториала, с разницей в том, что праймориал является последовательным произведением простых чисел, меньших или равных данному, в то время как факториал является последовательным произведением всех натуральных чисел, меньших или равных данному.
Ме́тод максима́льного правдоподо́бия или метод наибольшего правдоподобия (ММП, ML, MLE — англ. maximum likelihood estimation) в математической статистике — это метод оценивания неизвестного параметра путём максимизации функции правдоподобия. Основан на предположении о том, что вся информация о статистической выборке содержится в функции правдоподобия.
В теории вероятностей и статистике, о наборе случайных величин говорят, что они являются независимыми (и) одинаково распределёнными, если каждая из них имеет такое же распределение, что и другие, и все величины являются независимыми в совокупности. Фраза «независимые одинаково распределённые» часто сокращается аббревиатурой i.i.d. (от англ. independent and identically-distributed), иногда — «н.о.р».
Подробнее: Независимые одинаково распределённые случайные величины
Гауссовский процесс назван так в честь Карла Фридриха Гаусса, поскольку в его основе лежит понятие гауссовского распределения (нормального распределения). Гауссовский процесс может рассматриваться как бесконечномерное обобщение многомерных нормальных распределений. Эти процессы применяются в статистическом моделировании; в частности используются свойства нормальности. Например, если случайный процесс моделируется как гауссовский, то распределения различных производных величин, такие как среднее значение...
Принцип максимума энтропии утверждает, что наиболее характерными распределениями вероятностей состояний неопределенной среды являются такие распределения, которые максимизируют выбранную меру неопределенности при заданной информации о «поведении» среды. Впервые подобный подход использовал Д.Гиббс для нахождения экстремальных функций распределений физических ансамблей частиц. Впоследствии Э.Джейнсом был предложен формализм восстановления неизвестных законов распределения случайных величин при наличии...
Выборка по значимости (англ. importance sampling, далее ВЗ) — один из методов уменьшения дисперсии случайной величины, который используется для улучшения сходимости процесса моделирования какой-либо величины методом Монте-Карло. Идея ВЗ основывается на том, что некоторые значения случайной величины в процессе моделирования имеют бо́льшую значимость (вероятность) для оцениваемой функции (параметра), чем другие. Если эти «более вероятные» значения будут появляться в процессе выбора случайной величины...
Поиском
наилучшей проекции (англ. Projection Pursuit) называется статистический метод, состоящий в нахождении такой проекции многомерных данных, для которой достигает максимума некоторая функция качества проекции.
Нера́венство Ма́ркова в теории вероятностей даёт оценку вероятности, что случайная величина превзойдёт по модулю фиксированную положительную константу, в терминах её математического ожидания. Хотя получаемая оценка обычно груба, она позволяет получить определённое представление о распределении, когда последнее не известно явным образом.
Округление — замена числа на его приближённое значение (с определённой точностью), записанное с меньшим количеством значащих цифр. Модуль разности между заменяемым и заменяющим числом называется ошибкой округления.
Весовая функция — математическая конструкция, используемая при проведении суммирования, интегрирования или усреднения с целью придания некоторым элементам большего веса в результирующем значении по сравнению с другими элементами. Задача часто возникает в статистике и математическом анализе, тесно связана с теорией меры. Весовые функции могут быть использованы как для дискретных, так и для непрерывных величин.
Стандартные ошибки в форме Ньюи-Уеста или состоятельные при гетероскедастичности и автокорреляции стандартные ошибки (HAC s.e. — Heteroskedasticity and Autocorrelation consistent standard errors) — применяемая в эконометрике оценка ковариационной матрицы МНК-оценок (в частности и стандартных ошибок) параметров линейной модели регрессии, альтернативная стандартной (классической) оценке, которая состоятельна при гетероскедастичности и автокорреляции случайных ошибок модели (в отличие от несостоятельной...
Ядерная оценка плотности (ЯОП, англ. Kernel Density Estimation, KDE) — это непараметрический способ оценки плотности случайной величины. Ядерная оценка плотности является задачей сглаживания данных, когда делается заключение о совокупности, основываясь на конечных выборках данных. В некоторых областях, таких как обработка сигналов и математическая экономика, метод называется также методом окна Парзена-Розенблатта. Как считается, Эммануэль Парзен и Мюррей Розенблатт независимо создали метод в существующем...