Винзоризованное среднее

Винсоризованное среднее представляет собой винсоризованную статистическую меру центральной тенденции как некую конволюцию среднего арифметического и усеченного среднего.

Расчет винсоризованного среднего сводится к тому, что k% наибольших и k% наименьших значений (обычно от 5% до 25%) заменяется наименьшими и наибольшими значениями из оставшегося массива данных, после чего рассчитывается среднее арифметическое.

Источник: Википедия

Связанные понятия

Среднее усечённое представляет собой статистическую меру центральной тенденции, рассчитанную как среднее значение для имеющегося набора данных, из которого исключены k % наибольших и k % наименьших значений. Как правило, процент удаляемых значений устанавливается в диапазоне от 5 % до 25 %.

Сре́днее арифмети́ческое (в математике и статистике) множества чисел — число, равное сумме всех чисел множества, делённой на их количество. Является одной из наиболее распространённых мер центральной тенденции.

Сре́днее значе́ние — числовая характеристика множества чисел или функций (в математике); — некоторое число, заключённое между наименьшим и наибольшим из их значений.

Среднее Тьюки (средневзвешенное Тьюки) представляет собой меру центральной тенденции, относящуюся к разряду устойчивых (робастных) мер. Расчет среднего Тьюки может носить как одношаговый, так и итерационный характер.

Для определения средних или наиболее типичных значений совокупности используются показатели центра распределения. Основные из них — математическое ожидание, среднее арифметическое, среднее геометрическое, среднее гармоническое, среднее степенное, взвешенные средние, центр сгиба, медиана, мода.

Подробнее: Показатели центра распределения

Медиа́на (от лат. mediāna — середина) в математической статистике — число, характеризующее выборку (например, набор чисел). Если все элементы выборки различны, то медиана — это такое число выборки, что ровно половина из элементов выборки больше него, а другая половина меньше него. В более общем случае медиану можно найти, упорядочив элементы выборки по возрастанию или убыванию и взяв средний элемент. Например, выборка {11, 9, 3, 5, 5} после упорядочивания превращается в {3, 5, 5, 9, 11} и её медианой...

Кванти́ль в математической статистике — значение, которое заданная случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль называется процентилем или перцентилем (см. ниже).

Коэффициент Джини — статистический показатель степени расслоения общества данной страны или региона по отношению к какому-либо изучаемому признаку. Используется для оценки экономического неравенства.

Вариа́ция — различие значений какого-либо признака у разных единиц совокупности за один и тот же промежуток времени. Причиной возникновения вариации являются различные условия существования разных единиц совокупности. Вариация — необходимое условие существования и развития массовых явлений.

Индекс Аткинсона — один из индексов социального неравенства. Предложен в 1970 г. Энтони Барнсом Аткинсоном. Используется ведомством по переписи населения США.

Т-критерий Вилкоксона — (также используются названия Т-критерий Уилкоксона, критерий Вилкоксона, критерий знаковых рангов Уилкоксона, критерий суммы рангов Уилкоксона) непараметрический статистический тест (критерий), используемый для проверки различий между двумя выборками парных или независимых измерений по уровню какого-либо количественного признака, измеренного в непрерывной или в порядковой шкале.. Впервые предложен Фрэнком Уилкоксоном. Другие названия — W-критерий Вилкоксона, критерий знаковых...

Подробнее: Критерий Уилкоксона

Мера центральной тенденции в статистике — число, служащее для описания множества значений одним-единственным числом (для краткости). Например, вместо перечисления величин зарплат всех сотрудников организации говорят о средней зарплате. Существует множество мер центральной тенденции; окончательный выбор меры всегда остается за исследователем.

Частотное распределение — метод статистического описания данных (измеренных значений, характерных значений). Математически распределение частот является функцией, которая в первую очередь определяет для каждого показателя идеальное значение, так как эта величина обычно уже измерена. Такое распределение можно представить в виде таблицы или графика, моделируя функциональные уравнения. В описательной статистике частота распределения имеет ряд математических функций, которые используются для выравнивания...

Скользя́щая сре́дняя, скользя́щее сре́днее (англ. moving average, MA) — общее название для семейства функций, значения которых в каждой точке определения равны среднему значению исходной функции за предыдущий период.

Индекс товарного канала (англ. commodity channel index, англ. CCI) — технический индикатор, основанный на анализе текущего изменения отклонения цены от её среднего значения за определённый период и среднестатистического абсолютного значения этого параметра.

Проце́нт (лат. per cent «на сотню; сотая») — сотая часть; обозначается знаком «%»; используется для обозначения доли чего-либо по отношению к целому. Например, 17 % от 500 кг означает 17 частей по 5 кг каждая, то есть 85 кг. Справедливо также утверждение, что 200 % от 500 кг является 1000 кг, поскольку 1 % от 500 кг равен 5 кг, и 5 × 200 = 1000.

В статистике степенной закон (англ. power law) - это такая функциональная зависимость между двумя величинами, при которой относительное изменение одной величины приводит к пропорциональному относительному изменению другой величины, независимо от исходных значений этих величин: зависимость одной величины от другой представляет собой степенную функцию. Например, рассмотрим зависимость площади квадрата от длины его стороны. Если длина будет увеличена вдвое, то площадь увеличится вчетверо.

Двоичная, бинарная или дихотомическая классификация — это задача классификации элементов заданного множества в две группы (предсказание, какой из групп принадлежит каждый элемент множества) на основе правила классификации. Контекст, в котором требуется решение, имеет ли объект некоторое качественное свойство, некоторые специфичные характеристики или некоторую типичную двоичную классификацию, включает...

Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В отличие от t-критерия, позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance).

Качественная, дискретная, или категорийная переменная — это переменная, которая может принимать одно из ограниченного и, обычно, фиксированного числа возможных значений, назначая каждую единицу наблюдения определённой группе или номинальной категории на основе некоторого качественного свойства. В информатике и некоторых других ветвях математики качественные переменные называются перечислениями или перечисляемыми типами. Обычно (хотя не в этой статье), каждое из возможных значений качественной переменной...

Закон больших чисел (ЗБЧ) в теории вероятностей — принцип, описывающий результат выполнения одного и того же эксперимента много раз. Согласно закону, среднее значение конечной выборки из фиксированного распределения близко к математическому ожиданию этого распределения.

Индекс Тейла представляет собой показатель измерения социального неравенства, предложенный в 1967 году нидерландским экономистом Анри Тейлом. Индекс Тейла основан на предложенном Шенноном понятии информационной энтропии. В отличие от коэффициента Джини индекс Тейла разложим, то есть, если популяция разбита на группы, то индекс Тейла всей популяции можно записать в виде взвешенной суммы индексов Тейла каждой из групп и показателя социального неравенства между группами. Разложимость индекса Тейла позволяет...

В теории вычислительной сложности сложность алгоритма в среднем — это количество неких вычислительных ресурсов (обычно — время), требуемое для работы алгоритма, усреднённое по всем возможным входным данным. Понятие часто противопоставляется сложности в худшем случае, где рассматривается максимальная сложность алгоритма по всем входным данным.

Статистическая мощность в математической статистике — вероятность отклонения основной (или нулевой) гипотезы при проверке статистических гипотез в случае, когда конкурирующая (или альтернативная) гипотеза верна. Чем выше мощность статистического теста, тем меньше вероятность совершить ошибку второго рода. Величина мощности также используется для вычисления размера выборки, необходимой для подтверждения гипотезы с необходимой силой эффекта.

Центра́льные преде́льные теоре́мы (Ц. П. Т.) — класс теорем в теории вероятностей, утверждающих, что сумма достаточно большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада), имеет распределение, близкое к нормальному.

Подробнее: Центральная предельная теорема

Округление — замена числа на его приближённое значение (с определённой точностью), записанное с меньшим количеством значащих цифр. Модуль разности между заменяемым и заменяющим числом называется ошибкой округления.

Ящик с усами, диаграмма размаха (англ. box-and-whiskers diagram or plot, box plot) — график, использующийся в описательной статистике, компактно изображающий одномерное распределение вероятностей.

Весьма избыточное число или высокоизбыточное число — это натуральное число, сумма делителей которого (включая само число) больше суммы делителей любого меньшего натурального числа.

Весовая функция — математическая конструкция, используемая при проведении суммирования, интегрирования или усреднения с целью придания некоторым элементам большего веса в результирующем значении по сравнению с другими элементами. Задача часто возникает в статистике и математическом анализе, тесно связана с теорией меры. Весовые функции могут быть использованы как для дискретных, так и для непрерывных величин.

Диаграмма «стебель-листья» — схема представления статистических данных в описательной статистике. Даёт возможность визуально оценить форму и размах распределения данных. В отличие от гистограммы, не требует предварительной группировки данных в интервалы, хотя и для составления диаграммы «стебель-листья» может требоваться округление до двух десятичных знаков.

Складной нож (англ. jackknife) — один из методов ресэмплинга (линейное приближением статистического бутстрэпа), используемый для оценки погрешности в статистическом выводе. Способ заключается в следующем: для каждого элемента вычисляется среднее значение выборки без учёта данного элемента, а затем — среднее всех таких значений. Для выборки из N элементов оценка получается путём вычисления среднего значения остальных N-1 элементов.

Выборка по значимости (англ. importance sampling, далее ВЗ) — один из методов уменьшения дисперсии случайной величины, который используется для улучшения сходимости процесса моделирования какой-либо величины методом Монте-Карло. Идея ВЗ основывается на том, что некоторые значения случайной величины в процессе моделирования имеют бо́льшую значимость (вероятность) для оцениваемой функции (параметра), чем другие. Если эти «более вероятные» значения будут появляться в процессе выбора случайной величины...

Коэффициент сходства (также мера сходства, индекс сходства) — безразмерный показатель сходства сравниваемых объектов. Также известен под названиями «мера ассоциации», «мера подобия» и др.

Робастность (англ. robustness, от robust — «крепкий», «сильный», «твёрдый», «устойчивый») — свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивости к помехам. Выбросоустойчивый (робастный) метод — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки.

Праймориал (англ. Primorial, иногда именуется также «примориал») — в теории чисел функция над рядом натуральных чисел, схожая с функцией факториала, с разницей в том, что праймориал является последовательным произведением простых чисел, меньших или равных данному, в то время как факториал является последовательным произведением всех натуральных чисел, меньших или равных данному.

Система направленного движения (DMS от англ. directional movement system) или Индекс направленного движения (DMI от англ. directional movement index) — система технических индикаторов разработанная Уэллсом Уайлдером и представленная в июне 1978 года в его книге «Новые концепции в технических торговых системах» (англ. New Concepts in Technical Trading Systems).

Результативность (англ. effectiveness, синоним — эффективность) — отношение фактического результата (измеряемого показателя — т. н. «критерия результативности») к плановому.

Кривая Лоренца — это альтернативное (в иных координатах) графическое изображение функции распределения. Она была предложена американским экономистом Максом Отто Лоренцем в 1905 году как показатель неравенства в доходах населения. В таком представлении она есть изображение функции распределения, в котором аккумулируются доли численности и доходов населения. В прямоугольной системе координат кривая Лоренца является выпуклой вниз и проходит под диагональю единичного квадрата, расположенного в I координатной...

Статистический параметр или параметр совокупности — это величина, которая индексирует семейство распределений вероятностей. Его можно расценивать как числовую характеристику совокупности или статистической модели.

Для того, чтобы оценить программу, необходимо собрать информацию о результатах её реализации. Наиболее убедительными и наглядными являются результаты проведения реального эксперимента: наблюдатель сразу собственными глазами может опознать произошедшие изменения. Однако в число серьёзных недостатков этого метода входят дороговизна проведения серьёзных полномасштабных экспериментов, а также сложность их проведения, ведь подчас качественное оценивание политических программ требует получения экспериментальных...

Подробнее: Эконометрические методы в оценивании

Для оценки качества воды в реках и водоёмах их разделяют по загрязнённости на несколько классов. Классы основаны на интервалах удельного комбинаторного индекса загрязнённости воды (УКИЗВ) в зависимости от количества критических показателей загрязнённости (КПЗ). Значение УКИЗВ определяется по частоте и кратности превышения ПДК по нескольким показателям и может варьировать в водах различной степени загрязнённости от 1 до 16 (для чистой воды 0). Большему значению индекса соответствует худшее качество...

Статистика — измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения элементов выборки.

В вычислительной биологии для оценки качества сборки генома используются различные показатели, наиболее известными из которых являются статистики длин набора контигов (или скэффолдов) N50 и L50. Эти статистики являются мерами качества сборки генома. N50 — максимальная длина контига такая, что суммарная длина всех контигов не короче данного составляет не менее половины общей дины всех контигов сборки. N50 сходна с медианой или средним значением длин, но в её расчете больший вес имеют длинные контиги...

Подробнее: Оценки качества сборки генома

В математической статистике, районированная выборка (другое название – стратифицированная выборка) – метод семплирования из генеральной совокупности, который позволяет улучшить точность статистических результатов при разбиении всего пространства событий на несколько областей-страт и независимой работе с этими стратами. Например, в каждой страте можно применять свою собственную выборку по значимости.

Полуинварианты, или семиинварианты, или кумулянты — коэффициенты в разложении логарифма характеристической функции случайной величины в ряд Маклорена.

Индекс массы (MI от англ. mass index) — разработанный Дональдом Дорси (англ. Donald Dorsey) технический индикатор прогнозирующий разворот тенденции на основе анализа ширины диапазона между максимальной и минимальной ценами.

В математической статистике критерий знаков используется при проверке нулевой гипотезы о равенстве медианы некоторому заданному значению (для одной выборки) или о равенстве нулю медианы разности (для двух связанных выборок). Это непараметрический критерий, то есть он не использует никаких данных о характере распределения, и может применяться в широком спектре ситуаций, однако при этом он может иметь меньшую мощность, чем более специализированные критерии.

Цензурированная регрессия (англ. Censored regression) — регрессия, с зависимой переменной, наблюдаемой с ограничением (цензурированием) возможных значений. При этом модель может быть цензурирована только с одной стороны (снизу или сверху) или с обеих сторон. Цензурированная регрессия отличается от усеченной регрессии (англ. truncated regression), тем что значения факторов, в отличие от зависимой переменной, наблюдаются без ограничений.

Выборка или выборочная совокупность — часть генеральной совокупности элементов, которая охватывается экспериментом (наблюдением, опросом).

Тождество максимумов и минимумов — математическое соотношение между максимальным элементом конечного множества чисел и минимальными элементами всех его непустых подмножеств.

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я