Гистограмма (статистика)

Гистогра́мма в математической статистике — это функция, приближающая плотность вероятности некоторого распределения, построенная на основе выборки из него.

Источник: Википедия

Связанные понятия

Семплирование по Гиббсу — алгоритм для генерации выборки совместного распределения множества случайных величин. Он используется для оценки совместного распределения и для вычисления интегралов методом Монте-Карло. Этот алгоритм является частным случаем алгоритма Метрополиса-Гастингса и назван в честь физика Джозайи Гиббса.

Поиском наилучшей проекции (англ. Projection Pursuit) называется статистический метод, состоящий в нахождении такой проекции многомерных данных, для которой достигает максимума некоторая функция качества проекции.

Ме́тод моме́нтов — метод оценки неизвестных параметров распределений в математической статистике и эконометрике, основанный на предполагаемых свойствах моментов (Пирсон, 1894 г.). Идея метода заключается в замене истинных соотношений выборочными аналогами.

Многоме́рное норма́льное распределе́ние (или многоме́рное га́уссовское распределе́ние) в теории вероятностей — это обобщение одномерного нормального распределения. Случайный вектор, имеющий многомерное нормальное распределение, называется гауссовским вектором.

Поточный алгоритм (англ. streaming algorithm) — алгоритм для обработки последовательности данных в один или малое число проходов.

Упоминания в литературе

Гистограммы служат для визуализации сортирования измеряемых величин в границах одного процесса (например, число недочетов в качестве за i дней). При помощи гистограммы можно определить, отвечает ли частота появления измеряемых величин стандартному распределению или частота распределения высока. Гистограммы позволяют соотнести отдельные измеряемые величины с пределами допуска (например, постоянное соблюдение норм времени может свидетельствовать о наличии резервов времени).

Мария Сергеевна Клочкова, Управление качеством. Шпаргалка

На рисунке 2 приводятся построенные текущие записи разности координат. Отрицательные значения показаний гистограмм разности (рисунок 1) и текущих значений разности координат (рисунок 2) показывают, что плоскости наблюдаемых эффектов глубины изображений располагаются далее плоскости монитора компьютера ай-трекера. Особо отметим выбросы амплитуды показаний рисунке 2. Не анализируя причин возникновения, отметим, что их продолжительность не превышала 40 мс. Как правило, они попадают под условия, когда разность ДХ приближается к значению межзрачкового расстояния испытуемого. Они отмечены стрелками на рисунке 1. Анализ показывает, что при таких условиях кратковременно фиксируются протяженное восприятие эффектов возникновения глубины.

Коллектив авторов, Айтрекинг в психологической науке и практике, 2015

Межгодовая изменчивость МП была проанализирована по данным, обобщённым за одноименные месяцы. При этом годовой ход описывают 12 последовательностей вероятностных характеристик. Поскольку при анализе были использованы не только среднемесячные, но и срочные данные, полученные характеристики относятся также и к масштабу синоптической изменчивости. Распределения вероятностей скалярных величин (Т, Р, N, А, Vmax) представлены на рис. 6 а гистограммами для центральных месяцев календарных сезонов. Для облачности N с учётом погрешности визуального определения принято 3 градации – «ясно» 0–3 балла, «полуясно» 4–7 баллов, «пасмурно» – 8–10 баллов. Годовой ход для Т, Р представлен в таблицах 5, 6 повторяемостью по градациям за все месяцы. В таблице 7 приведен годовой ход оценок моментов и экстремумов распределений по срочным и среднемесячным данным. Как видно из рис. 6 а и таблиц, во все месяцы и сроки распределения МП одномодальные. В то же время характеристики распределений – мода, ширина диапазона изменчивости, асимметричность, заостренность заметно изменяются от месяца к месяцу. Годовой ход особенно четко проявляется у Р и Т как в среднем, так и в дисперсии.

Г. В. Алексеев, Метеорологические и геофизические исследования, 2011

Скользящие средние являются широко распространенным способом сглаживания данных для выявления скрытого тренда. Однако, несмотря на их повсеместность на столбцовых гистограммах (bar charts), их использование на диаграммах "крестики-нолики" (point and figure charts) не нашло широкого применения, хотя эти диаграммы известны с конца 19-го века. Построение диаграмм "крестики-нолики", которые отражают изменение цены и его направление безотносительно к объему и времени, значительно отличается от построения столбцовых гистограмм. В столбцовых (и свечных) графиках горизонтальная шкала отображает время. Таким образом, для дневного интервала, новая точка рисуется каждый день. В "крестиках-ноликах" не все дни отображаются одинаково. В некоторые дни, отдельная бумага может претерпевать высокую активность, а в другие навевать скуку на маркет-мейкеров и специалистов.

Антология, Основы технического анализа финансовых активов, 2017

Идея единых ресурсов переработки информации представлена в работах М. Познера. Предложенная им методология умственной хронометрии включала измерение ВР, регистрацию вызванных потенциалов и анализ постстимульных гистограмм латенций активности отдельных клеток (Posner, 1986). Опираясь на результаты проведенных исследований, М. Познер и К. Снайдер выдвинули гипотезу о двух типах переработки информации, основывающихся на разных видах внимания. При неосознаваемом внимании происходит автоматическое обнаружение, регистрация и переработка стимула. Акт сознательного внимания интерферирует с другой деятельностью. Как полагают авторы, ресурсы активного, сознательного внимания ограниченны, поэтому их распределение в пользу одного из путей переработки информации приводит к торможению переработки других стимулов и задержке соответствующих ответов (там же).

Анатолий Воронин, Когнитивный ресурс. Структура, динамика, развитие, 2016

Связанные понятия (продолжение)

Сдвиг среднего значения — это непараметрическая техника анализа пространства признаков для определения местоположения максимума плотности вероятности, так называемый алгоритм поиска моды. Область применения техники — кластерный анализ в компьютерном зрении и обработке изображений.

Для определения средних или наиболее типичных значений совокупности используются показатели центра распределения. Основные из них — математическое ожидание, среднее арифметическое, среднее геометрическое, среднее гармоническое, среднее степенное, взвешенные средние, центр сгиба, медиана, мода.

Подробнее: Показатели центра распределения

Алгоритм Гёрцеля (англ. Goertzel algorithm) — это специальная реализация дискретного преобразования Фурье (ДПФ) в форме рекурсивного фильтра. Данный алгоритм был предложен Джеральдом Гёрцелем в 1958 году. В отличие от быстрого преобразования Фурье, вычисляющего все частотные компоненты ДПФ, алгоритм Гёрцеля позволяет эффективно вычислить значение одного частотного компонента.

Оператор Собеля — дискретный дифференциальный оператор, вычисляющий приближённое значение градиента яркости изображения. Результатом применения оператора Собеля в каждой точке изображения является либо вектор градиента яркости в этой точке, либо его норма. Используется в области обработки изображений, в частности, часто применяется в алгоритмах выделения границ.

Основная теорема о рекуррентных соотношениях (англ. Master theorem) используется в анализе алгоритмов для получения асимптотической оценки рекурсивных соотношений (рекуррентных уравнений), часто возникающих при анализе алгоритмов типа «разделяй и властвуй» (divide and conquer), например, при оценке времени их выполнения. Теорема была популяризована в книге Алгоритмы: построение и анализ (Томас Кормен, Чарльз Лейзерстон, Рональд Ривест, Клиффорд Штайн), в которой она была введена и доказана.

Усло́вное распределе́ние в теории вероятностей — это распределение случайной величины при условии, что другая случайная величина принимает определённое значение.

Проклятие размерности (ПР) — термин, используемый в отношении ряда свойств многомерных пространств и комбинаторных задач. В первую очередь это касается экспоненциального роста необходимых экспериментальных данных в зависимости от размерности пространства при решении задач вероятностно-статистического распознавания образов, машинного обучения, классификации и дискриминантного анализа. Также это касается экспоненциального роста числа вариантов в комбинаторных задачах в зависимости от размера исходных...

Предобуславливание (также предобусловливание) — процесс преобразования условий задачи для её более корректного численного решения. Предобуславливание обычно связано с уменьшением числа обусловленности задачи. Предобуславливаемая задача обычно затем решается итерационным методом.

Условное математическое ожидание в теории вероятностей — это среднее значение случайной величины относительно условного распределения.

Многочасти́чный фильтр (МЧФ, англ. particle filter — «фильтр частиц», «частичный фильтр», «корпускулярный фильтр») — последовательный метод Монте-Карло — рекурсивный алгоритм для численного решения проблем оценивания (фильтрации, сглаживания), особенно для нелинейных и не-гауссовских случаев. Со времени описания в 1993 году Н. Гордоном, Д. Салмондом и А. Смитом используется в различных областях — навигации, робототехнике, компьютерном зрении.

В прикладной статистике метод наименьших полных квадратов (МНПК, TLS — англ. Total Least Squares) — это вид регрессии с ошибками в переменных, техника моделирования данных с помощью метода наименьших квадратов, в которой принимаются во внимание ошибки как в зависимых, так и в независимых переменных. Метод является обобщением регрессии Деминга и ортогональной регрессии и может быть применён как к линейным, так и нелинейным моделям.

Алгоритм Баума — Велша используется в информатике и статистике для нахождения неизвестных параметров скрытой марковской модели (HMM). Он использует алгоритм прямого-обратного хода и является частным случаем обобщённого EM-алгоритма.

Свёртка последовательностей — это результат перемножения элементов двух заданных числовых последовательностей таким образом, что члены одной последовательности берутся с возрастанием индексов, а члены другой — с убыванием (что и служит основанием для принятого названия данной операции).

Частотное распределение — метод статистического описания данных (измеренных значений, характерных значений). Математически распределение частот является функцией, которая в первую очередь определяет для каждого показателя идеальное значение, так как эта величина обычно уже измерена. Такое распределение можно представить в виде таблицы или графика, моделируя функциональные уравнения. В описательной статистике частота распределения имеет ряд математических функций, которые используются для выравнивания...

В математической статистике семплирование — обобщенное название методов манипулирования начальной выборкой при известной цели моделирования, которые позволяют выполнить структурно-параметрическую идентификацию наилучшей статистической модели стационарного эргодического случайного процесса.

Гистогра́мма (от др.-греч. ἱστός— столб + γράμμα — черта, буква, написание) — способ графического представления табличных данных.

Винеровское оценивание — задача нахождения импульсной характеристики линейной стационарной системы, дающей на выходе оптимальную в смысле минимума математического ожидания средней квадратической ошибки оценку значений полезного сигнала, поступающего на вход в аддитивной смеси с шумом.

Ядерная оценка плотности (ЯОП, англ. Kernel Density Estimation, KDE) — это непараметрический способ оценки плотности случайной величины. Ядерная оценка плотности является задачей сглаживания данных, когда делается заключение о совокупности, основываясь на конечных выборках данных. В некоторых областях, таких как обработка сигналов и математическая экономика, метод называется также методом окна Парзена-Розенблатта. Как считается, Эммануэль Парзен и Мюррей Розенблатт независимо создали метод в существующем...

В статистике степенной закон (англ. power law) - это такая функциональная зависимость между двумя величинами, при которой относительное изменение одной величины приводит к пропорциональному относительному изменению другой величины, независимо от исходных значений этих величин: зависимость одной величины от другой представляет собой степенную функцию. Например, рассмотрим зависимость площади квадрата от длины его стороны. Если длина будет увеличена вдвое, то площадь увеличится вчетверо.

В теории информации теорема Шеннона об источнике шифрования (или теорема бесшумного шифрования) устанавливает предел максимального сжатия данных и числовое значение энтропии Шеннона.

Двоичная, бинарная или дихотомическая классификация — это задача классификации элементов заданного множества в две группы (предсказание, какой из групп принадлежит каждый элемент множества) на основе правила классификации. Контекст, в котором требуется решение, имеет ли объект некоторое качественное свойство, некоторые специфичные характеристики или некоторую типичную двоичную классификацию, включает...

Оператор Кэнни (детектор границ Кэнни, алгоритм Кэнни) в дисциплине компьютерного зрения — оператор обнаружения границ изображения. Был разработан в 1986 году Джоном Кэнни (англ. John F. Canny) и использует многоступенчатый алгоритм для обнаружения широкого спектра границ в изображениях.

Непреры́вное равноме́рное распределе́ние — в теории вероятностей — распределение случайной вещественной величины, принимающей значения, принадлежащие интервалу , характеризующееся тем, что плотность вероятности на этом интервале постоянна.

Несмещённая оце́нка в математической статистике — это точечная оценка, математическое ожидание которой равно оцениваемому параметру.

Вейвлет-преобразование (англ. Wavelet transform) — интегральное преобразование, которое представляет собой свертку вейвлет-функции с сигналом. Вейвлет-преобразование переводит сигнал из временного представления в частотно-временное.

Выборка по значимости (англ. importance sampling, далее ВЗ) — один из методов уменьшения дисперсии случайной величины, который используется для улучшения сходимости процесса моделирования какой-либо величины методом Монте-Карло. Идея ВЗ основывается на том, что некоторые значения случайной величины в процессе моделирования имеют бо́льшую значимость (вероятность) для оцениваемой функции (параметра), чем другие. Если эти «более вероятные» значения будут появляться в процессе выбора случайной величины...

Матрица мер конвергенции — матрица содержащая в качестве элементов меры сходства объектов. Матрица отражает попарное сходство объектов. Сходство является показателем, измеренном в порядковой шкале и, следовательно, возможно лишь определение отношений вида: «больше», «меньше» или «равно».

Техники спектральной кластеризации используют спектр (собственные значения) матрицы сходства данных для осуществления понижения размерности перед кластеризацией в пространствах меньших размерностей. Матрица сходства подаётся в качестве входа и состоит из количественных оценок относительной схожести каждой пары точек в данных.

Подробнее: Спектральная кластеризация

Расстояние Махалано́биса — мера расстояния между векторами случайных величин, обобщающая понятие евклидова расстояния.

Матрица жёсткости (матрица Дирихле) — матрица особого вида, использующаяся в методе конечных элементов для решения дифференциальных уравнений в частных производных. Она применяется при решениях задач электродинамики и механики.

Наи́вный ба́йесовский классифика́тор — простой вероятностный классификатор, основанный на применении теоремы Байеса со строгими (наивными) предположениями о независимости.

Ковариацио́нная ма́трица (или ма́трица ковариа́ций) в теории вероятностей — это матрица, составленная из попарных ковариаций элементов одного или двух случайных векторов.

В обучении машин вероятностный классификатор — это классификатор, который способен предсказывать, если на входе заданы наблюдения, распределение вероятностей над множеством классов, а не только вывод наиболее подходящего класса, к которому наблюдения принадлежат. Вероятностные классификаторы обеспечивают классификацию, которая может быть полезна сама по себе или когда классификаторы собираются в ансамбли.

Строковое ядро — это ядерная функция, определённая на строках, т.е. конечных последовательностях символов, которые не обязательно имеют одну и ту же длину. Строковые ядра можно интуитивно понимать как функции, измеряющие похожесть пар строк — чем больше похожи две строки a и b, тем больше значение строкового ядра K(a, b).

Цифрово́й компара́тор или компара́тор ко́дов логическое устройство с двумя словарными входами, на которые подаются два разных двоичных слова равной в битах длины и обычно с тремя двоичными выходами, на которые выдаётся признак сравнения входных слов, — первое слово больше второго, меньше или слова равны. При этом выходы «больше», «меньше» имеют смысл, если входные слова кодируют числа в том или ином машинном представлении.

Интервальная арифметика — математическая структура, которая для вещественных интервалов определяет операции, аналогичные обычным арифметическим. Эту область математики называют также интервальным анализом или интервальными вычислениями. Данная математическая модель удобна для исследования различных прикладных объектов...

Генерация столбцов или отложенная генерация столбцов — это эффективный подход к решению больших задач линейного программирования.

Векторная авторегрессия (VAR, Vector AutoRegression) — модель динамики нескольких временных рядов, в которой текущие значения этих рядов зависят от прошлых значений этих же временных рядов. Модель предложена Кристофером Симсом как альтернатива системам одновременных уравнений, которые предполагают существенные теоретические ограничения. VAR-модели свободны от ограничений структурных моделей. Тем не менее, проблема VAR-моделей заключается в резком росте количества параметров с увеличением количества...

Сглаживающие операторы — это гладкие функции со специальными свойствами, используемые в теории распределений для построения последовательности гладких функций, приближающей негладкую (обобщённую) функцию с помощью свёртки. Интуитивно, имея функцию с особенностями и осуществляя её свёртку со сглаживающей функцией, получаем «сглаженную функцию», в которой особенности исходной функции сглажены, хотя функция остаётся близкой к исходной функции. Операторы известны также как сглаживающие операторы Фридрихса...

Подробнее: Сглаживающий оператор

Алгоритм Левенберга — Марквардта — метод оптимизации, направленный на решение задач о наименьших квадратах. Является альтернативой методу Ньютона. Может рассматриваться как комбинация последнего с методом градиентного спуска или как метод доверительных областей. Алгоритм был сформулирован независимо Левенбергом (1944) и Марквардтом (1963).

Кванти́ль в математической статистике — значение, которое заданная случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль называется процентилем или перцентилем (см. ниже).

Экспоненциальное (или показательное) распределение — абсолютно непрерывное распределение, моделирующее время между двумя последовательными свершениями одного и того же события.

Блочный код — в информатике тип канального кодирования. Он увеличивает избыточность сообщения так, чтобы в приёмнике можно было расшифровать его с минимальной (теоретически нулевой) погрешностью, при условии, что скорость передачи информации (количество передаваемой информации в битах в секунду) не превысила бы канальную производительность.

Алгоритм Гельфонда — Шенкса (англ. Baby-step giant-step; также называемый алгоритмом больших и малых шагов) — в теории групп детерминированный алгоритм дискретного логарифмирования в мульпликативной группе кольца вычетов по модулю простого числа. Был предложен советским математиком Александром Гельфондом в 1962 году и Дэниэлем Шенксом в 1972 году.

Весовая функция — математическая конструкция, используемая при проведении суммирования, интегрирования или усреднения с целью придания некоторым элементам большего веса в результирующем значении по сравнению с другими элементами. Задача часто возникает в статистике и математическом анализе, тесно связана с теорией меры. Весовые функции могут быть использованы как для дискретных, так и для непрерывных величин.

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я