Связанные понятия
Автокорреляция — статистическая взаимосвязь между последовательностями величин одного ряда, взятыми со сдвигом, например, для случайного процесса — со сдвигом по времени.
Ме́тод максима́льного правдоподо́бия или метод наибольшего правдоподобия (ММП, ML, MLE — англ. maximum likelihood estimation) в математической статистике — это метод оценивания неизвестного параметра путём максимизации функции правдоподобия. Основан на предположении о том, что вся информация о статистической выборке содержится в функции правдоподобия.
То́чечная оце́нка в математической статистике — это число, оцениваемое на основе наблюдений, предположительно близкое к оцениваемому параметру.
Несмещённая оце́нка в математической статистике — это точечная оценка, математическое ожидание которой равно оцениваемому параметру.
Апостерио́рная вероя́тность — условная вероятность случайного события при условии того, что известны апостериорные данные, т.е. полученные после опыта.
Упоминания в литературе
4. Может показаться, что множество фиксируемых в соответствии с приведенными требованиями к описанию СХР показателей избыточно. Однако, для лонгитюдных наблюдений, сравнительного и сопоставительного анализа СХР в разные периоды времени, построения профилей риска, оценки эффективности управления уровнем хозяйственного риска и других задач, основывающихся на
временных рядах , дополнительные характеристики, могут оказаться весьма полезными.
Математико-статистический анализ предполагает более формализованные процедуры, нацеленные на анализ дискретных состояний. Однако процессуальность характерна и для современных количественных сравнительных исследований, которые стремятся соединить оба подхода к исследованию времени. Исторический процесс разделяется на дискретные события, а затем между ними устанавливается взаимосвязь. Основные методики здесь – анализ
временных рядов и анализ истории событий. Первый направлен на выявление общей динамики – циклов и трендов, второй – на предсказание вероятности тех или иных событий. Подробнее об этом речь пойдет в гл. 10.
Анализ статистических данных (1 группа методов) позволяет нам составить представление о наиболее распространенных в данный период заболеваниях, о причинах смертности населения, о средней продолжительности жизни. Можно получить информацию и по стране в целом, и по отдельным регионам, и по населенным пунктам, в различные временные промежутки, в гендерном и возрастном срезах. Несомненным преимуществом данного вида методов является наличие информации, позволяющей делать сравнения, выстраивать
временные ряды ; большинство статистических данных пригодно для межстрановых сравнений, что позволяет дать общую характеристику ситуации, изучить исторические и глобальные закономерности. В настоящее время наиболее разработанными и широко используемыми методами являются изучение смертности по причинам смерти, заболеваемости по нозологическим формам, по данным обращаемости и госпитализации, медицинским осмотрам; регистры болезней; расчеты ожидаемой продолжительности жизни и ожидаемой продолжительности здоровой жизни.
Как правило, торговые стратегии, созданные на основе эмпирического подхода, показывают превосходные результаты в ходе тестирования на исторических
временных рядах , однако приводят к провальным результатам в реальной торговле. Причиной этого является чрезмерная заоптимизированность (overfitting). Не спасает даже применение анализа на условно-будущем периоде (walk-forward), поскольку наличие большого числа степеней свободы при построении стратегии позволяет выбрать такой набор правил, который позволит получить приемлемые результаты не только на оптимизационном периоде, но и на условно-будущем периоде, не задействованном в ходе оптимизации (подробнее об этом будет рассказано в главе, посвященной бэктестингу). Поэтому практическое использование эмпирического подхода в его чистом виде весьма рискованно и малоприменимо в реальной торговле.
Важным компонентом процесса многолетнего бюджетного планирования является умение прогнозировать доходы на временной период, охватываемый многолетним финансовым планом. Многолетний прогноз доходов дает исходную информацию, по которой можно судить об осуществимости планов расходов при данных среднесрочных задачах государственной финансовой политики. Многолетние прогнозы доходов могут служить также системой раннего обнаружения грядущих нехваток дохода, поэтому иметь их очень важно для того, чтобы можно было своевременно пересматривать стратегии и реформировать налогообложение. Для краткосрочного прогнозирования доходов можно применять эконометрические модели, в частности, модели
временных рядов (однофакторные) и многофакторные модели, включающие одно или несколько уравнений, оцениваемых одновременно. Использование таких моделей, обладающих хорошо изученными статистическими свойствами, позволяет иметь надежный источник краткосрочных (до года) прогнозов по доходам. Среднесрочные прогнозы доходов строятся в рамках среднесрочной макроэкономической модели. Такие прогнозы по природе своей оказываются обычно менее точными, чем краткосрочные.
Относительные величины представляют собой частное о деления одной абсолютной величины на другую. Примером относительных величин являются проценты (исчисляются для характеристики выполнения плана товарооборота, издержек обращения, дохода), удельные веса (для изучения структуры показателей), коэффициенты (исчисляются для характеристики, например, оборачиваемости оборотных средств и т. д.). На относительных показателях, выражающих отношение уровня данного явления к его уровню, взятому в качестве базы сравнения, также основывается индексный метод. Статистика называет несколько видов индексов, которые применяются при анализе: агрегатные, арифметические, гармонические и т. д. Использовав индексные пересчеты и построив
временной ряд , характеризующий, например, выпуск промышленной продукции в стоимостном выражении, можно квалифицированно проанализировать явления динамики.
Если сбор маркетинговой информации необходим только тогда, когда нужно получить данные по конкретному вопросу, можно столкнуться с рядом проблем: результаты предыдущих исследований хранятся в неудобном для пользования месте; незаметны изменения в окружающей среде и действиях конкурентов; проводится несистематический сбор данных; возникают задержки при необходимости проведения исследования по новому направлению; по
ряду временных периодов отсутствуют необходимые данные; маркетинговые планы и программы анализируются неэффективно; действия представляют лишь реакцию, а не предвидение. Поэтому сначала предприятие устанавливает свои цели, определяющие общие направления планирования маркетинга. На эти цели воздействуют различные факторы окружающей среды (экономика, конкуренты, правительство и др.). Планы маркетинга включают контролируемые факторы – выбор целевого рынка, цели маркетинга, тип организации маркетинга, маркетинговую стратегию (товар (услуга), распределение, продвижение, цена) и управление. Когда план маркетинга определен, с помощью маркетинговой информационной системы можно конкретизировать и удовлетворить потребности служб маркетинга в той или иной информации.
7. Пространственное моделирование и визуализация исходных данных или данных, полученных в результате обработки. Построение и использование моделей пространственных объектов, их взаимосвязей и динамики процессов (математикостатистический анализ пространственных размещений и
временных рядов , межслойный корреляционный анализ взаимосвязей разнотипных объектов и т. п.). Построение трехмерных изображений местности, генерация линий, интерполяция высот и пр.
Связанные понятия (продолжение)
Ме́тод моме́нтов — метод оценки неизвестных параметров распределений в математической статистике и эконометрике, основанный на предполагаемых свойствах моментов (Пирсон, 1894 г.). Идея метода заключается в замене истинных соотношений выборочными аналогами.
Проклятие размерности (ПР) — термин, используемый в отношении ряда свойств многомерных пространств и комбинаторных задач. В первую очередь это касается экспоненциального роста необходимых экспериментальных данных в зависимости от размерности пространства при решении задач вероятностно-статистического распознавания образов, машинного обучения, классификации и дискриминантного анализа. Также это касается экспоненциального роста числа вариантов в комбинаторных задачах в зависимости от размера исходных...
Статистический критерий — строгое математическое правило, по которому принимается или отвергается та или иная статистическая гипотеза с известным уровнем значимости. Построение критерия представляет собой выбор подходящей функции от результатов наблюдений (ряда эмпирически полученных значений признака), которая служит для выявления меры расхождения между эмпирическими значениями и гипотетическими.
Гауссовский процесс назван так в честь Карла Фридриха Гаусса, поскольку в его основе лежит понятие гауссовского распределения (нормального распределения). Гауссовский процесс может рассматриваться как бесконечномерное обобщение многомерных нормальных распределений. Эти процессы применяются в статистическом моделировании; в частности используются свойства нормальности. Например, если случайный процесс моделируется как гауссовский, то распределения различных производных величин, такие как среднее значение...
Логистическая регрессия или логит-регрессия (англ. logit model) — это статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём подгонки данных к логистической кривой.
Задача классифика́ции — задача, в которой имеется множество объектов (ситуаций), разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется выборкой. Классовая принадлежность остальных объектов неизвестна. Требуется построить алгоритм, способный классифицировать (см. ниже) произвольный объект из исходного множества.
Случа́йный проце́сс (вероятностный процесс, случайная функция, стохастический процесс) в теории вероятностей — семейство случайных величин, индексированных некоторым параметром, чаще всего играющим роль времени или координаты.
Ковариацио́нная ма́трица (или ма́трица ковариа́ций) в теории вероятностей — это матрица, составленная из попарных ковариаций элементов одного или двух случайных векторов.
Независимая переменная — в эксперименте переменная, которая намеренно манипулируется или выбирается экспериментатором с целью выяснить её влияние на зависимую переменную.
Теория оценивания — раздел математической статистики, решающий задачи оценивания непосредственно не наблюдаемых параметров сигналов или объектов наблюдения на основе наблюдаемых данных. Для решения задач оценивания применяется параметрический и непараметрический подход. Параметрический подход используется, когда известна математическая модель...
Ковариа́ция (корреляционный момент, ковариационный момент) — в теории вероятностей и математической статистике мера линейной зависимости двух случайных величин.
В математической статистике
семплирование — обобщенное название методов манипулирования начальной выборкой при известной цели моделирования, которые позволяют выполнить структурно-параметрическую идентификацию наилучшей статистической модели стационарного эргодического случайного процесса.
Состоя́тельная оце́нка в математической статистике — это точечная оценка, сходящаяся по вероятности к оцениваемому параметру.
Генеральная совокупность (от лат. generis — общий, родовой) — совокупность всех объектов (единиц), относительно которых предполагается делать выводы при изучении конкретной задачи.
Функция потерь — функция, которая в теории статистических решений характеризует потери при неправильном принятии решений на основе наблюдаемых данных. Если решается задача оценки параметра сигнала на фоне помех, то функция потерь является мерой расхождения между истинным значением оцениваемого параметра и оценкой параметра.
Статистический вывод (англ. statistical inference), также называемый индуктивной статистикой (англ. inferential statistics, inductive statistics) — обобщение информации из выборки для получения представления о свойствах генеральной совокупности.
Многоме́рное норма́льное распределе́ние (или многоме́рное га́уссовское распределе́ние) в теории вероятностей — это обобщение одномерного нормального распределения. Случайный вектор, имеющий многомерное нормальное распределение, называется гауссовским вектором.
Переобучение (переподгонка, пере- в значении «слишком», англ. overfitting) в машинном обучении и статистике — явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении (на примерах из тестовой выборки).
Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В отличие от t-критерия, позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance).
Кванти́ль в математической статистике — значение, которое заданная случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль называется процентилем или перцентилем (см. ниже).
Целевая функция — вещественная или целочисленная функция нескольких переменных, подлежащая оптимизации (минимизации или максимизации) в целях решения некоторой оптимизационной задачи. Термин используется в математическом программировании, исследовании операций, линейном программировании, теории статистических решений и других областях математики в первую очередь прикладного характера, хотя целью оптимизации может быть и решение собственно математической задачи. Помимо целевой функции в задаче оптимизации...
Пара́метр (от др.-греч. παραμετρέω — «отмеривающий»; где παρά: «рядом», «второстепенный», «вспомогательный», «подчинённый»; и μέτρον: «измерение») — величина, значения которой служат для различения элементов некоторого множества между собой.. Параметр - величина, постоянная в пределах данного явления или задачи, но при переходе к другому явлению или задаче могущая изменить своё значение. Иногда параметрами называют также величины, очень медленно изменяющиеся по сравнению с другими величинами (переменными...
Статистическая теория обучения — это модель для обучения машин на основе статистики и функционального анализа. Статистическая теория обучения имеет дело с задачами нахождения функции предсказывания, основанной на данных. Статистическая теория обучения привела к успешным приложениям в таких областях, как компьютерное зрение, распознавание речи, биоинформатика и бейсбол.
В обучении машин вероятностный классификатор — это классификатор, который способен предсказывать, если на входе заданы наблюдения, распределение вероятностей над множеством классов, а не только вывод наиболее подходящего класса, к которому наблюдения принадлежат. Вероятностные классификаторы обеспечивают классификацию, которая может быть полезна сама по себе или когда классификаторы собираются в ансамбли.
В обучении машин и распознавании образов признак — это индивидуальное измеримое свойство или характеристика наблюдаемого явления. Выбор информативных, отличительных и независимых признаков является критическим шагом для эффективных алгоритмов в распознавании образов, классификации и регрессии. Признаки обычно являются числовыми, но структурные признаки, такие как строки и графы, используются в синтаксическом распознавании образов.
Подробнее: Признак (обучение машин)
Графовая вероятностная модель — это вероятностная модель, в которой в виде графа представлены зависимости между случайными величинами. Вершины графа соответствуют случайным переменным, а рёбра — непосредственным вероятностным взаимосвязям между случайными величинами.
Модель бинарного выбора — применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения — 0 и 1) от совокупности факторов. Построение обычной линейной регрессии для таких переменных теоретически некорректно, так как условное математическое ожидание таких переменных равно вероятности того, что зависимая переменная примет значение 1, а линейная регрессия допускает и отрицательные значения и значения выше 1. Поэтому обычно используются некоторые интегральные функции...
Стационарность или постоянство — свойство процесса не менять свои характеристики со временем. Понятие используется в нескольких разделах науки.
Метод наименьших квадратов (МНК) — математический метод, применяемый для решения различных задач, основанный на минимизации суммы квадратов отклонений некоторых функций от искомых переменных. Он может использоваться для «решения» переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных систем уравнений, для аппроксимации точечных значений некоторой функции. МНК является одним из базовых методов...
Коэффициент Байеса — это байесовская альтернатива проверке статистических гипотез. Байесовское сравнение моделей — это метод выбора моделей на основе коэффициентов Байеса. Обсуждаемые модели являются статистическими моделями. Целью коэффициента Байеса является количественное выражение поддержки модели по сравнению с другой моделью, независимо от того, верны модели или нет. Техническое определение понятия «поддержка» в контексте байесовского вывода дано ниже.
Усло́вное распределе́ние в теории вероятностей — это распределение случайной величины при условии, что другая случайная величина принимает определённое значение.
Аппроксима́ция (от лат. proxima — ближайшая) или приближе́ние — научный метод, состоящий в замене одних объектов другими, в каком-то смысле близкими к исходным, но более простыми.
Оптимизация — в математике, информатике и исследовании операций задача нахождения экстремума (минимума или максимума) целевой функции в некоторой области конечномерного векторного пространства, ограниченной набором линейных и/или нелинейных равенств и/или неравенств.
Линеаризация (от лат. linearis — линейный) — один из методов приближённого представления замкнутых нелинейных систем, при котором исследование нелинейной системы заменяется анализом линейной системы, в некотором смысле эквивалентной исходной. Методы линеаризации имеют ограниченный характер, т. е. эквивалентность исходной нелинейной системы и её линейного приближения сохраняется лишь для ограниченных пространственных или временных масштабов системы, либо для определенных процессов, причём, если система...
Интегрированный временной ряд — нестационарный временной ряд, разности некоторого порядка от которого являются стационарным временным рядом. Такие ряды также называют разностно-стационарными (DS-рядами, Difference Stationary). Примером интегрированного временного ряда является случайное блуждание, часто используемое при моделировании финансовых временных рядов.
Статистика — измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения элементов выборки.
Техники спектральной кластеризации используют спектр (собственные значения) матрицы сходства данных для осуществления понижения размерности перед кластеризацией в пространствах меньших размерностей. Матрица сходства подаётся в качестве входа и состоит из количественных оценок относительной схожести каждой пары точек в данных.
Подробнее: Спектральная кластеризация
Выборка или выборочная совокупность — часть генеральной совокупности элементов, которая охватывается экспериментом (наблюдением, опросом).
В статистике, машинном обучении и теории информации снижение размерности — это преобразование данных, состоящее в уменьшении числа переменных путём получения главных переменных. Преобразование может быть разделено на отбор признаков и выделение признаков.
Подробнее: Снижение размерности
Робастность (англ. robustness, от robust — «крепкий», «сильный», «твёрдый», «устойчивый») — свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивости к помехам. Выбросоустойчивый (робастный) метод — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки.
Байесовская вероятность — это интерпретация понятия вероятности, используемая в байесовской теории. Вероятность определяется как степень уверенности в истинности суждения. Для определения степени уверенности в истинности суждения при получении новой информации в байесовской теории используется теорема Байеса.
Доверительный интервал — термин, используемый в математической статистике при интервальной оценке статистических параметров, более предпочтительной при небольшом объёме выборки, чем точечная. Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью.