Связанные понятия
Выборка или выборочная совокупность — часть генеральной совокупности элементов, которая охватывается экспериментом (наблюдением, опросом).
То́чечная оце́нка в математической статистике — это число, оцениваемое на основе наблюдений, предположительно близкое к оцениваемому параметру.
Доверительный интервал — термин, используемый в математической статистике при интервальной оценке статистических параметров, более предпочтительной при небольшом объёме выборки, чем точечная. Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью.
Статистический критерий — строгое математическое правило, по которому принимается или отвергается та или иная статистическая гипотеза с известным уровнем значимости. Построение критерия представляет собой выбор подходящей функции от результатов наблюдений (ряда эмпирически полученных значений признака), которая служит для выявления меры расхождения между эмпирическими значениями и гипотетическими.
Упоминания в литературе
2. Повторные исследования. Данный вид исследований нацелен на получение информации о динамических характеристиках изучаемого явления. Предметной областью повторного исследования может быть описание/объяснение «истории» изучаемого объекта за определенный период времени. Такие исследования называются мониторингом. Мониторинг отличается от разового исследования тем, что дает возможность проследить изменения, происходящие со свойствами объекта во времени. Например, если мы хотим понять динамику протестных настроений в стране, изменение локализации и масштабов протестного движения, нам недостаточно провести разовое исследование. Для решения подобного рода задач нам понадобится мониторинговое исследование16. Особенность мониторингового исследования заключается в том, что оно проводится через определенные промежутки времени на эквивалентных выборках, сделанных из одной
генеральной совокупности . При этом измеряемые свойства объекта могут оставаться неизменными (базовыми), а могут дополняться по мере изменения состояния объекта (дополнительные свойства). В итоге такая серия исследований дает достоверную картину динамики объекта во времени.
В сравнительных исследованиях граница между понятиями «множество» и «несколько» определяется не числом объектов как таковым, а возможностью применять к ним статистические техники. Казалось бы, императивом должен быть принцип «чем больше, тем лучше», но в случае макросоциологического исследования сама
генеральная совокупность объектов – общее число культур, государств, обществ – с необходимостью ограничена[22]. Поэт ому в макросоциологии сложился иной, альтернативный подход к выбору объектов сравнения: анализ нескольких объектов, выделенных по определенным основаниям и изучаемых более подробно. Разница между первым и вторым подходами к анализу обычно артикулируется как противопоставление статистического и сравнительного методов.
Как и у любого метода, здесь существуют и достоинства, и недостатки. К достоинствам следует отнести возможность для участников фокус-группы честно и свободно высказываться по определенной проблеме, достоверность результатов, многообразие направлений, по которым может быть использован данный метод, возможность изучения респондентов. Среди недостатков данного метода – его нерепрезентативность (слишком маленькая группа участников по отношению к
генеральной совокупности в целом) и его относительно высокая стоимость.
1. Мониторинг здоровья населения Вологодской области и условий его охраны и укрепления. Обследование проходило ежегодно в период с 1999 по 2008 г. на базе Института социально-экономического развития территорий РАН (ИСЭРТ РАН) в форме стандартизованного интервью в городах Вологде и Череповце, а также в восьми районах Вологодской области (Бабаевский, Великоустюгский, Вожегодский, Грязовецкий, Кирилловский, Никольский, Тарногский, Шекснинский). Объем ежегодной выборки – 1500 респондентов. Тип выборки: районирование с пропорциональным размещением единиц наблюдения, квотная по полу и возрасту в соответствии с
генеральной совокупностью . Репрезентативность выборки обеспечивалась соблюдением следующих условий: пропорций между городским и сельским населением; пропорций между жителями населенных пунктов различных типов (сельские населенные пункты, малые и средние города); половозрастной структуры взрослого населения области. Величина случайной ошибки выборки составляет 3 % при доверительном интервале 4–5 %. Техническая обработка информации производилась в программах SPSS и Excel.
Достоинства метода: метод позволяет получать более искренние мнения, генерировать лучшие идеи, так как в работе группы принимают участие наиболее активные покупатели, охотно реагирующие на предложения по сравнение с
генеральной совокупностью . Кроме того, метод позволяет изучать покупателей, которые часто не поддаются изучению, не желая принимать участие в анкетировании. Недостатками являются низкая репрезентативность (8 – 12 человек); высокая стоимость проведения «фокус-группы».
Связанные понятия (продолжение)
Статистика — измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения элементов выборки.
Несмещённая оце́нка в математической статистике — это точечная оценка, математическое ожидание которой равно оцениваемому параметру.
Апостерио́рная вероя́тность — условная вероятность случайного события при условии того, что известны апостериорные данные, т.е. полученные после опыта.
Нулевая гипотеза — принимаемое по умолчанию предположение о том, что не существует связи между двумя наблюдаемыми событиями, феноменами. Так, нулевая гипотеза считается верной до того момента, пока нельзя доказать обратное. Опровержение нулевой гипотезы, то есть приход к заключению о том, что связь между двумя событиями, феноменами существует, — главная задача современной науки. Статистика как наука даёт чёткие условия, при наступлении которых нулевая гипотеза может быть отвергнута.
Кванти́ль в математической статистике — значение, которое заданная случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль называется процентилем или перцентилем (см. ниже).
Ме́тод максима́льного правдоподо́бия или метод наибольшего правдоподобия (ММП, ML, MLE — англ. maximum likelihood estimation) в математической статистике — это метод оценивания неизвестного параметра путём максимизации функции правдоподобия. Основан на предположении о том, что вся информация о статистической выборке содержится в функции правдоподобия.
Независимая переменная — в эксперименте переменная, которая намеренно манипулируется или выбирается экспериментатором с целью выяснить её влияние на зависимую переменную.
Сре́днее значе́ние — числовая характеристика множества чисел или функций (в математике); — некоторое число, заключённое между наименьшим и наибольшим из их значений.
Состоя́тельная оце́нка в математической статистике — это точечная оценка, сходящаяся по вероятности к оцениваемому параметру.
Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В отличие от t-критерия, позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance).
Статистический вывод (англ. statistical inference), также называемый индуктивной статистикой (англ. inferential statistics, inductive statistics) — обобщение информации из выборки для получения представления о свойствах генеральной совокупности.
Выброс (англ. outlier), промах — в статистике результат измерения, выделяющийся из общей выборки.
Ковариа́ция (корреляционный момент, ковариационный момент) — в теории вероятностей и математической статистике мера линейной зависимости двух случайных величин.
Временно́й ряд (или ряд динамики) — собранный в разные моменты времени статистический материал о значении каких-либо параметров (в простейшем случае одного) исследуемого процесса. Каждая единица статистического материала называется измерением или отсчётом, также допустимо называть его уровнем на указанный с ним момент времени. Во временном ряде для каждого отсчёта должно быть указано время измерения или номер измерения по порядку. Временной ряд существенно отличается от простой выборки данных, так...
Тест отноше́ния правдоподо́бия (англ. likelihood ratio test, LR) — статистический тест, используемый для проверки ограничений на параметры статистических моделей, оценённых на основе выборочных данных. Является одним из трёх базовых тестов проверки ограничений наряду с тестом множителей Лагранжа и тестом Вальда.
Автокорреляция — статистическая взаимосвязь между последовательностями величин одного ряда, взятыми со сдвигом, например, для случайного процесса — со сдвигом по времени.
Коэффициент Байеса — это байесовская альтернатива проверке статистических гипотез. Байесовское сравнение моделей — это метод выбора моделей на основе коэффициентов Байеса. Обсуждаемые модели являются статистическими моделями. Целью коэффициента Байеса является количественное выражение поддержки модели по сравнению с другой моделью, независимо от того, верны модели или нет. Техническое определение понятия «поддержка» в контексте байесовского вывода дано ниже.
Робастность (англ. robustness, от robust — «крепкий», «сильный», «твёрдый», «устойчивый») — свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивости к помехам. Выбросоустойчивый (робастный) метод — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки.
В математической статистике
семплирование — обобщенное название методов манипулирования начальной выборкой при известной цели моделирования, которые позволяют выполнить структурно-параметрическую идентификацию наилучшей статистической модели стационарного эргодического случайного процесса.
Функция потерь — функция, которая в теории статистических решений характеризует потери при неправильном принятии решений на основе наблюдаемых данных. Если решается задача оценки параметра сигнала на фоне помех, то функция потерь является мерой расхождения между истинным значением оцениваемого параметра и оценкой параметра.
Логистическая регрессия или логит-регрессия (англ. logit model) — это статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём подгонки данных к логистической кривой.
Ме́тод моме́нтов — метод оценки неизвестных параметров распределений в математической статистике и эконометрике, основанный на предполагаемых свойствах моментов (Пирсон, 1894 г.). Идея метода заключается в замене истинных соотношений выборочными аналогами.
Усло́вное распределе́ние в теории вероятностей — это распределение случайной величины при условии, что другая случайная величина принимает определённое значение.
Ковариацио́нная ма́трица (или ма́трица ковариа́ций) в теории вероятностей — это матрица, составленная из попарных ковариаций элементов одного или двух случайных векторов.
Байесовская вероятность — это интерпретация понятия вероятности, используемая в байесовской теории. Вероятность определяется как степень уверенности в истинности суждения. Для определения степени уверенности в истинности суждения при получении новой информации в байесовской теории используется теорема Байеса.
Гетероскедастичность (англ. heteroscedasticity) — понятие, используемое в прикладной статистике (чаще всего — в эконометрике), означающее неоднородность наблюдений, выражающуюся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели. Гетероскедастичность противоположна гомоскедастичности, означающей однородность наблюдений, то есть постоянство дисперсии случайных ошибок модели.
Информационный критерий Акаике (AIC) — критерий, применяющийся исключительно для выбора из нескольких статистических моделей. Разработан в 1971 как «an information criterion» («(некий) информационный критерий») Хироцугу Акаике и предложен им в статье 1974 года.
Информационный критерий — применяемая в эконометрике (статистике) мера относительного качества эконометрических (статистических) моделей, учитывающая степень «подгонки» модели под данные с корректировкой (штрафом) на используемое количество оцениваемых параметров. То есть критерии основаны на неком компромиссе между точностью и сложностью модели. Критерии различаются тем, как они обеспечивают этот баланс.
Сре́днее арифмети́ческое (в математике и статистике) множества чисел — число, равное сумме всех чисел множества, делённой на их количество. Является одной из наиболее распространённых мер центральной тенденции.
Метод наименьших квадратов (МНК) — математический метод, применяемый для решения различных задач, основанный на минимизации суммы квадратов отклонений некоторых функций от искомых переменных. Он может использоваться для «решения» переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных систем уравнений, для аппроксимации точечных значений некоторой функции. МНК является одним из базовых методов...
Ординалистская (порядковая) теория полезности основывается на том, что предпочтения индивидуума относительно предлагаемых к выбору альтернатив не могут измеряться количественно, а только сравниваться, то есть одна альтернатива хуже или лучше другой. Альтернативой данной теории является кардиналистская (количественная) теория полезности.
В теории вероятностей два случайных события называются независимыми, если наступление одного из них не изменяет вероятность наступления другого. Аналогично, две случайные величины называют независимыми, если известное значение одной из них не дает информации о другой.
Подробнее: Независимость (теория вероятностей)
Модель бинарного выбора — применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения — 0 и 1) от совокупности факторов. Построение обычной линейной регрессии для таких переменных теоретически некорректно, так как условное математическое ожидание таких переменных равно вероятности того, что зависимая переменная примет значение 1, а линейная регрессия допускает и отрицательные значения и значения выше 1. Поэтому обычно используются некоторые интегральные функции...
Фа́кторный анализ — многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки.
Частотное распределение — метод статистического описания данных (измеренных значений, характерных значений). Математически распределение частот является функцией, которая в первую очередь определяет для каждого показателя идеальное значение, так как эта величина обычно уже измерена. Такое распределение можно представить в виде таблицы или графика, моделируя функциональные уравнения. В описательной статистике частота распределения имеет ряд математических функций, которые используются для выравнивания...
Многоме́рное норма́льное распределе́ние (или многоме́рное га́уссовское распределе́ние) в теории вероятностей — это обобщение одномерного нормального распределения. Случайный вектор, имеющий многомерное нормальное распределение, называется гауссовским вектором.
Качественная, дискретная, или категорийная переменная — это переменная, которая может принимать одно из ограниченного и, обычно, фиксированного числа возможных значений, назначая каждую единицу наблюдения определённой группе или номинальной категории на основе некоторого качественного свойства. В информатике и некоторых других ветвях математики качественные переменные называются перечислениями или перечисляемыми типами. Обычно (хотя не в этой статье), каждое из возможных значений качественной переменной...
Задача классифика́ции — задача, в которой имеется множество объектов (ситуаций), разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется выборкой. Классовая принадлежность остальных объектов неизвестна. Требуется построить алгоритм, способный классифицировать (см. ниже) произвольный объект из исходного множества.
Переобучение (переподгонка, пере- в значении «слишком», англ. overfitting) в машинном обучении и статистике — явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении (на примерах из тестовой выборки).
Фу́нкция распределе́ния в теории вероятностей — функция, характеризующая распределение случайной величины или случайного вектора; вероятность того, что случайная величина X примет значение, меньшее или равное х, где х — произвольное действительное число. При соблюдении известных условий (см. ниже) полностью определяет случайную величину.
Т-критерий Вилкоксона — (также используются названия Т-критерий Уилкоксона, критерий Вилкоксона, критерий знаковых рангов Уилкоксона, критерий суммы рангов Уилкоксона) непараметрический статистический тест (критерий), используемый для проверки различий между двумя выборками парных или независимых измерений по уровню какого-либо количественного признака, измеренного в непрерывной или в порядковой шкале.. Впервые предложен Фрэнком Уилкоксоном. Другие названия — W-критерий Вилкоксона, критерий знаковых...
Подробнее: Критерий Уилкоксона
Метод инструментальных переменных (ИП, IV — Instrumental Variables) — метод оценки параметров регрессионных моделей, основанный на использовании дополнительных, не участвующих в модели, так называемых инструментальных переменных. Метод применяется в случае, когда факторы регрессионной модели не удовлетворяют условию экзогенности, то есть являются зависимыми со случайными ошибками. В этом случае, оценки метода наименьших квадратов являются смещенными и несостоятельными.
Упоминания в литературе (продолжение)
Приведенная дефиниция приемлема, видимо, в отношении управления во всех его трех сферах (А. И. Берг98). Социальное управление вычленяется из
генеральной совокупности по ясно различаемому признаку – сфере функционирования. Следует, однако, определиться с соотношением социального и государственного управления. Государственное управление – это составная часть социального управления, вычлененная из генеральной совокупности по двум следующим сопряженным между собой признакам: а) в зависимости от субъекта, осуществляющего управляющие воздействия и б) от применяемых им методов внешних управляющих воздействий99. Понятие государственного управления в рамках традиционных правовых наук не совпадает с одноименным понятием в рамках управления социальными системами, это несовпадение порождено не только различием в методах исследования, но и несовпадением при совпадающем объекте – предмета исследования.
Вся совокупность единиц, из которых производится отбор, называется
генеральной совокупностью . Часть единиц генеральной совокупности, отобранная в случайном порядке, составляет выборочную совокупность. Характеристиками генеральной и выборочной совокупности служат доля и средняя величина, а также дисперсия и среднее квадратическое отклонение. Средняя величина является характеристикой количественных признаков, а дол я – характеристикой альтернативных признаков.
Математическая статистика – наука о математических методах систематизации и использования статистических данных для решения научных и практических задач. Математическая статистика тесно примыкает к теории вероятностей и базируется на ее понятиях. Однако главным в математической статистике является не распределение случайных величин, а анализ статистических данных и выяснение, какому распределению они соответствуют. Большая статистическая совокупность, из которой отбирается часть объектов для исследования, называется
генеральной совокупностью , а множество объектов, собранных из нее, – выборочной совокупностью, или выборкой. Статистическое распределение – это совокупность вариант и соответствующих им частот (или относительных частот).
2) оценки
генеральной совокупности людей из какой-то особой популяции, которые ведут себя каким-то определенным образом;
Основное преимущество методик с использованием официальной статистики – работа с
генеральной совокупностью .