Каждое новое название грозит заказчику повышением стоимости услуг: статистика, математическая экономика, эконометрика, бизнес-аналитика, наука о данных, машинное обучение… Все перечисленные технологии используют метод наименьших квадратов (классический регрессионный анализ), который мы и будем рассматривать – в самых разных видах. Нас ожидает парная и множественная, линейная и нелинейная регрессия, разное количество входов и выходов модели, учёт качественных и количественных признаков.
Приведённый ознакомительный фрагмент книги Эконометрические оценки. Учебное пособие предоставлен нашим книжным партнёром — компанией ЛитРес.
Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других
4. Распределение
Наша следующая тема — распределение. А точнее, распределение вероятностей. Это понятие из теории вероятностей.
Чтобы всё запутать, у нас есть ещё одно понятие распределения — в экономике. Это касается дистрибуции, когда оптом берут крупную партию товара и развозят по магазинам мелкими партиями. Конечно, это не имеет никакого отношения к распределению в статистике.
Нас будет интересовать статистика, эконометрика, теория вероятности. Здесь распределение — это зависимость, показанная на рис.
Рис. Примеры стандартных распределений
Итак, распределение — это вероятность появления разных значений какой-то случайной величины. На рисунке приведены два примера — равномерное и нормальное распределение. Мы их подробно исследовали на лабораторных работах по статистике.
При использовании программного генератора достаточно указать название распределения и его параметры.
Нормальное распределение имеет один пик. В целом, такая форма кривой называется колоколообразной. То есть она похожа по форме на колокол.
Соответствующее английское название — Probability Distribution. Probability — это вероятность. Distribution — распределение.
Распределение вероятностей — это вероятность появления разных значений случайной величины. Когда мы обрабатываем реальные данные, эту вероятность мы можем найти только приблизительно с помощью оценок. На практике распределение — это частота появления разных значений. Что-то бывает чаще, что-то бывает реже.
Чтобы сгенерировать случайные числа, мы используем программный генератор.
Рис. Запуск генератора
Всё начинается с равномерного распределения. Случайное число от нуля до единицы. Это считается своеобразным стандартом, строительным «кирпичиком» для реализации любого другого распределения.
Рис. Стандартное нормальное распределение
В некоторых случаях мы можем вручную указать тот диапазон значений, который нас интересует. Стандартные параметры — это диапазон значений от нуля до единицы.
Рис. Настройка генератора
Запускаем генератор случайных чисел. В диалоговом окне указываем число переменных, см. рис. Напомним, что переменные в электронных таблицах и во многих других случаях располагаются по столбцам. Это имеет отношение к истории. Традиционно, задолго до появления компьютеров числа записывали в колонку. Внизу столбца подсчитать сумму. Вручную числа удобно складывать столбиком. Соответственно, и в компьютерах используется традиционное расположение данных. Оно интуитивно понятно.
Это касается электронных таблиц, баз данных, обработки данных в Python. И это касается настройки генератора случайных чисел. Количество случайных значений задаётся как количество строк. Количество переменных — это число столбцов.
Далее указываем форму распределения — равномерное.
Параметры равномерного распределения — минимальное и максимальное значения. По умолчанию от нуля до единицы.
Начальное значение генератора: 1234.
Диапазон ячеек для вывода.
Рис. Вставка гистограммы как статистической диаграммы
Чтобы рассмотреть полученное распределение, используем график под названием гистограмма.
Мы рассматриваем пример в Excel.
Выделяем диапазон ячеек. Вызываем вставку гистограммы, см. рис.
В меню Insert — Chart есть две похожие кнопки: Bar Chart и Histogram.
Bar Chart — это простая столбиковая диаграмма, причём для каждого значения входного диапазона строится свой отдельный столбик. В некоторых вариантах перевода эта кнопка обозначена как «Гистограмма». Конечно, это запутывает пользователей. Если построить столбиковую диаграмму по 10000 значений, мы получим 10000 столбиков. Можете попробовать — чтобы больше не «попадаться».
Histogram — это гистограмма, то есть столбиковая диаграмма частот. Частоты считают для сгруппированных данных. Это частота попадания чисел в интервалы (диапазоны значений), см. рис.
Рис. Меню Вставка — Диаграмма
Этот новый инструмент — «Гистограмма как статистическая диаграмма» — работает только в последней версии Excel. Поэтому рекомендуем при возможности обновить версию MS Office.
Построим гистограмму и посмотрим, чем она отличается от других графиков. Всплывающая подсказка сообщает, что этот график позволяет изучить распределение данных, сгруппированных по интервалам значений. В английском варианте интервал группировки называется bin. Буквально слово bin означает «корзина». Иногда его переводят словом «карман». Более грамотно было бы назвать его «интервал группировки данных».
Таким образом, наши данные — от нуля до единицы — сгруппированы по нескольким интервалам. Excel сам автоматически подсчитывает, сколько чисел в какой интервал попадает. Затем строится столбиковый график полученных частот. Так что это особый график со встроенной автоматической обработкой данных.
Рис. Гистограмма с автоматическими настройками
Мы получаем график распределения — «автоматическую гистограмму». В теории все столбики для гистограммы равномерного распределения должны быть одной высоты. Гистограмма по ограниченному набору данных не идеальная. Высота каждого столбика — частота — содержит в себе случайность, небольшую случайную ошибку.
Внизу, в качестве подписи под столбиками указаны те самые интервалы группирования данных. Нижняя граница обозначена круглой скобкой — не включается в расчёты. Верхняя граница — квадратная скобка — включается. Таки образом, число на границе будет относиться к нижнему интервалу. Что, ка и почему здесь происходит — более подробно обсуждается в курсе «Статистика».
Рис. Происхождение слова «Гистограмма»
Само слово «гистограмма» буквально означает «столбиковая диаграмма», то есть «график в виде столбиков». Первая часть — histo — означает «столбик», вторая часть — gram — «график, диаграмма».
Наши столбики изображают частоту появления разных значений случайной величины. Напомним, что частота примерно соответствует вероятности.
Далее нас будет интересовать другой диапазон значений. Для этого мы задаём другие параметры генератора и получаем желаемую форму распределения, см. рис.
Рис. Заданные границы генератора
Рис. Распределение с заданными границами
Демонстрация. Excel
Конец ознакомительного фрагмента.
Приведённый ознакомительный фрагмент книги Эконометрические оценки. Учебное пособие предоставлен нашим книжным партнёром — компанией ЛитРес.
Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других