Голая статистика. Самая интересная книга о самой скучной науке

Чарльз Уилан, 2013

Первая книга по статистике, которую интересно (и полезно) читать. Большинство людей (особенно это касается студентов, хотя после пары по статистике они могут страстно обсуждать свои средние баллы и статистические показатели любимых бейсболистов) считают статистику унылой и бесполезной наукой. Так почему же главный экономист Google называет её «сексуальной»? На самом деле, статистика очень интересна, если рассказывать о ней как Чарли Уилан, и практична, так как отвечает на очень много важных вопросов: • Как Netflix определяет, какие фильмы вам понравятся? • Какое поведение является правильным при решении «Парадокса Монти Холла»? • Как определить, какие привычки и поведение вызывают рак, не ставя эксперименты на людях? • Помогает ли пациентам то, что кто-то молится за них? • Есть ли экономические выгоды от получения ученой степени? • Как определить, какие школы мошенничают с результатами тестов? • Как сравнить двух игроков в бейсбол (баскетбол, футбол, другой игровой вид спорта)? • Как сделать точные выводы обо всем населении страны, опросив несколько тысяч человек? • Как супермаркет может определить беременность лишь по списку покупок (ни одна из которых напрямую на беременность не указывает)? Статистика помогает принимать важные социальные решения, находить скрытые взаимосвязи между явлениями, лучше понимать ситуацию в бизнесе и на рынке. Чарльз Уилан рассказывает о том, как статистика помогает находить ответы на эти и другие вопросы, и делает это с юмором и блестящими наглядными примерами. Для студентов и тех, кто захочет применить полученные знания в работе, в каждой главе есть приложение с основными формулами и графиками, которые можно пропустить, если вы просто хотите узнать больше о статистике и понять её ключевые показатели и идеи. В конце книги есть обзор основных приложений для работы со статистическими данными, который пригодится всем практикам. Для кого эта книга Для студентов, которые не любят и не понимают статистику, но хотят в ней разобраться. Для маркетеров, менеджеров и аналитиков, которые хотят понимать статистические показатели и анализировать данные. Для всех, кому интересно, как устроена статистика.

Оглавление

Из серии: МИФ Бизнес

* * *

Приведённый ознакомительный фрагмент книги Голая статистика. Самая интересная книга о самой скучной науке предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

Глава 2. Описательная статистика. Кто же все-таки лучший бейсболист всех времен и народов?

Давайте подумаем над двумя на первый взгляд не связанными между собой вопросами:

1. Что происходит с экономическим благополучием американского среднего класса?

2. Кого же все-таки считать лучшим бейсболистом всех времен и народов?

Первый вопрос крайне важен и, как правило, ложится в основу президентских кампаний и других социальных движений. Средний класс, если можно так выразиться, — это сердце Америки, поэтому его экономическое благополучие является индикатором общего экономического благосостояния страны. Второй вопрос тривиален (в буквальном смысле этого слова), однако любители бейсбола готовы до бесконечности спорить по этому поводу. Объединяет оба вопроса то, что они позволяют проиллюстрировать сильные и слабые стороны описательной статистики, которая представляет собой числа и вычисления, используемые для обобщения исходных данных.

Если я захочу продемонстрировать вам, что Дерек Джетер является великим игроком в бейсбол, то смогу описать каждый удачно посланный им мяч в каждом матче Высшей бейсбольной лиги, в котором он принимал участие. Это будут исходные данные, и, чтобы упорядочить их, потребуется какое-то время (с учетом того, что Джетер провел семнадцать сезонов в составе New York Yankees и за это время совершил 9868 удачных бросков).

Или я просто могу вам сказать, что к концу сезона 2011 года средний результат Дерека Джетера за всю его карьеру составлял 0,313. Это описательная, или «сводная» статистика.

Однако такой средний показатель — явное упрощение достижений Джетера за семнадцать сезонов игры в Высшей бейсбольной лиге. Да, он весьма элегантен в своей простоте, но не отражает всех нюансов спортивной карьеры Джетера. В распоряжении экспертов по бейсболу есть целый арсенал описательных статистик, которые они считают более ценными, чем данный показатель. Я позвонил Стиву Мойеру, президенту Baseball Info Solutions (фирмы, которая предоставила большой объем исходных данных для спортивной драмы Moneyball[16]), чтобы задать ему два вопроса: 1) каковы самые важные статистические показатели для оценки бейсбольного таланта и 2) кто, по его мнению, величайший бейсболист всех времен и народов? Я познакомлю вас с ответами Стива, когда мы получим больше контекста.

А пока вернемся к менее тривиальному предмету — экономическому благополучию среднего класса. В идеале было бы желательно найти экономический эквивалент среднего показателя (или что-нибудь получше). Нас устроил бы какой-либо простой, но точный показатель того, как за последние годы изменилось экономическое благосостояние типичного американского рабочего. Стали ли люди, которых мы определяем как средний класс, богаче, беднее или в их финансовом положении ничего не изменилось? Подходящий вариант ответа на этот вопрос — который ни в коем случае нельзя рассматривать как «правильный» — рассчитать изменение дохода на душу населения в Соединенных Штатах на протяжении жизни одного поколения (примерно тридцать лет). Доход на душу населения вычисляется путем деления совокупного дохода на численность населения. Согласно этому показателю, средний доход в США повысился с 7787 долларов в 1980 году до 26 487 долларов в 2010-м (последний год, за который правительство располагает соответствующими данными)[17]. Вот так-то! Принимайте поздравления.

Есть, правда, одна проблема. Мой быстрый подсчет технически правилен и совершенно неверен с точки зрения ответа на интересующий нас вопрос. Начнем хотя бы с того, что в приведенных выше цифрах отсутствует поправка на инфляцию. (Величина дохода на душу населения 7787 долларов в 1980 году составляет примерно 19 600 долларов в 2010-м.) Такой корректив внести относительно просто. Более серьезная проблема заключается в том, что средний доход в Америке не равняется доходу среднего американца. Попытаемся расшифровать это утверждение.

Чтобы вычислить величину дохода на душу населения, мы берем весь национальный доход и делим его на численность населения. Однако полученный таким образом показатель абсолютно ничего не говорит нам о том, кто и сколько при этом зарабатывает — хоть в 1980 году, хоть в 2010-м. Как сказали бы участники акции Occupy Wall Street, взрывообразный рост доходов 1 % самых богатых людей Америки способен существенно повысить значение дохода на душу населения, ничего при этом не изменив в карманах остальных 99 % американцев. Иными словами, средний доход может повышаться без помощи среднего класса.

Как и в случае бейсбольной статистики, мне хотелось узнать мнение авторитетного эксперта о том, как нам следовало бы измерять экономическое благосостояние американского среднего класса. Я спросил у двух известных специалистов по трудовым отношениям, в том числе у ведущего экономического советника президента Обамы, какие описательные статистики они использовали бы для оценки экономического благополучия типичного американца. Вы узнаете их ответы после того, как ознакомитесь с кратким обзором описательных статистик и лучше уясните их смысл.

Будь то бейсбол, доход или что-то еще, самая фундаментальная задача при работе с данными — обобщить их огромные массивы. Численность населения Соединенных Штатов составляет примерно 330 миллионов человек. Электронная таблица, в которой указывались бы фамилия и история доходов каждого американца, содержала бы всю информацию, которая могла потребоваться для оценки экономического благосостояния страны, однако эта информация была бы настолько громоздкой, что извлечь из нее хоть какую-то пользу было бы практически невозможно. Ирония судьбы заключается в том, что чем большим количеством данных мы располагаем, тем труднее выделить в них главное. Поэтому мы вынуждены прибегать к упрощениям. Мы выполняем вычисления, которые сводят сложный массив данных к нескольким числам, описывающим эти данные, точно так же как пытаемся оценить разноплановую программу выступления гимнаста на Олимпийских играх одним числом: 9,8 балла.

Плюс состоит в том, что описательные статистики дают нам некое обобщенное и осмысленное представление исходного явления. О чем, собственно, и идет речь в этой главе. Минус же в том, что любое упрощение порождает манипулирование. Описательные статистики можно сравнить с анкетами на сайтах знакомств: технически они точны и тем не менее сильно вводят в заблуждение.

Допустим, сидя на работе, вы от нечего делать бродите по интернету и наталкиваетесь на онлайн-дневник известной светской львицы Ким Кардашьян, в котором она рассказывает о своей «долгой» (целых семьдесят два дня!) супружеской жизни с профессиональным баскетболистом Крисом Хэмфри. И вот в тот самый момент, когда вы добрались до описания седьмого дня их супружеской жизни, в комнату неожиданно заходит ваш босс с двумя огромными папками данных. В одной из папок собрана информация о гарантийных претензиях по каждому из 57 334 лазерных принтеров, которые ваша фирма продала в прошлом году. (По каждому из проданных лазерных принтеров перечисляются все проблемы с качеством, зафиксированные в течение гарантийного периода.) В другой содержится такая же информация по каждому из 994 773 лазерных принтеров, которые продал за тот же период ваш главный конкурент. Босс хотел бы сравнить качество принтеров вашей компании с качеством принтеров конкурента.

К счастью, на компьютере, на котором вы почитывали дневник Кардашьян, установлен пакет основных статистических методов, но с чего в данном случае начать? Ваша интуиция, по-видимому, подсказывает вам правильное решение: первой описательной задачей зачастую становится поиск некоего показателя «середины» совокупности данных, или того, что статистики называют «центральной тенденцией». Что является типичным показателем качества для ваших принтеров по сравнению с принтерами конкурента? Обычно самым фундаментальным показателем «середины» какого-либо распределения считается среднее значение. В данном случае нам нужно определить среднее количество проблем с качеством на каждый проданный принтер для вашей фирмы и фирмы вашего конкурента. Вы могли бы просто подсчитать общее число выявленных проблем с качеством для всех принтеров в течение гарантийного периода, а затем разделить его на общее количество проданных принтеров. (Учтите, что в течение гарантийного периода в одном и том же принтере может возникнуть несколько проблем с качеством.) Эту операцию можно проделать для каждой компании, создав важную описательную статистику: среднее количество проблем с качеством на каждый проданный принтер.

Предположим, выяснилось, что среднее количество проблем с качеством в течение гарантийного периода у принтеров вашего конкурента равно 2,8 на каждый проданный принтер, тогда как соответствующий показатель для вашей фирмы составляет 9,1. Как видите, вывести среднее значение совсем не сложно. Вы просто использовали информацию для миллиона принтеров, проданных двумя разными компаниями, и извлекли из нее суть интересующей вас проблемы: ваши принтеры ломаются слишком часто. Похоже, самое время отправить боссу по электронной почте краткое уведомление с численным подтверждением столь тревожного факта, а затем вернуться к более увлекательному занятию: чтению дневника Ким Кардашьян.

А может, не стоит торопиться? Я ведь не зря выразился довольно туманно, упомянув о какой-то там «середине» распределения. В этом отношении у среднего значения есть определенные проблемы, а именно: оно подвержено существенным искажениям со стороны «отщепенцев», то есть значений, резко отклоняющихся от центра. Чтобы вам было легче уяснить эту концепцию, вообразите десяток парней, сидящих у стойки бара какого-нибудь питейного заведения в Сиэтле, рассчитанного на представителей среднего класса. Каждый из парней зарабатывает по 35 000 долларов в год; стало быть, средний годовой доход этой группы составляет 35 000 долларов. Внезапно в заведение входит Билл Гейтс с говорящим попугаем на плече (вообще-то в данном примере говорящий попугай не играет никакой особой роли; это не более чем деталь, призванная несколько оживить повествование и придать ему определенный колорит) и усаживается на одиннадцатый стул за стойкой бара; при этом средний годовой доход его завсегдатаев резко повышается до 91 миллиона долларов. Очевидно, что первые десять посетителей бара могут лишь мечтать о таком уровне годового дохода (хотя все они, наверное, надеются, что Билл Гейтс расщедрится и угостит их стаканчиком-другим). Если бы я написал, что средний годовой доход посетителей заведения составляет 91 миллион долларов, то данный вывод был бы статистически правильным, однако не имел бы ничего общего с реальным положением вещей. Этот бар отнюдь не относится к числу заведений, где коротают свободное время мультимиллионеры, — здесь обычно отдыхают молодые люди с относительно невысоким уровнем годовых доходов. Просто сегодня им повезло оказаться в компании с Биллом Гейтсом и его говорящим попугаем. Именно высокая чувствительность среднего значения к значениям, резко отклоняющимся от центра, не позволяет нам измерять экономическое благополучие среднего класса с помощью такого показателя, как величина дохода на душу населения. Поскольку в последнее время наблюдается резкий рост доходов в верхней части распределения — глав компаний, управляющих хедж-фондами и выдающихся спортсменов, таких как Дерек Джетер, — величина среднего дохода в США может быть сильно искажена, как в вышеупомянутом баре, где несколько парней с относительно скромными доходами случайно оказались в компании Билла Гейтса.

По этой причине нам приходится пользоваться еще одной статистикой, которая также является отражением «середины» распределения, однако делает это несколько иначе. Речь идет о так называемой медиане. Медиана — это точка, которая делит распределение пополам таким образом, что одна половина наблюдений располагается выше медианы, а другая половина — ниже. (При наличии четного количества наблюдений медиана представляет собой среднюю точку между двумя средними наблюдениями.) Если мы вернемся к примеру с баром, то срединный (медианный) годовой доход для десяти человек, сидевших поначалу за стойкой, равняется 35 000 долларов. Когда в заведении появился — и уселся на одиннадцатый стул — Билл Гейтс с говорящим попугаем, срединный годовой доход для одиннадцати человек по-прежнему составлял 35 000 долларов. Если представить, что посетители бара расселись за его стойкой в порядке возрастания их доходов, то доход посетителя, сидящего на шестом стуле, будет срединным для данной группы людей. Даже если бы в заведение зашел Уоррен Баффет и уселся рядом с Биллом Гейтсом на двенадцатый стул, медиана все равно осталась бы неизменной[18].

В случае распределений без «отщепенцев» срединное (медиана) и среднее значения совпадают. Выше говорилось о гипотетической сводке данных, отражающих качество принтеров конкурирующей фирмы. В частности, я представил эти данные в виде так называемого частотного распределения (гистограммы). Число проблем с качеством на один принтер представлено на горизонтальной оси (внизу); высота каждого вертикального столбца соответствует проценту проданных принтеров, у которых наблюдалось такое число проблем с качеством. Например, у 36 % принтеров конкурента в течение гарантийного периода возникало по две проблемы с качеством. Поскольку это распределение включает все возможные случаи проблем с качеством (в том числе и их отсутствие), сумма всех долей (процентов) должна равняться 1 (или 100 %).

Поскольку такое распределение почти симметрично, среднее и срединное значения довольно близки друг к другу. Распределение слегка скошено вправо, что объясняется малым количеством принтеров, имеющих множественные дефекты. Эти «отщепенцы» слегка смещают среднее значение вправо, однако на медиану это не влияет. Допустим, что перед тем как составить для босса отчет о качестве принтеров, вы принимаете решение вычислить медианы, то есть число проблем с качеством для принтеров, проданных вашей и конкурирующей компанией. Нажав всего несколько клавиш, вы получите результат. Медиана проблем с качеством для принтеров конкурента равняется 2; а для принтеров вашей фирмы — 1.

Что из этого следует? Оказывается, медиана проблем с качеством на каждый принтер вашей фирмы фактически меньше, чем у вашего конкурента. Поскольку супружеская жизнь Ким Кардашьян становится однообразной, а полученный результат вас заинтриговал, вы распечатываете распределение частот проблем с качеством у принтеров, проданных вашей компанией.

Из приведенных выше гистограмм становится ясно, что для вашей компании нехарактерно равномерное распределение проблем с качеством. Напротив, у вас налицо проблема «лимона»[19]: у малого числа ваших принтеров наблюдается большое количество дефектов. Эти «отщепенцы» способствуют наращиванию среднего значения, тогда как медиана остается неизменной. Более важным с производственной точки зрения является то обстоятельство, что вам нет необходимости переоснащать весь производственный процесс; достаточно лишь определить, какое из предприятий компании выпускает некачественную продукцию, и исправить ситуацию[20].

Вычисление среднего и медианы не представляет особых трудностей; самое главное в этом случае — определить, какой именно показатель «середины» более точен в каждой конкретной ситуации (именно этот фактор нередко используется для манипулирования средними показателями). Между тем у медианы имеются весьма полезные «родственники». Как указывалось выше, медиана делит любое распределение пополам. Затем его можно разбить на четверти, или, как их еще называют, квартили. Первый квартиль состоит из нижних 25 % наблюдений; второй из следующих 25 % наблюдений и т. д. Еще один вариант — разделить распределение на децили, каждый из которых заключает в себе 10 % наблюдений. (Если ваш доход находится в верхнем дециле американского распределения доходов, то это означает, что вы зарабатываете больше, чем 90 % ваших коллег-рабочих.) Можно пойти еще дальше и разбить распределение на сотые доли, или процентили. Каждый процентиль представляет 1 % распределения; таким образом, первый процентиль представляет нижний 1 % данного распределения, а 99-й — его верхний 1 %.

Преимущество описательных статистик такого рода заключается в том, что они указывают, где именно располагается то или иное конкретное наблюдение по сравнению с остальными. Например, информация, что ваш ребенок по результатам теста на понимание прочитанного материала получил третий процентиль, должна сказать вам о том, что вы уделяете недостаточно внимания совместному обсуждению книг, прочитанных вашим ребенком. Вам вовсе не обязательно знать подробности самого теста или точное количество вопросов, на которые ваш ребенок ответил правильно. Однако его попадание в определенный процентиль в любом случае говорит о том, насколько успешно ваш ребенок сдал этот тест по сравнению с другими его участниками. Если тест был сравнительно легким, то большинство его участников правильно ответят на подавляющее число вопросов, при этом количество правильных ответов у вашего ребенка все равно будет меньшим, чем у большинства других участников тестирования. Если же тест был очень трудным, то у всех его участников окажется малое число правильных ответов, однако и в этом случае «рейтинг» вашего ребенка будет несколько ниже, чем у остальных.

Конец ознакомительного фрагмента.

Оглавление

Из серии: МИФ Бизнес

* * *

Приведённый ознакомительный фрагмент книги Голая статистика. Самая интересная книга о самой скучной науке предоставлен нашим книжным партнёром — компанией ЛитРес.

Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других

Примечания

16

В российском прокате этот фильм вышел под названием «Человек, который изменил все». Фильм снят по книге Майкла Льюиса о бейсбольной команде «Окленд Атлетикс» и ее генеральном менеджере Билли Бине. На русском языке издана: Льюис М. Moneyball. Как математика изменила самую популярную спортивную лигу в мире. М.: Манн, Иванов и Фербер, 2014. Прим. перев.

17

U.S. Census Bureau, Current Population Survey, Annual Social and Economic Supplements, http://www.census.gov/en.html.

18

После того как в баре оказалось бы двенадцать посетителей, медианой была бы средняя точка между доходом посетителя, сидящего на шестом стуле, и доходом посетителя, сидящего на седьмом стуле. Поскольку доход того и другого составляет 35 000 долларов, медиана равняется 35 000 долларов. Если бы доход одного из них равнялся 35 000, а доход другого — 36 000, то медиана для этой группы в целом равнялась бы 35 500 долларов.

19

«Лимонами» на американском сленге называют устройства с дефектами, которые проявляются уже после покупки. Прим. ред.

20

Вот что удалось выяснить в ходе дальнейшего исследования проблемы. Оказалось, что почти все бракованные принтеры производились на заводе в Кентукки, где рабочие разобрали часть сборочного конвейера, чтобы создать подпольное предприятие по изготовлению виски. Постоянно пьяные рабочие и частично разобранный сборочный конвейер стали причиной резкого ухудшения качества выпускаемых заводом принтеров.

Смотрите также

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я