Поговорим о том, как нас обманывают с помощью статистики и фактов и разберёмся, как не попасться на удочку мошенников и псевдоучёных.

20.08.2016 в 12:32

Наденем на себя шкуру лжеца, который собирается применить самые простые и самые действенные приёмы представления вполне безобидных данных таким образом, чтобы выдать желаемое за действительное.

Некорректная выборка.

Допустим, вы хотите узнать, какой процент людей любят читать книги. Самый разумный способ это сделать - опросить определенное количество людей. Первая ошибка, которую можно допустить - использование некорректной выборки.

Скажем, вы хотите провести своё исследование на мировом уровне и поэтому отбираете людей со всего мира. Допустим, у вас есть список всех людей на планете и вы случайно выбираете из него 10 человек, которые отвечают на ваши вопросы. Будет ли ваше исследование нести хоть какой-то смысл? Вряд ли. Главная ошибка состоит в том, что хоть вы и выбирали людей случайно, их количество оказалось слишком мало, чтобы исследование имело хоть какую-то ценность. Очень легко может оказаться, что все 10 человек читают или, наоборот, никто из опрошенных никогда не берёт книг в руки. В таком случае, результатом исследования может быть заключение, что все люди постоянно читают или же что никто из людей не увлекается чтением. Не самое информативное исследование, не так ли?

По статистике, 100% посетителей библиотек читают книги.

Тем не менее, даже если в качестве выборки вы возьмете 10 миллионов человек, это всё равно не будет гарантировать точного результата. Допустим, несколько лет назад вы уже проводили какое-то исследование и опросили как раз 10 миллионов различных ученых со всего света. Корректно ли будет использовать такую выборку? С одной стороны, она действительно масштабна, но с другой стороны, это самая что ни на есть предвзятая выборка. Оценивать, насколько человечество любит чтение по тому, сколько читают ученые - это всё равно что судить, каков процент занимается ручным трудом, опрашивая исключительно сантехников.

Возьмём среднее.

Представьте, что вы хотите устроиться в компанию X и вам интересна средняя зарплата по компании. Отыскав интересующий вас отчёт, вы узнаете, что она составляет 100 000$ в год, но что именно это означает? Может, что именно столько вам будут платить сразу после трудоустройства? Нет. Может, после определённого срока работы в этой компании вы, скорее всего, будете получать эту сумму? Совсем мимо. Так что это означает? На самом деле, с практической точки зрения, совершенно ничего, если в исследовании нет уточнения, о каком среднем идет речь.

Выражение "Средняя Температура по Больнице" несёт ироничный оттенок именно потому, что среднее арифметическое температуры пациентов может сказать о том, что они все здоровы.

Дело в том, что существует три средних значения: среднее арифметическое, медиана и мода. В случае со среднеарифметическим вы складываете все имеющиеся значения и делите сумму на количество слагаемых. Медиана означает, что половина значений лежит ниже данного значения, а половина выше. Мода же просто характеризует самое распространенное значение в наборе.

Теперь давайте разберёмся, почему выражение средней зарплаты через среднее арифметическое лишено всякого смысла. Допустим, в компании работает один генеральный директор с зарплатой в 10 миллионов долларов, 5 менеджеров с зарплатой в 300 000 долларов и 20 рабочих с окладом в 75 000 долларов. Среднее арифметическое получается следующее: (10 000 000 5 x 300 000 20 x 75 000) / (1 5 20) = 500 000 долларов. Несмотря на то, что самая распространенная зарплата (и вероятнее всего, получать вы будете именно ее) равна 75 000, средний оклад по компании составляет 500 000, хотя на деле её не получает никто.

В том случае, если вы действительно хотите оценить ваши финансовые перспективы в компании, разумнее всего искать исследования, где приводится медиана или хотя бы мода, но ни в коем случае не среднее арифметическое для всех зарплат. Да, возможно, эта цифра выглядит внушительно, но приземлённая медиана или мода будет отражать действительность и сможет дать вам реальные ориентиры при выборе места работы.

Крутые графики.

Представьте следующую ситуацию: у вас на руках есть график, отражающий доход романа Абрамовича за последний год, и вы хотите представить доходы своей компании таким образом, чтобы они выглядели значительно привлекательнее, чем прибыль известного миллиардера.

На первый взгляд, задача кажется невыполнимой, но на самом деле всё достаточно просто. Достаточно лишь изменить масштаб вашего графика по оси Y. иначе говоря, если значения по вертикали у графика доходов Абрамовича равны десяткам миллионов долларов, сделайте свои, равными десяткам долларов. Это позволит достичь требуемого эффекта.

Впрочем, есть и более простой способ: уберите шкалу с оси Y совсем. Это позволит вам нарисовать график с настолько взрывным ростом, с каким вы только пожелаете.

Графики - это весело, но зачастую совершенно неинформативно.

Выбираем подходящие исследования.

Как бы фантастически это ни звучало, но с помощью статистики легко доказать, что монетка выпадает решкой в 100% случаев. Кроме того, этого можно добиться даже используя данные независимой лаборатории экспертов (знакомая формулировка. Суть эксперимента будет следующей: пусть в лаборатории подкинут монетку 5 раз. Учитывая, что каждый раз она выпадет орлом, можно будет заключить, что орел выпадает в 100% случаев. В чём подвох? В том, что на самом деле вы нанимаете сразу несколько десятков лабораторий, каждая из которых занимается одним и тем же: подкидывает 5 раз монетку. После этого достаточно лишь выбрать ту лабораторию, которая подкинет монетку так, как вам нужно.

Таким образом, если вам кажется, что в реальной жизни подобные трюки неприменимы, вспомните различные надписи на товарах в стиле "Зубная Паста Стала на 25% Эффективнее, чем Раньше" или "новый порошок удаляет пятна на 30% лучше, чем обычный порошок". При этом обычно имеется примечание "Доказано Независимой Лабораторией". Чувствуете, где собака зарыта?

Трюки с визуализацией.

Представьте, что в компании A сотрудник зарабатывает 100 долларов в день, а в компании б всего 50. В том случае, если вы являетесь владельцем компании а и хотите привлечь новых сотрудников, вы хотите максимально эффективно использовать тот факт, что ваши рабочие зарабатывают в два раза больше, чем сотрудники конкурента. Можно просто построить график, на котором колонка "Зарплата в Компании А" будет просто в 2 раза выше колонки компании б.

Но можно сделать визуализацию ещё более эффектной. Фокус первый: ось Y на графике начинать не с 0, а, например, с 30 долларов. Таким образом, визуально разница получается не в 2 раза, а во все 3, 5. вне всяких сомнений, начать строить можно и с 40 долларов - разница в 6 раз будет выглядеть ещё значительней.

Помимо этого, можно нарисовать мешочки со знаком доллара на них, как олицетворение денег, и представить разницу между зарплатами с помощью них. С одной стороны, компании а соответствует 2 мешочка по 50 долларов, а компании б всего 1. но опять-таки, это недостаточно эффектно. Давайте - ка лучше нарисуем мешок, отражающий зарплату в компании а, в два раза больше, чем соответствующий мешок для компании б.

Трюк состоит в том, что вместо увеличения площади мешка в 2 раза (если мы говорим о двухмерной картинке мешка), мы увеличиваем каждую его сторону в 2 раза. Таким образом, визуально разница получается в 4 раза. Разумеется, если мы захотим сделать трёхмерную версию нашей иллюстрации, разница составит уже 8 раз.

Сложные причинно-следственные связи.

Допустим, школьному психологу поручили изучить зависимость между курением и успеваемостью учащихся. Психолог, изучив соответствующие данные, получает такую ситуацию: среди хорошо учащихся детей никто не курит, в то время как среди неуспевающих курят абсолютно все. Означает ли это, что курение отрицательно влияет на успехи в учебе? Не факт.

Дело в том, что мы не выяснили, что является причиной, а что - следствием. С одной стороны, курение может быть причиной плохой успеваемости учащихся. Но с другой стороны, легко может оказаться, что именно плохая успеваемость толкает учащихся стать курильщиками.

В данном случае мы имеем дело с корреляцией (взаимосвязь двух величин), но корреляция - не есть причинно-следственная связь. Во-первых, не всегда ясно, что является причиной, а что следствием, а во-вторых, корреляция между какими-либо величинами не всегда и вовсе имеет практический смысл.

Погрешности.

Очень важно обращать внимание на погрешности в исследованиях. Представьте, что вы хотите измерить поле, длина которого составляет 100 метров (но вам это неизвестно. Каждый ваш шаг примерно равен 1 метру, но за 100 метров вы вполне можете ошибиться метра на три. Иначе говоря, измеряя поле, вы можете заключить, что его длина равна и 97, и 99, и даже 103 метрам. В данном случае погрешность 3% равна.

Давайте рассмотрим пример, когда халатное отношение к погрешности расчётов исследования может привести к абсурдным результатам. Известный тест по измерению IQ стэнфорда - бине имеет погрешность в результатах измерений, равную 3%.

Теперь представьте, что ребёнок а получил результат в 97 баллов, а ребёнок б - 103. Учитывая, что 100 баллов - это среднее (или "Нормальное"), получается, что результат ребёнка а ниже среднего, а ребёнка б - выше среднего. Тем не менее, если вспомнить, что погрешность измерений составляет 3%, может легко получиться, что на самом деле у ребёнка а результат в 103 балла, а у ребёнка б, наоборот, 97. Поэтому говорить, что ребёнок а умнее б, основываясь на IQ - тесте (что в целом абсурдно), - не самая лучшая идея.

Заключение.

Мы рассмотрели лишь самые распространенные методы манипулирования данными с помощью статистики. Тем не менее, если вам хочется продолжить изучать данную тему, рекомендую книгу "Как Лгать с Помощью Статистики".

Главное - не оставлять знания в теоретической плоскости. В следующий раз, когда вы прочитаете очередное исследование или отчёт (особенно, если речь пойдет о работе, которую проделал президент за последние четыре года), попробуйте подойти к делу более скептически и узнать, о чём именно идёт речь и что именно означают результаты.

⇦

⇨