Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных
● DD-тип 8: неверно определяемые данные
Определения могут быть противоречивыми или со временем меняться, чтобы лучше соответствовать своему предмету и его назначению. Это может вызвать проблемы в случае с экономическими (и другими) временными рядами, когда данные, лежащие в их основе, могут перестать собираться. В более общем смысле, если люди по-разному определяют понятия, они вполне могут сделать и разные выводы. Одним из примеров является уровень преступности в Великобритании, который оценивается по полицейским записям и по опросам потерпевших, где определения преступления неодинаковы.
● DD-тип 9: обобщение данных
Обобщение данных по определению означает отбрасывание деталей. Если вы сообщаете только среднее значение, то не даете никакой информации о диапазоне данных или об асимметрии распределения. Среднее значение может скрыть тот факт, что некоторые значения могут очень сильно от него отличаться. В то же время обобщение может скрывать и тот факт, что все значения идентичны.
● DD-тип 10: ошибки измерения и неопределенность
Ошибки измерения приводят к неопределенности истинного значения. Это легче всего понять, представив ситуацию, в которой диапазон погрешности измерения равен или больше, чем диапазон базовых истинных значений, – в этом случае наблюдаемое значение может сильно отличаться от истинного. Округление и нагромождение, верхний и нижний пределы избыточности и прочие эффекты вносят неопределенность в данные, скрывая их точные значения. Другой причиной неопределенности и неточности является связь данных, при которой идентифицирующая информация может храниться в разных формах, что приводит к ошибкам сопоставления.
● DD-тип 11: искажения обратной связи и уловки
Этот тип данных возникает, когда собранные значения начинают влиять на исходный процесс – как в случае раздувания оценок и пузырей на рынках акций. Это означает, что данные искаженно представляют базовую реальность и, возможно, с течением времени все больше отдаляются от нее.
● DD-тип 12: информационная асимметрия
Информационная асимметрия возникает, когда разные наборы данных хранятся у разных людей, и когда кто-то знает то, чего не знают другие. В качестве примера можно привести инсайдерскую торговлю, рынок «лимонов» Акерлофа и международную напряженность, вызванную ограниченной информацией о возможностях других государств.
● DD-тип 13: намеренно затемненные данные
Эти случаи предумышленного отбора определенных фактов являются особенно проблематичными. Они наблюдаются, когда люди намеренно скрывают данные или манипулируют ими с целью обмана или введения в заблуждение. Мы видели, что такое мошенничество может возникать в очень разных контекстах и отношениях.
● DD-тип 14: фальшивые и синтетические данные
Когда данные создаются искусственно, они могут вводить в заблуждение, как и в случае мошенничества. Однако существует метод симуляции, когда генерируются искусственные наборы данных, которые могли возникнуть в результате изучаемого процесса, а также другие методы, использующие репликацию данных, например методы бутстреппинга, бустинга и сглаживания. Современные статистические инструменты широко используют такие идеи, но некачественная репликация может привести к ошибочным выводам.
● DD-тип 15: экстраполяция за пределы ваших данных
Наборы данных всегда конечны. Это означает, что они имеют максимальное и минимальное значения, за пределами которых лежит неизвестность. Заявление о возможных значениях выше максимума или ниже минимума в наборе данных требует выдвижения предположений или получения информации из какого-то другого источника. Опасность, которую несет этот тип темных данных, мы рассмотрели на примере катастрофы шаттла Challenger, запуск которого произошел при температуре окружающей среды ниже диапазона температур предыдущих запусков.
Подведение итоговЯ не погрешу против истины, если скажу, что в последние столетия бурному развитию цивилизации сопутствует прогресс науки о данных. В конце концов, слово «данные» почти синонимично слову «факты», а именно на фактах базируется технический прогресс и просвещение, которые за последние века привели к росту экономики и развитию общества.
Если основой современного промышленного развития является ископаемое топливо, то данные сегодня – это «новая нефть». Так же, как это было некогда с нефтью, те, кто может эффективно контролировать данные и манипулировать ими, делают сегодня огромные состояния. Но еще более важным в этой аналогии является то, что подобно нефти данные необходимо очищать и предварительно обрабатывать, чтобы сделать их полезными. Борьба с загрязнением информации темными данными является примером такой очистки.
Однако аналогия с нефтью имеет и свои слабые стороны. В отличие от цены на нефть, одинаковой для всех, ценность данных зависит от того, что конкретно вы хотите знать. Более того, в отличие от нефти, данные могут быть проданы или переданы без смены собственника – по своей природе они могут копироваться и воспроизводиться неограниченное число раз. И, конечно, данные могут быть темными: то, чего у вас нет, может существенно ограничить то, что у вас есть. Помимо прочего, с данными связаны такие вопросы, как неприкосновенность частной жизни и конфиденциальность, которые просто не имеют аналогий в мире нефти. Данные представляют собой нечто большее, чем просто новый товар. Именно поэтому правительства прилагают столько усилий для решения этических вопросов, связанных с управлением данными.
В значительной степени революция данных была связана с данными наблюдений. В главе 2 мы познакомились с этим видом данных, описывающих естественную эволюцию процессов без явного вмешательства человека, и, как было показано, данные наблюдений особенно уязвимы для рисков, которые несут темные данные. Данные наблюдений контрастируют с экспериментальными данными, подразумевающими, что параметры воздействующих факторов контролируются. Кроме того, огромные объемы данных наблюдений генерируются автоматическими системами сбора информации и являются побочным эффектом различных административных операций.
Классическим примером того, какие идеи можно извлечь из данных нового типа, служит проект «Миллиард цен». Альберто Кавалло и Роберто Ригобон из Школы менеджмента Слоуна извлекли огромное количество онлайн-цен из интернета и использовали их для построения индексов инфляции. На основе этого открытого источника данных они показали, что уровень цен и динамика инфляции в Бразилии, Чили, Колумбии и Венесуэле примерно совпадают. Кроме того, они обнаружили «в Аргентине большое необъяснимое расхождение между уровнями инфляции по онлайн-ценам и по официальной статистике» [166]. Простого объяснения этого несоответствия не было. Кавалло заключил: «Результаты для Аргентины подтверждают подозрение, что правительство манипулирует официальной статистикой по инфляции. Это единственная страна, где онлайн-инфляция с течением времени значительно отклоняется от официальных оценок».