Умение работать за компьютером стало таким обыденным навыком, что лишь немногие отдельно упоминают его в резюме. А когда-то «уверенное владение ПК» впечатляло работодателей. Нечто похожее происходит и с наукой о данных: она распространяется всё шире и становится базовой для специалиста. В этой статье поговорим о том, где пригодится умение анализировать данные (спойлер: не только на работе) и о других важных вещах:
о «шуме» и «сигнале» в мире данных;
о когнитивных искажениях;
о корреляции данных и причинно-следственной связи.
А если вы новичок в науке о данных, предлагаем сначала прочитать первую и вторую статьи цикла: там мы объясняем главное про большие данные и работу с ними.
Три домена применения знаний
Данные — это набор фактов и наблюдений, которые можно использовать для анализа, расчетов, планирования и прогнозирования. Базовые умения работать с ними включают такие навыки как очистка, кодирование, форматирование и структурирование. Умение работать с данными на уровне основ важно не только для карьеры, но и для участия в общественной жизни и в личных проектах. Как именно оно может помочь? Рассмотрим на примерах.
Профессиональная деятельность. Мы вынуждены изучать новые навыки для того, чтобы успевать за временем. Ещё 30 лет назад было сложно представить, что компьютерная грамотность станет таким же обязательным навыком почти для любого специалиста, как и умение грамотно писать или считать. Сейчас мы живем в эпоху данных, и умение извлекать из них информацию становится всё более важным: это открывает путь к новым карьерным высотам. Применения данных в бизнесе становятся всё разнообразнее.
Общественная деятельность. Помимо профессиональной реализации, многим людям важно делать также и работу, полезную обществу: волонтерство, активизм, участие в локальных проектах и инициативах. Применения данных в обществе — это любые попытки самостоятельно взять информацию из источников и сделать выводы. Например, проанализировать, сколько объектов культурного наследиях находится в вашем районе и как их число меняется со временем.
Персональные проекты. Один из интересных трендов последних лет — «Quantified self movement»: «изучение данных о самом себе». Адепты движения собирают базы данных о самих себе и анализируют с целью улучшения качества жизни. Также персональным проектом могут быть бизнес или творчество, к которым тоже можно применить data-driven подход.
Существуют и необычные применения данных в личной жизни. Одно из направлений современного искусства — science-art, синтез науки и творчества. Например, в 2020 году ученые из Массачусетского технологического института создали произведение «Мелодия коронавируса»: с каждым из белков COVID-19 они связали определённый музыкальный инструмент, а аминокислотам присвоили по ноте. А потом записали то, что получилось. Но до того, как услышать мелодию, им пришлось провести большую работу с данными об РНК вируса.
Сбор данных, распространение информации, знаний и мудрости связаны с началом больших преобразований в обществе. Сейчас всё болльше людей получают доступ к данным и хотят обладать инструментами для того, чтобы превращать их в мудрость. Каждый домен применения данных важен и может быть мотивацией к изучению науки о данных.
Шум и сигнал
Наука о данных довольно молода, и многие термины она заимствует из других областей знания. Например, понятия «шума» и «сигнала». Каждый потребитель данных похож на радиослушателя: в больших данных больше «шума», то есть информации, которая мешает сконцентрироваться на основной. Информационный шум — это, например, повторяющиеся или нерелевантные данные.
«Сигнал» в науке о данных — это та информация, которую мы ищем. «Шум» — это вся остальная информация, которая зачастую мешает найти искомое.
Чтобы усилить сигнал, качественно отделить сигнал от шума данных и получить нужное, действуйте согласно этим ключевым принципам:
Четко определите свой вопрос. Спросите себя: «Что для меня истинно важно». Так мы усиливаем сигнал данных. Цели исследования бывают разными: большими и маленькими; профессиональными или личными. Главное чётко её зафиксировать и понять, ЧТО будет ответом на вопрос. Но не КАКИМ он будет.
Избавьтесь от помех в голове. Наверняка вы знаете о когнитивных искажениях, которым подвержен каждый человек. Если мы думаем, что уже знаем ответ на вопрос, или хотим, чтобы он выглядел определенным образом, то будем подгонять под него результаты — возможно, неосознанно. Сомневайтесь во всём и не будьте уверены ни в одном результате, пока не перепроверите.
Перепроверяйте. Любой вывод лучше перепроверить, чтобы исключить ошибку выборки или некорректную формулировку условий. Будьте самым большим скептиком для себя и для информации, которую получаете.
Подробнее о когнитивных искажениях
Поговорим ещё немного о фокусах мозга, которые сбивают наш сигнал и заставляют сделать неправильные выводы из собранных данных. Считается, что когнитивных искажений довольно много; некоторые даже носят звучные имена. На Википедии можно скачать постер с «колесом когнитивных искажений» — полным перечнем «багов» нашего мозга. Но вместо того, чтобы учить их наизусть, лучше понять общие принципы их работы. В целом все искажения можно поделить на четыре группы, по четырем основным причинам, вызывающим их.
-
Постоянный поток информации, который создает информационную перегрузку. Люди ежедневно сталкиваются с огромными объемами данных, поступающих из различных источников, которые зачастую противоречат друг другу. Чтобы справиться с этим потоком, мозг стремится упростить сложную информацию, особенно когда она воспринимается с трудом или объемы данных слишком велики.
-
Ограниченное время на принятие решений. Также способствует возникновению когнитивных искажений. В некоторых ситуациях времени на раздумья катастрофически мало, и решение необходимо принять мгновенно. Именно в такие моменты мы наиболее подвержены влиянию когнитивных искажений.
-
Неполнота знаний о мире и его сложность заставляют нас полагаться на стереотипы и прошлый опыт. Вместо того, чтобы искать новую информацию и анализировать ситуацию, мы часто компенсируем недостаток знаний привычными шаблонами мышления и уже имеющимся опытом.
-
Ограниченность ресурсов памяти. Вынуждает мозг выбирать информацию для запоминания, ведь вместить всю он физически не может. Чтобы экономить ресурсы памяти, мозг упрощает информацию, запоминая лишь яркие моменты и игнорируя мелкие детали и нюансы.
Самое знаменитое и «мемное» из когнитивных искажений — феномен Баадера — Майнхоф, или иллюзия частотности. Если после прочтения этой статьи вы повсюду видите упоминания когнитивных искажений, то это именно то, что с вами происходит. Простыми словами: если мы узнали новую информацию и спустя немного времени наткнулись на её упоминание, нам кажется, что мы необычайно часто встречаем такие данные. А упоминаний всего два или, редко, три. Это искажение появляется из-за ограниченного внимания и склонности к стереотипам, которые работают вместе.
Именно из-за того, что когнитивные искажения существуют, важно быть критичными к результатам анализа данных и перепроверять все результаты. Иначе мы рискуем попасть в ловушку искажений и столкнуться с неприятными последствиями:
-
Потеря важного. Отсекается часть информации, которая кажется лишней, хотя на самом деле она полезна.
-
Миражи и галлюцинации. В поисках смысла, который видится правильным, можно «додумать» несуществующие детали и факты.
-
Плохие решения. Если мы действуем слишком быстро, наши первые реакции могут оказаться сомнительными с точки зрения морали либо нерациональными.
-
Неправильные данные. Полагаясь на память как на источник данных мы рискуем получить ошибочные сведения. Поэтому всё, что мы берём из памяти, стоит перепроверить особенно тщательно.
Анализ данных: корреляция
Теперь, когда мы знаем, почему исходные данные и результаты анализа важно перепроверять, поговорим о важном типе взаимосвязи данных — корреляции.
Комментарии к статье
Комментарии: 0