Блог

Применение данных и корреляция

26 ноября 2024
7 мин 466
image
image
Виктория Денис арт-директор
Применение данных и корреляция

Умение работать за компьютером стало таким обыденным навыком, что лишь немногие отдельно упоминают его в резюме. А когда-то «уверенное владение ПК» впечатляло работодателей. Нечто похожее происходит и с наукой о данных: она распространяется всё шире и становится базовой для специалиста. В этой статье поговорим о том, где пригодится умение анализировать данные (спойлер: не только на работе) и о других важных вещах:

  • о «шуме» и «сигнале» в мире данных;

  • о когнитивных искажениях;

  • о корреляции данных и причинно-следственной связи.

А если вы новичок в науке о данных, предлагаем сначала прочитать первую и вторую статьи цикла: там мы объясняем главное про большие данные и работу с ними.

Три домена применения знаний

Данные — это набор фактов и наблюдений, которые можно использовать для анализа, расчетов, планирования и прогнозирования. Базовые умения работать с ними включают такие навыки как очистка, кодирование, форматирование и структурирование. Умение работать с данными на уровне основ важно не только для карьеры, но и для участия в общественной жизни и в личных проектах. Как именно оно может помочь? Рассмотрим на примерах.

Профессиональная деятельность. Мы вынуждены изучать новые навыки для того, чтобы успевать за временем. Ещё 30 лет назад было сложно представить, что компьютерная грамотность станет таким же обязательным навыком почти для любого специалиста, как и умение грамотно писать или считать. Сейчас мы живем в эпоху данных, и умение извлекать из них информацию становится всё более важным: это открывает путь к новым карьерным высотам. Применения данных в бизнесе становятся всё разнообразнее.

Общественная деятельность. Помимо профессиональной реализации, многим людям важно делать также и работу, полезную обществу: волонтерство, активизм, участие в локальных проектах и инициативах. Применения данных в обществе — это любые попытки самостоятельно взять информацию из источников и сделать выводы. Например, проанализировать, сколько объектов культурного наследиях находится в вашем районе и как их число меняется со временем.

Персональные проекты. Один из интересных трендов последних лет — «Quantified self movement»: «изучение данных о самом себе». Адепты движения собирают базы данных о самих себе и анализируют с целью улучшения качества жизни. Также персональным проектом могут быть бизнес или творчество, к которым тоже можно применить data-driven подход.

Существуют и необычные применения данных в личной жизни. Одно из направлений современного искусства — science-art, синтез науки и творчества. Например, в 2020 году ученые из Массачусетского технологического института создали произведение «Мелодия коронавируса»: с каждым из белков COVID-19 они связали определённый музыкальный инструмент, а аминокислотам присвоили по ноте. А потом записали то, что получилось. Но до того, как услышать мелодию, им пришлось провести большую работу с данными об РНК вируса.

Сбор данных, распространение информации, знаний и мудрости связаны с началом больших преобразований в обществе. Сейчас всё болльше людей получают доступ к данным и хотят обладать инструментами для того, чтобы превращать их в мудрость. Каждый домен применения данных важен и может быть мотивацией к изучению науки о данных.

Шум и сигнал

Наука о данных довольно молода, и многие термины она заимствует из других областей знания. Например, понятия «шума» и «сигнала». Каждый потребитель данных похож на радиослушателя: в больших данных больше «шума», то есть информации, которая мешает сконцентрироваться на основной. Информационный шум — это, например, повторяющиеся или нерелевантные данные.

«Сигнал» в науке о данных — это та информация, которую мы ищем. «Шум» — это вся остальная информация, которая зачастую мешает найти искомое.

Чтобы усилить сигнал, качественно отделить сигнал от шума данных и получить нужное, действуйте согласно этим ключевым принципам:

Четко определите свой вопрос. Спросите себя: «Что для меня истинно важно». Так мы усиливаем сигнал данных. Цели исследования бывают разными: большими и маленькими; профессиональными или личными. Главное чётко её зафиксировать и понять, ЧТО будет ответом на вопрос. Но не КАКИМ он будет.

Избавьтесь от помех в голове. Наверняка вы знаете о когнитивных искажениях, которым подвержен каждый человек. Если мы думаем, что уже знаем ответ на вопрос, или хотим, чтобы он выглядел определенным образом, то будем подгонять под него результаты — возможно, неосознанно. Сомневайтесь во всём и не будьте уверены ни в одном результате, пока не перепроверите.

Перепроверяйте. Любой вывод лучше перепроверить, чтобы исключить ошибку выборки или некорректную формулировку условий. Будьте самым большим скептиком для себя и для информации, которую получаете.

Подробнее о когнитивных искажениях

Поговорим ещё немного о фокусах мозга, которые сбивают наш сигнал и заставляют сделать неправильные выводы из собранных данных. Считается, что когнитивных искажений довольно много; некоторые даже носят звучные имена. На Википедии можно скачать постер с «колесом когнитивных искажений» — полным перечнем «багов» нашего мозга. Но вместо того, чтобы учить их наизусть, лучше понять общие принципы их работы. В целом все искажения можно поделить на четыре группы, по четырем основным причинам, вызывающим их.

  1. Постоянный поток информации, который создает информационную перегрузку. Люди ежедневно сталкиваются с огромными объемами данных, поступающих из различных источников, которые зачастую противоречат друг другу. Чтобы справиться с этим потоком, мозг стремится упростить сложную информацию, особенно когда она воспринимается с трудом или объемы данных слишком велики.
  2. Ограниченное время на принятие решений. Также способствует возникновению когнитивных искажений. В некоторых ситуациях времени на раздумья катастрофически мало, и решение необходимо принять мгновенно. Именно в такие моменты мы наиболее подвержены влиянию когнитивных искажений.
  3. Неполнота знаний о мире и его сложность заставляют нас полагаться на стереотипы и прошлый опыт. Вместо того, чтобы искать новую информацию и анализировать ситуацию, мы часто компенсируем недостаток знаний привычными шаблонами мышления и уже имеющимся опытом.
  4. Ограниченность ресурсов памяти. Вынуждает мозг выбирать информацию для запоминания, ведь вместить всю он физически не может. Чтобы экономить ресурсы памяти, мозг упрощает информацию, запоминая лишь яркие моменты и игнорируя мелкие детали и нюансы.

Самое знаменитое и «мемное» из когнитивных искажений — феномен Баадера — Майнхоф, или иллюзия частотности. Если после прочтения этой статьи вы повсюду видите упоминания когнитивных искажений, то это именно то, что с вами происходит. Простыми словами: если мы узнали новую информацию и спустя немного времени наткнулись на её упоминание, нам кажется, что мы необычайно часто встречаем такие данные. А упоминаний всего два или, редко, три. Это искажение появляется из-за ограниченного внимания и склонности к стереотипам, которые работают вместе.

Именно из-за того, что когнитивные искажения существуют, важно быть критичными к результатам анализа данных и перепроверять все результаты. Иначе мы рискуем попасть в ловушку искажений и столкнуться с неприятными последствиями:

  • Потеря важного. Отсекается часть информации, которая кажется лишней, хотя на самом деле она полезна.
  • Миражи и галлюцинации. В поисках смысла, который видится правильным, можно «додумать» несуществующие детали и факты.
  • Плохие решения. Если мы действуем слишком быстро, наши первые реакции могут оказаться сомнительными с точки зрения морали либо нерациональными.
  • Неправильные данные. Полагаясь на память как на источник данных мы рискуем получить ошибочные сведения. Поэтому всё, что мы берём из памяти, стоит перепроверить особенно тщательно.

Анализ данных: корреляция

Теперь, когда мы знаем, почему исходные данные и результаты анализа важно перепроверять, поговорим о важном типе взаимосвязи данных — корреляции.

Так корреляция может выглядеть на графике.

Корреляция в науке о данных — это статистическая взаимосвязь между двумя или более переменными. Корреляционный анализ описывает, как изменение одной переменной влияет на изменение другой. Корреляция может быть:

  • положительной — при увеличении одной переменной увеличивается и другая;
  • отрицательной — при увеличении одной переменной другая уменьшается;
  • или вообще отсутствовать — переменные не связаны.

Представьте, что вы изучаете данные о пользователях сотовой связи. Вы замечаете, что чем больше времени человек проводит в интернете, тем больше тратит денег на мобильный интернет. Это пример корреляции.

Коэффициент корреляции — это количественная мера силы и направления корреляции между двумя переменными. Он представляет собой числовое значение, которое варьируется от −1 до +1.

  • +1 указывает на идеальную положительную корреляцию — при увеличении одной переменной, другая увеличивается пропорционально.
  • -1 указывает на идеальную отрицательную корреляцию — при увеличении одной переменной, другая уменьшается пропорционально.
  • При значении коэффициентов корреляции «0» говорят о её отсутствии.

Применение корреляционного анализа

  • Идентификация взаимосвязей между признаками: Понимание того, какие признаки в данных связаны друг с другом, помогает строить более точные модели машинного обучения.
  • Отбор признаков. С помощью коэффициента корреляции можно определить, какие признаки наиболее важны для прогнозирования целевой переменной.
  • Интерпретации моделей. Анализ корреляции между признаками и целевой переменной помогает понять, как модель работает и какие факторы влияют на ее прогнозы.
  • Выявление закономерностей в данных. Корреляция может указывать на скрытые зависимости и взаимосвязи между переменными, которые могут быть использованы для получения новых знаний о данных.

Важно помнить, что корреляция не означает причинно-следственную связь. Две переменные могут быть коррелированы, но это не обязательно означает, что одна из них является причиной изменения другой.

Причинно-следственная связь означает, что событие А — причина события Б.

Корреляция в статистике означает, что, А и Б нередко наблюдаются одновременно («если я наблюдаю А, то рядом будет и Б»).

Пример: на территориях, где слабый сигнал сотовой связи, люди меньше пользуются мобильным интернетом — это причинно-следственная связь.

Корреляция, пример из жизни: при движении с юга на север области снижается объем мобильного трафика, израсходованного жителями. Мы не можем сделать выводы о качестве сигнала сотовой связи или других причинах этого снижения на основе одной передачи данных потребления, но можем отметить статистическую взаимосвязь.

Саммари

  1. Базовые умения работать с данными включают такие навыки как очистка, кодирование, форматирование и структурирование.
  2. Эти умения могут понадобиться как в профессиональной сфере (работа, карьера), так и в общественной (активизм, участие в экологических проектах, политической жизни, городском благоустройстве) и в личных проектах (наблюдение за разными сферами своей жизни; частный бизнес).
  3. В науке о данных есть понятия «шума» и «сигнала», где «сигнал» — важная информация, а информационный шум, простыми словами — это то, что мешает на ней сконцентрироваться. Чтобы узнать важное, нужно уметь правильно формулировать вопрос, не поддаваться когнитивным искажениям и перепроверять результаты.
  4. Когнитивные искажения — одна из причин того, что мы получаем неправильный сигнал, то есть искаженные данные и выводы. Учёные насчитывают десятки когнитивных искажений, но причины общие для всех: информационные перегрузки, малое время на раздумья, неполнота знаний и ограниченность памяти.
  5. Применение данных и корреляция тесно связаны. Корреляция — это, простыми словами, связь между двумя или более переменными; метод обработки информации. Она описывает, как изменение одной переменной влияет на изменение другой. Важно помнить, что корреляция не означает причинно-следственную связь.

Подготовлено по материалам сайта dataliteracy.ru.

Расскажите
о вашем проекте