О том, что такое «шум» и «сигнал» в науке о данных, мы подробно писали в одной из статей нашего блога.
Развитие человека неотделимо от развития науки о данных. Древние люди систематизировали информацию с помощью черточек и узелков, а теперь у нас есть электронные таблицы. Впечатляющий путь! Но и таблицы — уже не вершина эволюции, ведь мы вступаем в эру описательной статистики и визуализации. В этой статье поговорим:
о визуализационных решениях;
о коммуникации при помощи данных.
А если вы только знакомитесь с наукой о данных, предлагаем сначала прочитать первую статью цикла: она посвящена основам и базовым определениям.
Наше взаимодействие с данными, то есть восприятие в информационном смысле, строится в основном с помощью двух чувств: зрения и слуха. Каждый день в нашем поле зрения появляются тысячи сигналов, а наша система восприятия стремится распознать закономерности, на которые нужно обратить наше осознанное внимание.
О том, что такое «шум» и «сигнал» в науке о данных, мы подробно писали в одной из статей нашего блога.
У восприятия человеком числовой информации есть свои особенности. С большим количеством цифр и категорий нам сложно работать, особенно если речь идёт об обобщениях и выводах. Также человеческому мозгу сложно длительное время концентрироваться на цифрах. Поэтому сейчас, когда поток информации стал гораздо интенсивнее, наука о данных переходит от числового и табличного представления информации к визуализациям.
Таблицы стали одним из полезных изобретений человечества. Они и сегодня играют роль компактной формы представления данных: в таблице можно быстро находить нужные цифры; она позволяет проводить сравнения и взаимодействовать с разными категориями данных.
Но и у таблиц есть свои недостатки.
Статистические методы в работе с данными — следующая ступень эволюции после таблиц. Это набор инструментов и техник, которые дата-сайентисты используют для анализа, интерпретации и извлечения информации.
Коротко перечислим примеры таких методов и ситуации их использования:
Квартет Энскомба — интересный парадокс, представленный английским математиком Ф. Дж. Энскомбом. Это комбинация из четырех наборов данных. Каждый из них имеет практически идентичные описательные статистики (средние, стандартные отклонения, корреляции), но при визуализации на графиках демонстрирует совершенно разные распределения и взаимосвязи между переменными. Квадрат показывает важность визуализации данных в дополнение к использованию только описательных статистик.
Наконец, визуализации — графики, схемы, диаграммы — можно назвать вершиной эволюции в науке о данных. Они позволяют быстро замечать закономерности и делать выводы.
Визуализация позволяет увидеть закономерности и приблизиться к природе данных. Сегодня графики и диаграммы никого не удивляют, но история помнит случаи, когда их роль была буквально революционной. Собрали для вас главные даты и имена в истории визуализации.
Уильфм Плэйфэр. Шотландский инженер и политический экономист, «отец» инфографики: изобрёл линейную и столбцовую диаграммы, а также круговую диаграмму-«пирог». Книга Плэйфэра «Коммерческий и политический атлас» 1786 года издания проиллюстрирована диаграммами и графиками его собственного изобретения.
Флоренс Найтингейл. Медсестра, участвовавшая в Крымской войне начала XX века, также известна как одна из первых дата-журналисток. Она вела статистику по причинам смертей среди раненых британских солдат и визуализировала данные в виде диаграммы с полярной системой координат.
Джон Сноу. В 1854 году в Лондоне свирепствовала эпидемия холеры. Доктор Джон Сноу нанес на городской план Лондона очаги распространения болезни, указав количество смертей в каждом из домов. По его диаграмме видно, что самая большая концентрация погибших находится на Броуд Стрит, вблизи уличной колонки. Визуализация помогла найти причину распространения болезни: колонку отключили, и локальная вспышка холеры закончилась.
Шарль Минар, французский гражданский инженер, знаменит своей визуализацией числовых данных на картах. Самая знаменитая из его работ — карты наполеоновской кампании в России 1812 года, показывающая тяжёлые потери французской армии во время наступления на Москву и отступления.
Эдмонд Галлей, английский астроном и геофизик Известен тем, что вычислил орбиту кометы Галлея. Именно он впервые нанёс на карты линии, которые показывают разницу в состоянии атмосферы в разных точках планеты. Сейчас такие визуализации используются на метеорологических картах.
Шарль де Фуркруа, французский математик и учёный-исследователь Он создал визуализацию работ французских инженеров в сравнении с демографией европейских городов и визуальное исследовал данные о гражданском строительстве с помощью геометрических фигур — предшественник современной древовидной инфографики.
Луиджи Пероццо, итальянский математик и статистик. Первым представил 3D-инфографику, которая показывала взаимоотношения между тремя переменными на одном графике.
Многие из типов визуализаций, разработанных в прошлых веках, мы успешно применяем до сих пор.
Каждая визуализация данных состоит из базовых элементов, формирующих ее структуру и содержание. К ним относятся: оси и шкалы, определяющие размерность и внешний вид визуализации; заголовок и подписи, обеспечивающие контекст; и визуальная кодировка — непосредственно наполнение диаграммы, визуальное представление данных.
Эффективность графического представления данных напрямую зависит от грамотного использования визуальных кодировок. Именно они помогают преобразовать информацию в знания, создавая быстрые графические ассоциации, которые привлекают внимание и способствуют пониманию поведения показателей, а также формированию выводов.
Во второй половине XX века учёные много изучали визуальное восприятие человека и пришли к интересным выводам.
Одно из открытий — феномен «предвнимания» (на английском «pre-attentive processing»).
Это начальная стадия обработки визуальной информации, которая происходит бессознательно и автоматически, без фокусировки внимания на конкретном объекте. Оно позволяет нам быстро и эффективно извлекать основные характеристики сцены, такие как цвет, форма, движение и ориентация объектов.
Предвнимание обрабатывает всю визуальную информацию одновременно, без необходимости последовательного сканирования. Оно фокусируется на базовых признаках, которые легко обнаружить, например, резкие изменения яркости, цвета или ориентации. Предвнимание отсеивает ненужную информацию и передает только самые важные сигналы в дальнейшие этапы обработки.
Пример: Представьте, что вы смотрите на поле с цветами. Предвнимание позволяет вам быстро заметить, что среди синих васильков есть один красный мак. Вы не задумывались об этом, ваш мозг автоматически выделил этот объект, потому что он отличается по цвету.
Исследования также позволили выделить несколько основных визуальных каналов. Именно на этих каналах основаны различные виды визуальных кодировок, используемых для представления данных. Каждый канал визуального представления данных эффективен для своих целей. Например, положение объекта на оси (высота от условного нуля) и его размер обычно передают величину значений.
Различные визуальные каналы, а значит, и кодировки, удобны для решения различных задач. На схеме методы представления данных разделены на две группы: передача величины значений и передача различий между значениями.
Если мы невнимательны в использовании визуальных кодировок, мы можем столкнуться с тем, что наши данные воспринимают неправильно. На примерах ниже, для показа одних и тех же данных использованы разные визуальные каналы для кодирования страны. Рассмотрев все три, вы наверняка согласитесь, что первая визуализация, с объектами разной формы, наиболее удачна. На второй схеме цвета легко спутать, а на третьей кажется, что объекты показывают разницу в размерах, хотя такого значения у данных нет.
Если вам нужно рассмотреть данные на графике и диаграмме и считать данные, этот список вопросов поможет ничего не упустить. Также он будет полезен, если вы хотите сделать презентацию или описать визуализацию в докладе.
Подготовлено по материалам сайта dataliteracy.ru.
Комментарии к статье
Комментарии: 0