Большинство данных в мире неструктурированно. Такие данные, как правило, представлены в виде текста, который может содержать любую информацию: цифры, даты, прочие факты, любые тексты, книги, видео, аудио, изображения — вообще практически все, что вы видите вокруг себя.
Пример: неструктурированные данные о составе экскурсионной группы, представленные в виде текста. «В группе: Иванов Иван Иванович, пенсионер, интересуется архитектурой старого города. Его жена, Мария Петровна, тоже с ним, любит историю. Еще двое детей — 12-летняя Аня, фанатка динозавров, и 15-летний Дима, который увлекается старинными автомобилями. Также с ними их тетя, Ольга Сергеевна, учительница истории, которая очень хорошо знает город. Из других участников — семья Сидоровых: папа, мама и двое маленьких детей, которые, скорее всего, будут капризничать. И еще пара студентов, кажется, из университета, они записались на экскурсию по истории города, но точно не помню их имена. В общем, группа разношерстная, но надеюсь, все будет хорошо».
Для этапа подготовки неструктурированных данных к анализу используют методы интеллектуального анализа данных (Data Mining) и методы обработки естественного языка (для распознавания речи, Natural Language Processing). Также существуют более простые системы, например, сервисы веб-скрейпинга (Web Scraping) для сбора и категоризации текстовых данных из веб-страниц.
Комментарии к статье
Комментарии: 0