Насколько структурированы ваши данные? Изучение структурированных, неструктурированных и полуструктурированных данных

Видео: Простые секреты работы с данными для всех

Содержание

Что такое структурированные данные?
Что такое неструктурированные данные?
Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни
Падение между: полуструктурированные данные
Можно ли преобразовать неструктурированные данные в структурированные данные?

Источник: monsitj / iStockphoto

вынос:

Узнайте о структурированных, неструктурированных и полуструктурированных данных.

Исторически аналитики данных были способны расшифровывать и извлекать информацию только из одного типа данных: структурированные данные. Данные этого типа легко доступны для поиска благодаря четким шаблонам, но составляют незначительный процент от общего объема доступных данных.

Неструктурированные данные включали видео, аудио и другие данные, поступающие из социальных сетей и мобильных устройств. Это был самый большой запас необработанной информации, но никто не смог надежно использовать этот ресурс.

Однако ситуация изменилась, поскольку возросшая доступность хранилищ и превосходные возможности обработки привели к появлению неструктурированной аналитики данных - новой и, следовательно, незрелой формы технологии. Лучшая бизнес-аналитика в полной мере использует эту возможность, и значительные инвестиции делаются для агрегирования аналитики структурированных и неструктурированных данных, чтобы получить доступ к этой бесконечной золотой жиле информации.

Давайте посмотрим на эти два формата данных, чтобы понять их различия, а также то, что ждет в будущем всех аналитиков данных.

Что такое структурированные данные?

Структурированные данные - это сгенерированная человеком или машиной и высокоорганизованная информация, которая может быть легко сохранена в структурах баз данных строк, известных как реляционные базы данных (RDB). Это все, что существует в формате, который можно легко захватить, сохранить и упорядочить в структуре RDB для последующего анализа. (Чтобы узнать больше о базах данных, ознакомьтесь с нашим Введение в базы данных.)

Примеры включают почтовые индексы, номера телефонов и демографические данные пользователя, такие как возраст или пол. Данные, найденные в этих базах данных, можно запрашивать с помощью функций языка структурированных запросов (SQL) или VLOOKUP в электронных таблицах Excel. Алгоритмы также могут быть сделаны для быстрого поиска данных, найденных в различных полях, используя их индексы или их числовые и алфавитные данные. Однако все данные строго определены с точки зрения типа и имени поля, и, таким образом, возможность хранить, запрашивать и анализировать их до некоторой степени ограничена.

Типичные приложения, использующие структурированные данные, включают программное обеспечение для управления больницами, приложения для управления взаимоотношениями с клиентами (CRM) и системы бронирования авиабилетов. Благодаря аккуратной организации и легкому доступу структурированные данные полезны и эффективны при работе с большими объемами информации. Однако при бурении на мазут, скрытый в бесконечном количестве данных, ежедневно создаваемых человечеством, поиск структурированных данных - не что иное, как царапина на поверхности.

Что такое неструктурированные данные?

Подавляющее большинство данных, найденных в организации, является неструктурированным, и некоторые оценивают его как до 80 процентов от общего объема данных, доступных в настоящее время. По определению, неструктурированные данные - это все, что не имеет идентифицируемой внутренней структуры. Тем не менее, некоторые типы данных попадают в эту категорию действительно есть некоторая форма расплывчатой внутренней структуры, но она не соответствует базе данных или электронной таблице.

Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни

Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.

Большая часть бизнес-данных является неструктурированной, начиная от взаимодействия со службой поддержки, файлов, веб-журналов, видео и другого мультимедийного контента, автоматизации продаж, сообщений в социальных сетях. Нет необходимости объяснять, насколько ценными могут быть эти данные, если их можно добывать, организовывать и анализировать.

Большинство неструктурированных данных генерируется людьми и, таким образом, понимается другими людьми. Это означает, что чистый компьютерный интеллект не понимает этот тип информации, поскольку он слишком далек от линейности машинного языка и структурированных баз данных.

Падение между: полуструктурированные данные

Полуструктурированные данные - это третий тип данных, который представляет собой гораздо меньшую часть всего пирога (5-10 процентов). Буквально попавшие между обоими мирами, полуструктурированные данные содержат внутренние семантические теги и маркировки, которые идентифицируют отдельные элементы, но не имеют структуры, необходимой для размещения в реляционной базе данных.

Например, s могут показаться структурированными данными, поскольку они могут быть классифицированы по дате, размеру файла или времени. Однако это не так, поскольку наиболее ценная информация находится в них, а не на относительно простых ярлыках. Не могут быть по-настоящему упорядочены по содержанию и предмету, поскольку люди не говорят в таких строгих закономерностях, чтобы позволить машине понять их однозначно. Другие примеры полуструктурированных данных включают базы данных NoSQL, открытый стандарт JSON и язык разметки XML.

Полуструктурированные данные обычно запрашиваются и каталогизируются для анализа с использованием анализа метаданных. Например, рентгеновское сканирование состоит из огромного количества пикселей, которые формируют изображение - которые по своей природе являются неструктурированными данными, к которым нет доступа. Однако файл сканирования по-прежнему будет содержать часть метаданных, которая предоставляет информацию о нем, такую как аннотации и идентификатор пользователя.

Можно ли преобразовать неструктурированные данные в структурированные данные?

Фундаментальная проблема, с которой должен столкнуться каждый аналитик данных, состоит в том, чтобы упорядочить имеющуюся информацию аккуратно и упорядоченно, чтобы к ней можно было получить доступ и понять. Инструменты интеллектуального анализа данных обычно не оснащены для анализа информации, которая по определению слишком похожа на человеческий язык, а это означает, что только другой человек может собирать и классифицировать ее.

Однако огромный объем неструктурированных данных делает любую попытку их хранения или организации чрезвычайно трудоемкой и дорогой. Пул информации, поступающий, скажем, из поисковой системы на основе Интернета, настолько огромен, что большинству элементов требуются огромные инвестиции с точки зрения работы и ресурсов, чтобы извлечь самые основные из них. Даже самые эффективные методы анализа данных по-прежнему пропускают значительный объем информации, найденной в сети и, что еще хуже, в глубокой сети.

Но методы существуют. И они развиваются с удивительной скоростью. Например, метаданные могут использоваться для соединения структурированных и неструктурированных данных вместе. Собранная информация может быть отфильтрована и проиндексирована как пользователями, так и алгоритмами, а также просто проанализировать соответствующие данные. Другие решения включают в себя «обработку данных», то есть процесс, посредством которого сложные данные постепенно организуются нетехническими пользователями. (Подробнее о работе с данными обычных пользователей см. В разделе «Как большие данные могут помочь в аналитике самообслуживания».)

В какой-то момент мы сможем эффективно преобразовать эти массово неорганизованные объемы информации в более организованный и реструктурированный формат. Может быть, не сегодня, может быть, не завтра, но скоро мы сможем совершить набег на самое большое хранилище, которое когда-либо видел человечество: большие данные.