Большие данные в облаке - насколько безопасны наши данные? - Технология

Видео: Павел Якунин — Безопасные интерактивные большие данные в банке: Business intelligence на Clickhouse

Содержание

Проблемы безопасности в распределенных средах программирования
Проблемы с данными и журналом транзакций
Проблемы с проверкой данных
Мониторинг безопасности больших данных в режиме реального времени
Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни
Стратегии противостояния угрозам безопасности
Повышение надежности в распределенных рамках программирования
Сильные политики защиты данных
Анализ
Обнаружение выбросов при сборе данных
Заключение

Источник: Cuteimage / Dreamstime.com

вынос:

Исследуйте самые большие угрозы для больших данных в облаке и узнайте способы защиты от них.

Объем больших данных дико увеличивается день ото дня. Ожидается, что с 2500 эксабайт в 2012 году объем больших данных увеличится до 40 000 эксабайт в 2020 году. Поэтому хранение данных является серьезной проблемой, которую может обрабатывать только облачная инфраструктура. Облако стало популярным вариантом, главным образом, из-за его огромной емкости хранения и условий использования, которые не накладывают никаких обязательств на абонента. Облачное хранилище может быть предложено в форме подписок, а услуги предоставляются в течение заранее определенного периода. После этого клиент не обязан обновлять его.

Однако хранение больших данных в облаке открывает новые проблемы безопасности, с которыми нельзя столкнуться, если принять меры безопасности, принятые для обычных статических данных. Хотя большие данные не являются новой концепцией, их сбор и использование начали набирать обороты только в последние годы. В прошлом хранение и анализ больших данных ограничивались только крупными корпорациями и правительством, которые могли позволить себе инфраструктуру, необходимую для хранения и добычи данных. Такая инфраструктура была проприетарной и не была подвержена воздействию общих сетей. Тем не менее, большие данные в настоящее время дешево доступны для всех типов предприятий через инфраструктуру публичного облака. В результате возникли новые сложные угрозы безопасности, которые продолжают расти и развиваться.

Проблемы безопасности в распределенных средах программирования

Среды распределенного программирования обрабатывают большие данные с помощью параллельных вычислений и методов хранения. В таких средах преобразователи, не прошедшие проверку подлинности или измененные - которые делят огромные задачи на более мелкие подзадачи, так что задачи можно объединять для создания окончательного результата - могут поставить под угрозу данные. Неисправные или модифицированные рабочие узлы, которые получают данные от преобразователя для выполнения задач, могут поставить под угрозу данные, коснувшись обмена данными между преобразователем и другими рабочими узлами. Мошеннические рабочие узлы также могут создавать копии законных рабочих узлов. Тот факт, что в таких огромных рамках чрезвычайно сложно определить мошеннических картографов или узлов, делает обеспечение безопасности данных еще более сложной задачей.

Большинство облачных платформ данных используют базу данных NoSQL. База данных NoSQL полезна для обработки огромных неструктурированных наборов данных, но с точки зрения безопасности она плохо спроектирована. Изначально NoSQL разрабатывался практически без учета соображений безопасности. Одним из самых больших недостатков NoSQL является целостность транзакций. У него плохие механизмы аутентификации, что делает его уязвимым для атак "человек посередине" или повторных атак. Что еще хуже, NoSQL не поддерживает интеграцию сторонних модулей для усиления механизмов аутентификации. Поскольку механизмы аутентификации довольно слабы, данные также подвергаются атакам инсайдеров. Атаки могут оставаться незамеченными и не отслеживаться из-за плохих механизмов ведения журналов и анализа журналов.

Проблемы с данными и журналом транзакций

Данные обычно хранятся на многоуровневых носителях. Относительно легко отслеживать данные, когда объем относительно небольшой и статический. Но когда объем экспоненциально увеличивается, применяются решения с многоуровневым распределением. Решения для автоматического многоуровневого хранения хранят данные на разных уровнях, но не отслеживают местоположения. Это проблема безопасности. Например, организация может иметь конфиденциальные данные, которые редко используются. Однако решения с многоуровневым распределением не будут различать конфиденциальные и нечувствительные данные, а просто сохранят редко используемые данные на самом нижнем уровне. Самые нижние уровни имеют самую низкую доступную безопасность.

Проблемы с проверкой данных

В организации большие данные могут быть собраны из различных источников, которые включают в себя конечные устройства, такие как программные приложения и аппаратные устройства. Это большая проблема, чтобы гарантировать, что собранные данные не являются вредоносными. Любой, имеющий злонамеренные намерения, может вмешаться в работу устройства, предоставляющего данные, или в приложение, собирающее данные. Например, хакер может вызвать атаку Sybil на систему, а затем использовать поддельные идентификационные данные для предоставления вредоносных данных на центральный сервер сбора данных или систему. Эта угроза особенно применима в сценарии переноса вашего собственного устройства (BYOD), поскольку пользователи могут использовать свои личные устройства в сети предприятия.

Мониторинг безопасности больших данных в режиме реального времени

Мониторинг данных в режиме реального времени является большой проблемой, потому что вам необходимо отслеживать как инфраструктуру больших данных, так и данные, которые они обрабатывают. Как указывалось ранее, инфраструктура больших данных в облаке постоянно подвергается угрозам. Вредоносные объекты могут изменить систему так, чтобы она получала доступ к данным, а затем неуклонно генерировать ложные срабатывания. Игнорировать ложные срабатывания крайне рискованно. Кроме того, эти объекты могут попытаться уклониться от обнаружения путем создания атак уклонения или даже использовать заражение данных, чтобы снизить надежность обрабатываемых данных.

Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни

Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.

Стратегии противостояния угрозам безопасности

Стратегии защиты больших данных все еще находятся на начальной стадии, но они должны развиваться быстро. Ответы на угрозы безопасности лежат в самой сети. Компоненты сети нуждаются в абсолютной надежности, чего можно достичь с помощью надежных стратегий защиты данных. Должна быть нулевая терпимость для слабых мер защиты данных. Должен также существовать мощный автоматизированный механизм сбора и анализа журналов событий.

Повышение надежности в распределенных рамках программирования

Как указывалось ранее, ненадежные средства отображения и рабочие узлы могут поставить под угрозу безопасность данных. Итак, надежность картографов и узлов обязательна. Для этого картостроителям необходимо регулярно проверять подлинность рабочих узлов. Когда рабочий узел отправляет запрос на подключение к ведущему устройству, этот запрос будет утвержден при условии, что рабочий имеет предопределенный набор свойств доверия. После этого работник будет регулярно проверяться на соответствие правилам доверия и безопасности.

Сильные политики защиты данных

Необходимо устранить угрозы безопасности данных из-за слабой защиты данных в распределенной среде и базе данных NoSQL. Пароли должны быть хешированы или зашифрованы с использованием безопасных алгоритмов хеширования. Данные в состоянии покоя всегда должны быть зашифрованы и не должны оставаться открытыми даже после учета влияния на производительность. Аппаратное и массовое шифрование файлов по своей природе быстрее, и это может в определенной степени решить проблемы с производительностью, но злоумышленники также могут нарушить шифрование аппаратного устройства. Учитывая ситуацию, рекомендуется использовать SSL / TLS для установления соединений между клиентом и сервером и для связи между узлами кластера. Кроме того, архитектура NoSQL должна позволять подключаемые сторонние модули аутентификации.

Анализ

Аналитика больших данных может использоваться для мониторинга и выявления подозрительных подключений к узлам кластера, а также для постоянного анализа журналов с целью выявления любых потенциальных угроз. Хотя в экосистеме Hadoop нет встроенных механизмов безопасности, для мониторинга и выявления подозрительных действий могут использоваться другие инструменты, при условии, что эти инструменты соответствуют определенным стандартам. Например, такие инструменты должны соответствовать рекомендациям Open OWASP. Ожидается, что мониторинг событий в режиме реального времени улучшится с некоторыми уже происходящими событиями. Например, протокол защиты контента безопасности (SCAP) постепенно применяется к большим данным. Apache Kafka и Storm обещают быть хорошими инструментами мониторинга в реальном времени.

Обнаружение выбросов при сборе данных

До сих пор не существует защищенной от вторжений системы, позволяющей полностью предотвратить несанкционированные вторжения во время сбора данных. Тем не менее, вторжения могут быть значительно снижены. Во-первых, должны быть разработаны приложения для сбора данных, чтобы они были максимально безопасными, учитывая сценарий BYOD, когда приложение может работать на нескольких ненадежных устройствах. Во-вторых, решительные злоумышленники, вероятно, проникнут в самую центральную систему сбора данных даже самых сильных защитных и вредоносных данных. Таким образом, должны быть алгоритмы для обнаружения и фильтрации таких вредоносных данных.

Заключение

Уязвимости больших данных в облаке уникальны и не могут быть устранены традиционными мерами безопасности. Защита больших данных в облаке по-прежнему остается зарождающейся областью, поскольку некоторые передовые методы, такие как мониторинг в режиме реального времени, все еще находятся в стадии разработки, а имеющиеся передовые методы или меры не используются строго. Тем не менее, учитывая, насколько прибыльными являются большие данные, меры безопасности наверняка настигнут в ближайшем будущем.