Предел доверия: вызовы защиты распределенных систем обработки данных

Обеспечение безопасности больших данных невозможно ограничить лишь уровнем бизнес-логики. Необходима комплексная защита во всех слоях – инфраструктурном, инженерном и управленческом. При этом особое внимание следует уделить инженерному уровню, как наименее защищенному и часто недооцененному в реальной практике.

Автор: Мария Полтавцева, д.т.н., профессор Высшей школы кибербезопасности Института компьютерных наук и кибербезопасности СПбПУ

Большие данные – распространенный термин, широко применяющийся как на уровне бизнес-логики и управления, так и в более узких технологических областях: инженерии данных и инфраструктуре обработки информации. С точки зрения безопасности это явление также стоит рассматривать по крайней мере на этих же трех уровнях, выделяя на каждом свои угрозы, уязвимости и методы защиты.

Безопасность больших данных на уровне бизнес-логики невозможна без обеспечения ее на нижележащих. И если защита базовых инструментов инфраструктуры, таких как сети передачи данных или технологии виртуализации, сегодня в фокусе рассмотрения многих исследователей и вендоров, уровень инженерии данных, как правило, остается без внимания.

Мультимодельные и распределенные СУБД

Какие новые тенденции и технологические решения можно выделить в обработке и хранении больших данных на уровне инженерии – в контексте СУБД? Не секрет, что большинство современных СУБД являются в той или иной степени мультимодельными решениями (Polyglot Persistence), то есть не реализующими строгого реляционный подход. Это обусловлено, в первую очередь, проблемой разнородности данных и необходимостью совместной обработки информации, структурированной по-разному и зачастую неполной. Следует отметить, что с точки зрения безопасности существенных различий между мультимодельными и мономодельными СУБД нет и сегодня де-факто многие стандартные промышленные системы управления базами данных относятся к первому типу.

Однако, развитие мультимодельного подхода привело не только к расширению функциональности промышленных СУБД, но и к появлению двух новых классов систем.

В первую очередь, это полихранилища (Polystore). Примерами служат такие решения, как BigDawg, BigIntegrator, Spark SQL, Estocada, ClouMdsQL и др. Их основная задача – интеграция нескольких СУБД в единую систему с общим интерфейсом. Начав с простой трансляции запросов, полихранилища сегодня развиваются в направлении интеграции управления данными: формируется единая схема, транслируемая во входящие компоненты, а также осуществляется централизация настроек через высокоуровневую модель данных. Однако на практике полихранилища пока не получили широкого распространения и остаются скорее заделом на будущее, потенциально востребованным в различных отраслях.

Сегодня среди новых систем управления большими данными, уже ставших частью повседневной практики ряда крупных организаций, особое внимание заслуживают распределенные и, как правило, гетерогенные решения. Эти системы объединяют разнородные утилиты, компоненты обработки информации (например, средства управления очередями, сбора и анализа потоковых данных) и СУБД, предназначенные для обработки, хранения и использования данных со сложным жизненным циклом.

ris1-Jul-07-2025-04-30-39-7934-PM

Основные проблемы и методы защиты

Усложнение жизненного цикла данных, использование различных – в том числе географически распределенных – инструментов и хранилищ для решения отдельных задач, увеличение числа сотрудников, имеющих доступ к информации на разных этапах ее обработки, а также наличие большого объема Legacy-данных – все это становится источником уязвимостей и потенциальных утечек. В этом контексте с точки зрения обеспечения безопасности актуализируются две ключевые задачи: выявление данных и разграничение доступа к ним.

Выявление чувствительных данных

Для поиска данных как в СУБД, так и в неструктурированных файловых хранилищах на практике применяются различные методы и инструменты – от регулярных выражений, правил и анализа метаданных до DCAP-систем с использованием методов машинного обучения. Это достаточно развитые и популярные решения, функциональность которых совершенствуется на фоне многообразия форматов и видов данных.

Разграничение доступа

Задача разграничения доступа на инженерном уровне до недавних пор представляла собой более простой кейс: всегда можно разграничить доступ отдельно к файлу или объекту базы данных. Однако в разнородных системах, объеденных сложным жизненным циклом данных, все становится значительно сложнее. Возникают следующие проблемы:

большое число доверенных пользователей и взаимное доверие между инструментами обработки данных;
связь между данными на различных стадиях жизненного цикла;
различная степень детализации данных в используемых инструментах на протяжении их жизненного цикла.

Во-первых, с увеличением числа инструментов обработки данных растет и количество доверенных пользователей, поскольку большинство решений не используют сквозное шифрование, но требуют не менее одной привилегированной роли для выполнения настройки и управления работоспособностью. Обмен данными между инструментами часто реализуется по принципу взаимного доверия. В то же время защита от квалифицированного привилегированного нарушителя (администратора) возможна только с применением методов сквозного шифрования, которые не только сложно реализуются, но и существенно снижают производительность систем.

Во-вторых, связи между данными на различных стадиях жизненного цикла открывают широкие возможности для злоумышленника. При этом не только увеличивается число сотрудников, непосредственно работающих с конфиденциальными данными (что само по себе создает угрозу безопасности), – во много раз возрастает также возможность реализации так называемого непрямого логического вывода (Inference Attack), или получение конфиденциальных данных без нарушения политики безопасности. Самым простым примером служит "Задача про персональные данные" [1]. На практике объектами вывода могут быть не только персональные данные, но и, например, расположение промышленных объектов, что уже куда серьезнее.

Практическим способом защиты в этом случае становятся технологии изоляции и маскирования данных, хотя в данном случае выделить защищенный контур может быть достаточно сложно. С одной стороны, использование технологии маскирования данных уже становится стандартной практикой, а с другой – сталкивается с зависимостью алгоритмов маскирования от семантики и особенностей использования конкретных данных, что требует их адаптации и высокой квалификации специалистов по информационной безопасности.

В таких условиях реализация принципа минимальных привилегий за счет согласованного контроля доступа к данным на всех этапах их жизненного цикла представляется естественным и во многом необходимым решением – по крайней мере в пределах систем хранения и обработки. С другой стороны, реализация этого подхода затрудняется из-за различной грануляции данных – третьей характерной особенности рассматриваемых систем. В случаях, когда одни и те же данные фактически присутствуют одновременно в документно-ориентированных, реляционных, графовых и других типах хранилищ – каждое из которых использует собственный тип объектов для разграничения доступа и обладает уникальным набором механизмов управления – реализовать согласованное управление правами доступа невозможно без единого верхнеуровневого представления данных.

В таком случае политика безопасности формируется на уровне единого представления данных с учетом всех ограничений, а затем транслируется на отдельные инструменты системы. Этот подход позволяет не только предварительно анализировать и оценивать политику до ее внедрения, но и автоматизировать ее применение и контроль, поскольку задание и считывание настроек доступа в СУБД и других компонентах систем больших данных – задача, хорошо поддающаяся автоматизации.

На сегодняшний день ни один из описанных подходов сам по себе не обеспечивает полной безопасности больших данных в распределенных системах обработки. Однако их применение позволяет существенно снизить вероятность утечек – что подтверждается как отраслевой практикой (в частности, в банковской сфере), так и результатами научных исследований, представленных на профильных конференциях по информационной безопасности. В этой связи построение системы защиты на основе согласованного сочетания нескольких подходов, реализующего принципы концепции Zero Trust, в наибольшей степени способствует снижению риска успешной атаки.

Оценка защищенности систем

При оценке защищенности распределенных систем больших данных их отличие от других типов информационных систем заключается в уже упомянутых особенностях: большом числе доверенных пользователей, различной степени грануляции и сложном жизненном цикле данных. Ключевыми факторами становятся организация контроля доступа с учетом специфики структурирования данных (или моделей хранения), а также количество привилегированных пользователей. Учет этих аспектов и составляет главное отличие оценки защищенности таких систем от подходов, применяемых к традиционным промышленным СУБД или информационным системам.

В основе оценки защищенности таких систем лежит алгоритм анализа контроля доступа с учетом степени гранулярности. Разработка подобных алгоритмов ведется с 2014 г. как в России, так и за рубежом и соотносится с инициативами NIST. Для получения итоговой оценки результат взвешенного анализа качества разграничения доступа объединяется с другими показателями, такими как: критичность информации, обрабатываемой различными инструментами; маршруты перемещения данных; количество привилегированных пользователей; объем и уровень чувствительности данных, обрабатываемых в открытом виде, а также иные параметры – в зависимости от используемой модели и методики оценки.

Выводы

Технологии систем больших данных сегодня развиваются стремительными темпами, опережая существующие практики обеспечения информационной безопасности. В условиях роста киберугроз и повышения ценности данных необходимы скоординированные усилия исследователей и разработчиков средств защиты, а также интеграция научных достижений с индустриальными практиками – для преодоления этого разрыва и создания надежной системы безопасности в новой цифровой индустрии.

Исследование выполнено за счет гранта Российского научного фонда № 23-11-20003, https://rscf.ru/project/23-11-20003/, грант Санкт-Петербургского научного фонда (Соглашение № 23–11–20003 о предоставлении регионального гранта).