Игры искусственного разума: безопасность систем машинного обучения

Григорий Маршалко, 27/12/18

Marshalko По данным PricewaterhouseCoopers, 74% российских компаний планируют инвестировать в искусственный интеллект в ближайшие три года. Действительно, в настоящее время данная технология рассматривается в мире как способ качественного изменения процессов управления и обработки данных в организациях.

Зародившееся в середине XX в. направление искусственного интеллекта объединяет широкий спектр научных областей, таких как представление знаний, обработка естественных языков, машинное обучение и др.

Наибольшее внимание со стороны разработчиков в настоящее время привлекают именно системы машинного обучения. В отличие от классических алгоритмических методов машинное обучение основывается не на решении конкретной задачи, а на обучении при решении сходных задач и уже последующем решении требуемой задачи. Спектр используемых методов при этом чрезвычайно широк: методы оптимизации, математической статистики и теории вероятностей, теории графов, искусственных нейронных сетей.

Сейчас на первый план выходят именно нейронные сети. Несмотря на то что, как и искусственный интеллект в целом, нейронные сети развиваются с середины прошлого века, только в последние годы они стали действительно активно использоваться. Это связано, с одной стороны, с наличием доступных для обработки и обучения нейронных сетей больших объемов данных, а с другой – с появлением достаточных вычислительных мощностей, которые позволяют такие объемы данных обрабатывать, прежде всего с использованием графических ускорителей и нейроморфных процессоров типа IBM TrueNorth.

Как и при использовании любой другой технологии, относящейся к сфере обработки информации, перед специалистом в области информационной безопасности встает вопрос о возможных угрозах и мерах по противодействию таким угрозам при использовании систем искусственного интеллекта.

В информационной безопасности использование искусственного интеллекта обычно принято рассматривать в контексте противодействия существующим кибератакам, таким, например, как фишинг, DDoS- атаки и др., или как средство, которое может обеспечить качественно новый уровень реализации таких атак при использовании злоумышленниками.

Одновременно, как и любой другой технологии использованию искусственного интеллекта сопутствует широкий спектр неизвестных ранее угроз, которые простираются от социальных и этических проблем, связанных с ограничением гражданских свобод и плюрализма мнений при автоматизации принятия решений, а также ответственностью за их последствия, до безопасности технической реализации решений, использующих искусственный интеллект, и касающихся, например, обеспечения доверия к процессу принятия решения или безопасности обрабатываемых данных.

Безопасность системы ИИ и как ее обеспечить

Отмеченный выше принцип предварительного обучения при обработке данных методами искусственного интеллекта приводит к тому, что конечное решение зависит не только от алгоритма принятия решения, но и от обработанных ранее и обрабатываемых в данный момент данных. В результате возникают два совершенно новых типа атак на системы рассматриваемого типа в дополнение к классическим, характерным для любой информационной системы:

манипуляция входными данными при обучении с целью изменения последующего процесса принятия решения, или так называемое отравление данных (data poisoning) – рис. 1;
подбор входных данных на этапе принятия решения, приводящий к их неверной классификации, или так называемое уклонение от данных (data evasion) – рис. 2

Данные атаки применимы не только к нейронным сетям, но и к методам машинного обучения, использующим, например, аппарат математической статистики. Это является следствием того, что все подобные методы фактически аппроксимируют параметры обрабатываемых данных некоторыми функциональными соотношениями. Собственно, точность подобной аппроксимации и определяет возможность реализации указанных типов атак.

Следует отметить, что какой-либо единой методологии защиты систем рассматриваемого типа в настоящее время нет. Вместе с тем исследователи выделяют ряд подходов, которые в настоящее время активно изучаются.

Обучение с защитой от атак на процесс принятия решений. В этом случае обучающие данные формируются таким образом, чтобы исключить возможность применения конкретных атак (фактически происходит обучение распознаванию атакующих данных) или попытаться ослабить влияние определенных классов атак.

Идея защиты в процессе обучения основана на ограничении множества входных данных. Поскольку, как уже было сказано, параметры данных могут иметь сложный функциональный вид, а решающее правило фактически аппроксимирует их функционалом более простого вида, то, например, запрет на использование данных, которые в каком- то смысле далеки от среднего значения обучающей выборки, позволяет уменьшить влияние атак на этапе обучения.

В заключение отметим аспект обеспечения конфиденциальности данных, и прежде всего персональных данных пользователей. Обработка больших объемов данных в системах машинного обучения безусловно ставит под угрозу в первую очередь данные пользователей. К настоящему моменту уже делаются попытки совместить системы данного класса с такими активно развивающимися перспективными направлениями в криптографии, как гомоморфное шифрование и протоколы конфиденциального вычисления. Однако до реального внедрения подобных систем пока еще далеко.

Игры искусственного разума: безопасность систем машинного обучения

Программа мероприятий
для руководителей и специалистов
по защите информации

Мы в соцсетях

Игры искусственного разума: безопасность систем машинного обучения

Программа мероприятийдля руководителей и специалистовпо защите информации

Мы в соцсетях

Программа мероприятий
для руководителей и специалистов
по защите информации