Контакты
Подписка 2025

Секреты опасных писем

Юрий Иванов, 31/01/25

Электронная почта остается основной целью атак, а безопасность должна быть комплексной – об этом в преддверии нового года мы побеседовали с Юрием Ивановым, кандидатом технических наук, техническим директором компании “АВ Софт”, руководителем направления машинного обучения.

ris1-Jan-31-2025-01-35-28-1107-PM
Фото: Андрей Василенко

– Юрий, начнем с традиционных вопросов. Расскажите о своем пути становления – юношестве, институте и развитии карьеры.

– Я родился и вырос в далеком Хабаровском крае. Учился в абсолютно обычной государственной школе. С юных лет меня привлекали математика и физика, но еще в школе, благодаря увлечению научной фантастикой (Р. Хайлайн, Г. Уэллс и др.), появился интерес к инженерии и технологиям.

В университете сначала учился на гуманитарном направлении: моя специальность была связана с педагогикой и подготовкой учителей информатики с уклоном в информационные технологии и системы. Но к середине обучения осознал, что меня больше интересует техническая сторона, чем педагогическая. На третьем курсе увлекся темой машинного обучения и нейронными сетями.

После окончания специалитета в 2009 г. я поступил в аспирантуру на специальность "Математическое моделирование, численные методы и комплексы программ" – этот этап оказался более сложным, чем я себе представлял: пришлось наверстывать знания, которые не получил на педагогическом направлении, многие материалы изучать с нуля.

Уже тогда я начал работать в области компьютерного зрения и распознавания образов. Эта тема меня по-настоящему вдохновляла – всегда было интересно, как "видят" компьютеры, как работают нейронные сети. Забавный факт: на тот момент мне было достаточно тяжело запоминать лица незнакомых людей и казалось, что создание алгоритма, который будет различать лица за меня, – отличная идея.

Аспирантуру окончил в 2012 г., а в 2015 г. защитил кандидатскую диссертацию, посвященную применению ИИ для защиты периметра предприятия (компьютерное зрение и биометрия). Научная работа часто строится на преемственности – руководители передают свои идеи аспирантам, магистрам, студентам. Научный руководитель периодически предлагал мне погрузиться в тему информационной безопасности и работать над анализом трафика, но в те годы это казалось скучным, поэтому я сопротивлялся. Впоследствии в рамках грантов мы проводили исследования и НИОКР, связанные с информационной безопасностью (анализ трафика, предотвращение атак, поиск уязвимостей в моделях ИИ), однако большая часть проектов все же строилась вокруг физической безопасности.

Кстати, базовое направление тоже сыграло свою роль в формировании компетенций – навыка публичных выступлений, умения понимать собеседников, находить подход к большинству коллег. После защиты кандидатской я поступил в магистратуру ДВИУ РАНХиГС по направлению ГиМУ для того, чтобы еще глубже "прокачивать" не только технический стек, но и управленческие качества, что позволило мне стать финалистом конкурса "Лидеры России".

После защиты диссертации я продолжал работать в академической среде, руководил научными и инжиниринговыми проектами по компьютерному зрению, робототехнике, беспилотному транспорту.

В 2020 г. я решил перейти из научной сферы в коммерческую разработку и, выбирая дальнейшее направление для своей карьеры, присоединился к компании "АВ Софт", пройдя путь от программиста до технического директора.

Так как опыта enterprise-разработки на тот момент у меня было немного, то изначально я пришел в команду в качестве ML-инженера. Но уже через год оправдал ожидания руководства – глубоко проникся областью ИБ и возглавил отдел машинного обучения.

Впоследствии я изучал специфику не только своей области, но и смежных, пытался решить проблемы, даже если они не касались ИИ. Разбирал архитектуру наших продуктов, смотрел, над чем работают другие команды, общался с заказчиками, изучал продукты конкурентов – все это помогало развиваться, постоянно расти над собой.

– Какое влияние предыдущий опыт, связанный с физической безопасностью, оказал на ваш путь в ИБ?

– Сначала казалось, что работа в информационной безопасности может быть скучной. Где здесь место для искусственного интеллекта? На тот момент я привык к хайповым технологиям, таким как компьютерное зрение, генеративные сети и анализ текста. Информационная безопасность выглядела уже отработанной областью, где все решается классическими методами. Но я оказался не прав.

Проработав полгода-год, я понял, что это абсолютно непаханое поле. Современные методы, которые мы привыкли видеть в других областях, могут быть применимы и здесь. Например, с помощью компьютерного зрения можно распознавать фишинговые сайты, анализировать изображения логотипов. Глубокие сети и трансформеры позволяют обнаружить аномальное поведение пользователя. Анализ текста идеально подходит для борьбы со спамом, а генеративные модели вроде ChatGPT помогают объяснять поведение файлов в динамической среде.

– Вы продолжаете заниматься научной деятельностью?

– Научная деятельность всегда была и остается важной частью моей жизни. После защиты диссертации я остался в университете и долгое время работал в академической среде. Руководил сетью студенческих лабораторий, где мы занимались искусственным интеллектом, робототехникой и беспилотными системами.

Наука – особая среда, которая требует постоянного участия. Несмотря на то, что сегодня моя работа в основном связана с инженерными и прикладными задачами, я продолжаю заниматься наукой. Сотрудничаю с университетами, читаю лекции и участвую в исследованиях, веду аспирантов. Например, НИУ ВШЭ и "Нетология" не так давно запустили совместную магистратуру, где я веду дисциплину по ИИ.

Тем более, в "АВ Софт" мы занимается не только разработкой, но и выполнением НИР и НИОКР. Например, в рамках одного из проектов на международной конференции мы представили научную работу, посвященную атакам на ИИ, а недавно на OFFZONE – доклад про методы защиты от фишинга.

– Наверняка как руководитель вы участвуете в формировании команды. Ощущаете ли вы дефицит кадров?

– Дефицит кадров ощущается повсеместно, особенно в России. Ситуация в сфере информационной безопасности очень сложная. С ML-инженерами – вообще критическая. Многие специалисты, особенно молодежь, увлечены модными технологиями вроде генеративных сетей, ошибочно считая, что их нельзя применить в ИБ.

"АВ Софт" тесно сотрудничает с вузами. Опыт, полученный мной в университете, помогает в поиске талантов: мы проводим хакатоны и мастер-классы минимум один-два раза в год. Например, весной компания организовала хакатон по информационной безопасности CyberHackAI для школьников и студентов.

Одной из задач хакатона было создание алгоритмов искусственного интеллекта, которые могли бы распознавать фишинговые ссылки, приходящие в почте и в мессенджерах вроде WhatsApp и Telegram. Участники, школьники 9–11 классов и студенты 1–3 курсов, брали неделю на разработку своих решений. "АВ Софт" вручил памятные подарки, ценные призы и сертификаты на стажировку в нашей компании, по итогам которой можно получить оффер.

Аналогичный хакатон мы организовывали осенью для студентов магистратуры "Кибербезопасность" ВШЭ.

– Перейдем непосредственно в практическую область. Какова специфика своевременных систем ИБ на базе машинного обучения?

– Несмотря на мой профессиональный путь, связанный с машинным обучением и искусственным интеллектом, я не считаю их универсальным решением, способным заменить традиционные средства. В области информационной безопасности такие технологии должны быть дополнением, интегрирующимся в многослойные системы – нужно использовать комплексный подход, включающий несколько методов и технологий. Любая эффективная система должна сочетать традиционные инструменты, такие как эвристические методы, антивирусные программы и правила фильтрации, с возможностями машинного обучения. Искусственный интеллект способен усилить защиту, но не может быть единственным инструментом.

Существует также эффект недоверия к искусственному интеллекту, с которым мы сталкиваемся на практике. Бывали случаи, когда заказчик отправлял файл, заблокированный нашей системой ATHENA, с просьбой разобраться в причинах блокировки. Обычно под ложноположительным срабатыванием подразумевают ситуацию, когда безопасный файл был ошибочно классифицирован как вредоносный. Наши аналитики разбирали такие файлы, тратили время на реверс-инжиниринг, но в итоге выясняли, что традиционные антивирусы пропустили этот файл, а машинное обучение, напротив, правильно классифицировало его как новый тип атаки. Такие случаи наглядно показывают, что искусственный интеллект может быть эффективным инструментом, но заказчикам порой сложно принять его решения, особенно если они противоречат выводам привычных технологий.

Для борьбы с недоверием мы разработали систему объяснимости решений (эксплайнеры), которая постоянно совершенствуется. Эта концепция объяснимого искусственного интеллекта (explainable AI) становится особенно актуальной в сферах, где требуется высокая степень доверия, таких как банковская деятельность, медицина или информационная безопасность.

– Сегодня много говорят о различных векторах атак, но какая из областей, по вашему мнению, остается самой уязвимой для компаний?

– Почта была и остается основным вектором проникновения в организацию. По статистике, до 90% всех кибератак начинается именно с почтового трафика. Одна из причин популярности атак через почту – это ее универсальность. Почта остается главным каналом для общения с внешним миром, включая клиентов, партнеров и поставщиков. Ежедневно сотрудники компаний обмениваются сотнями сообщений, что делает этот канал идеальной мишенью для злоумышленников. Люди привыкли доверять письмам, особенно если они выглядят официально, и именно на этом строится большинство атак социальной инженерии.

Фишинговые письма, спам, вложения с вредоносным кодом или ссылки на поддельные страницы – все это инструменты и методы, которые способны преодолеть системы защиты.

Более того, атаки через почту эволюционируют: злоумышленники используют динамические ссылки, компрометированные домены и даже QR-коды, что делает почту не только каналом общения, но и зоной высокого риска.

Фильтрация почты – давно уже не просто фильтрация спама. Фактически, почта – это первая линия обороны

Сложность защиты почты заключается в том, что этот канал не может быть просто закрыт – его важность для бизнеса слишком велика. Поэтому компании должны использовать многослойные подходы, включающие технологии фильтрации фишинга и спама, анализ вложений, чтобы минимизировать риски и эффективно противостоять угрозам.

– При создании своевременной системы защиты от фишинга или вредоносного содержимого, возникает вопрос, а на чем обучать свои модели или эвристические фильтры? Ведь злоумышленники могут выявить, на каких данных они обучались и тестировались, предсказать поведение и затем использовать эту информацию в своих целях.

– То, что вы описали, – классическая атака на модель, известная как атака уклонения (evasion attack). И это касается не только ИИ. Злоумышленники пытаются узнать параметры, признаки и внутреннюю логику работы сигнатурных и поведенческих методов. Они целенаправленно подбирают признаки или характеристики данных, чтобы обмануть модель и обойти ее защитные механизмы. В современных системах ключевыми аспектами защиты становятся многослойность, машинное обучение как дополнение, и что самое важное, способность моделей к адаптации и дообучению.

Как правило, обучение моделей действительно начинается с тестовых данных, но это лишь первый шаг. Особенно это заметно в таких задачах, как борьба со спамом. Например, если вы откроете папку "Спам" в своем почтовом ящике, а ваш коллега – в своем, то характер писем будет совершенно разным. Создать универсальную модель, охватывающую весь спектр спама, невозможно. Но можно внедрить механизмы дообучения.

В нашей практике, например, традиционные эвристические методы фильтрации сначала накапливают определенный объем данных. Затем из него формируется внутренний датасет, который используется для дообучения модели, адаптированной под конкретного заказчика. Это позволяет модели учитывать специфику данных в реальном времени и повышать свою эффективность.

Однако у такой адаптации есть ограничения. Если перенести обученную модель к другому заказчику, она будет работать хуже, поскольку ее настройки уже адаптированы под уникальные данные первой среды. Например, модель, натренированная на распознавании спама с конференциями, может быть неэффективна для обработки спама, связанного с другой темой, например с ковидом.

Другая важная проблема – отравление датасетов (data poisoning). Вы правильно заметили, что злоумышленники могут вмешиваться в процесс обучения, особенно если используются открытые данные.

Если берутся открытые датасеты, такие как Malware Bazaar, мы не можем быть уверены, что все файлы там действительно вредоносны. Злоумышленник может добавить в такой датасет обычные файлы с определенными макросами, пометив их как вредоносные. Если модель обучится на этих данных, она начнет ошибочно классифицировать любые файлы с похожими макросами как угрозы.

Чтобы избежать таких ситуаций, важно фильтровать данные, тщательно их очищать и по возможности собирать собственные контролируемые наборы. Кроме того, синтетические данные могут стать ценным инструментом для обучения моделей.

ris2-Jan-31-2025-01-38-02-9239-PM
Фото: Андрей Василенко

– Какие данные вы используете для обучения и тестирования эффективности анстипами антифишинг-движков?

– Мы в "АВ Софт" преимущественно работаем с собственными данными, поскольку использование открытых источников сопряжено с рядом серьезных ограничений. Во-первых, существует риск их отравления, а во-вторых, таких данных крайне мало для полноценного обучения. Основу наших фильтров составляют данные, которые мы собираем самостоятельно. Кроме того, мы активно применяем синтетические данные и дообучаем модели на информации, предоставленной заказчиками.

При этом важно учитывать, что модели, работающие непосредственно у заказчика, остаются в его инфраструктуре. Мы не имеем права забирать их для дальнейшего анализа или использования. Это не только вопрос конфиденциальности, но и защиты самих данных заказчика, поскольку извлеченные модели могут стать целью атак, что создает дополнительные риски. Такой подход позволяет нам сохранить высокий уровень безопасности и доверия, не жертвуя качеством обучения.

– Какие технологии вы используете в борьбе с фишинговыми атаками?

– Для защиты от фишинговых атак как в ATHENA, так и в KAIROS мы используем комбинацию различных методов. И машинное обучение здесь играет немаловажную роль.

Первым делом мы выполняем репутационный анализ домена и ссылки с использованием различных фишинговых баз, а также проверяем кем, когда, где был зарегистрирован домен, как часто менялся контент и т.д. Важно проверить все переходы (редиректы) по ссылке и при необходимости выполнить динамический анализ – открыть ссылку в виртуальной изолированной среде с использованием браузера. Это позволит обнаружить вредоносные скрипты, отложенное поведение и другие техники.

Технологии машинного обучения также предлагают разнообразные подходы для выявления и предотвращения фишинговых атак. В их основе лежат как классические методы, так и глубокое обучение. Классические методы работают с определенными признаками, такими как наличие сигнатур скриптов, слова’ на сайте или параметры в НТТР-запросах.

Еще одной интересной технологией, используемой в KAIROS, является использование глубоких нейронных сетей для компьютерного зрения и анализа текста.

Например, мы анализируем содержимое изображений для обнаружения поддельных логотипов и графических элементов, которые маскируют вредоносный контент. Или сравниваем изображение страницы с имеющимися в базе скриншотов легитимных сайтов.

Такой подход оказался особенно эффективным в случае атак на известные сети ретейла, банковской сферы и т.д., где злоумышленники создавали идентичные копии сайтов с небольшими изменениями в домене, например, добавляя дефис. Все помнят известный и далеко не единичный случай – атаке подвергся сайт DNS, где фишинговая активность начиналась только на этапе оплаты в корзине. Визуально сайты были идентичны, но технология компьютерного зрения смогла обнаружить различия и выявить поддельный.

Другим важным инструментом является анализ текста (NLP). Например, мы можем выявлять фишинговые URL-адреса, которые содержат характерные ошибки или подделки, такие как буква, замененная на схожий символ (например, вместо "Сбербанк" используется буква "А" в кириллическом или латинском варианте). Это явление, известное как "тайпсквоттинг" (typosquatting), отлично детектируется моделями машинного обучения.

Кроме того, современные большие языковые модели (LLM) позволяют анализировать сайты на более глубоком уровне. Мы создаем векторные представления (embedding) сайта, что помогает понять его смысловую нагрузку: есть ли призыв к оплате, авторизации или другой подозрительной активности. Это позволяет обнаруживать неочевидные признаки фишинга, недоступные традиционным эвристическим методам или регулярным выражениям.

А еще бывают BEC-атаки, когда злоумышленник подделывают адреса электронной почты отправителей или взламывают учетные записи, чтобы ввести жертву в заблуждение и выдать себя, например, за руководителя.

Финансовый директор компании получает письмо якобы от генерального директора. В письме есть просьба перевести крупную сумму на новый счет. Письмо выглядит легитимно, включая подпись, стиль общения и даже цепочку предыдущей переписки.

В таком случае KAIROS анализирует метаданные писем, "цифровой почерк" и позволяет выявить аномалии в таком письме.

– Вы ранее упоминали, что компьютерное зрение есть и в ATHENA. Оно тоже для борьбы с фишингом?

– Технологии компьютерного зрения играют важную роль в выявлении современных атак на почту. Один из примеров, который ловит ATHENA, – фишинговые письма или документы, содержащие не прямую ссылку, а QR-код. Это достаточно распространенный прием, с которым традиционные антиспамили антифишинговые фильтры зачастую не справляются. Причина одна: такие системы, как правило, не используют технологии компьютерного зрения из-за высоких затрат ресурсов, связанных с их применением.

Сама атака довольно проста. Например, корпоративному пользователю приходит письмо с QR-кодом. Если бы он попытался перейти по ссылке с рабочего компьютера, защитные механизмы, такие как спам-фильтры или EDR, скорее всего, заблокировали бы угрозу. Однако отсканировав QR-код с личного телефона, пользователь незаметно попадает на фишинговый сайт. Злоумышленник может использовать это для запуска вредоносного кода (например JavaScript) или даже для проникновения в корпоративную сеть через устройство, подключенное к корпоративному Wi-Fi.

Другой пример: письма с изображениями, где вся картинка может быть ссылкой или содержать текст с инструкцией: "Перейдите по ссылке" или "Позвоните по этому номеру". Без технологий оптического распознавания текста (OCR) или компьютерного зрения подобные атаки могут быть пропущены. Эти методы становятся необходимостью для выявления скрытых угроз, которые не фиксируются традиционными средствами защиты.

– Вы упоминали о комплексном подходе для защиты от сложных и эволюционирующих атак, совершаемых через почту. Расскажите подробнее.

– Злоумышленники используют все более разнообразные методы: от традиционных спам-рассылок с фишинговыми ссылками до целевых атак, включающих вредоносные вложения и редиректы через безопасные на первый взгляд сайты.

Один из примеров – это так называемые "спящие ссылки", когда содержимое по ссылке подменяется на вредоносное спустя время. Другой пример – вложение с макросом, которое активируется при открытии документа и только при определенных условиях или при определенных действиях жертвы (ввод данных, нажатие на кнопку и т.д.).

Наверное, нет смысла перечислять всю матрицу MITRE. Но только навскидку можно вспомнить не менее 50 различных техник, так или иначе эксплуатирующих почту.

Мы со своей стороны предлагаем комплексное решение для эффективной защиты почты от современных угроз. В основе лежит использование системы защиты от спама и фишинга AVSOFT KAIROS и системы от целенаправленных атак AVSOFT ATHENA.

Первоначально KAIROS принимает на себя весь почтовый трафик, применяя методы анализа сессии, заголовков и репутаций. Далее на уровне глубокого анализа выполняется анализ текста письма, всех ссылок на фишинговые техники, исследование вложений и визуального контента.

Все файлы из писем отправляются в ATHENA, где проходят сначала статический анализ и проверку различными антивирусными движками, что позволяет соблюсти требование мультивендорности, а также диверсифицировать портфель сигнатур. Нам периодически попадаются семплы, на которых разные движки показывают разные результаты, в зависимости от скорости обновления базы.

После статического анализа файлы отправляются на динамический анализ в песочницу для выявления скрытых скриптов, макросов или других вредоносных действий.

Такой многослойный подход позволяет не только обнаруживать стандартные угрозы, но и противостоять сложным, целевым и неизвестным атакам. Использование комплексного решения KAIROS и ATHENA обеспечивает полное покрытие угроз для почтового трафика и является как раз тем первым и основным эшелоном защиты, о котором я говорил ранее.

– Будущее ИБ за системами на базе машинного обучения?

– Эффективная защита возможна только при комплексном подходе. Комплексный подход предполагает использование не только антивирусных движков, но и моделей машинного обучения, правил анализа (например YARA), а также экспертной оценки. Машины не могут заменить человека полностью, на последнем этапе данные обязательно должны быть валидированы специалистом.

К слову, так как ATHENA – это не только песочница, но и антивирусный мультисканер, мы проводили исследования производительности антивирусных движков и моделей машинного обучения, и они показали преимущество комплексного подхода. В рамках экспериментов мы ежедневно выкачивали свежие файлы из базы Malware Bazaar и проверяли их на более чем двадцати антивирусных движках. Например, эффективность (по метрике Recall, показывающей точность обнаружения) разных движков колеблется от 80% до 95%. При этом разные модели, обученные только на определенные семейства, могут показывать эффективность в районе 60–70%. Для чистоты эксперимента мы замораживали обновления антивирусов, чтобы проверить их деградацию со временем, которая падала в некоторых случаях до 20%–30%. То есть сигнатурные методы не способны обнаруживать новые 0-day угрозы при отсутствии обновлений.

При этом модели машинного обучения, хотя и обучались реже, показывали стабильность, потому что их анализ основывается не на сигнатурах, а на других признаках – байтовых последовательностях или фрагментах кода. Когда мы использовали сразу несколько моделей, каждая из которых была настроена на определенный тип угроз (трояны, черви и т. д.), они дополняли друг друга, перекрывая большее количество угроз и снижая вероятность ошибок. В совокупности они работали как полноценный антивирусный движок.

В "АВ Софт" мы следим за развитием технологий ИИ, совершенствуем свои методы, используем как новые SOTA-подходы, так и классические.

Темы:ИнтервьюИскусственный интеллектэлектронная почтаАВ СофтЖурнал "Информационная безопасность" №6, 2024

Программа мероприятий
для руководителей и специалистов
по защите информации

Посетить
Кибербезопасность
Форум ITSEC 2025 (весна) для AppSec, Security Champions, DevOps-инженеров, тестировщиков, специалистов по ИБ
Участвуйте 3-4 июня →
Статьи по той же темеСтатьи по той же теме

  • SECURITM делает безопасность доступной и эффективной
    Николай Казанцев, CEO компании SECURITM
    Николай Казанцев, CEO компании SECURITM, о философии информационной безопасности, доступности решений для бизнеса любого масштаба, о построении идеальной инфраструктуры и о том, как меняется подход к управлению информационной безопасностью.
  • HeadHunter: данные в безопасности
    Татьяна Фомина, директор по информационным технологиям и кибербезопасности HeadHunter
    Татьяна Фомина, директор по информационным технологиям и кибербезопасности HeadHunter, о любви к математике, вдохновении, профессиональном росте, об успешном объединении ИТ- и ИБ-команд, об особенностях обработки и защиты огромной базы персональных данных, а также об эффективном контроле доступа привилегированных пользователей с помощью PAM-решения от компании “Индид".
  • О роли SOC, EDR и XDR на пути к оптимальной безопасности
    Артем Кириллин, Заместитель директора департамента мониторинга, реагирования и исследования киберугроз BI.ZONE
    Артем Кириллин, заместитель директора департамента мониторинга, реагирования и исследования киберугроз BI.ZONE, рассказал о том, какие технологии обеспечивают высокую эффективность SOC, как выбрать провайдера (MSSP) и правда ли, что будущее за XDR.
  • Makves делает ставку на сервис высокого уровня
    Дмитрий Петушков, директор по развитию Makves
    Дмитрий Петушков, директор по развитию Makves (входит в группу компаний “Гарда”) рассказал о том, как выбрать эффективное ИБ-решение в условиях технологического паритета и на что стоит обратить внимание при выборе системы класса DCAP.
  • Стать ИБ-аналитиком: Анастасия Ершова об обучении, услуге ИБ-аутсорсинга, задачах и препятствиях на пути к цели
    Анастасия Ершова, Аналитик информационной безопасности "Джи-Эс-Ти" (GST)
    Аналитик информационной безопасности «Джи-Эс-Ти» (GST) Анастасия Ершова рассказала, почему выбрала для работы направление ИБ-аутсорсинга, когда работа с заказчиками приносит максимальный результат и какие задачи ей приходится решать ежедневно – от рутинных дел до экстренных ситуаций.

Хотите участвовать?

Выберите вариант!

КАЛЕНДАРЬ МЕРОПРИЯТИЙ 2025
ПОСЕТИТЬ МЕРОПРИЯТИЯ
ВЫСТУПИТЬ НА КОНФЕРЕНЦИЯХ
СТАТЬ АВТОРОМ
Linux
Защиту СУБД и данных обсудим на ITSEC 2025
Посетите 3-4 июня →

More...
ТБ Форум 2025
4 июня | Форум ITSEC 2025 Доверенные корпоративные репозитории
Жми, чтобы участвовать

More...