Контроль за информацией, или Три веселые буквы – DLP
Для начала небольшое введение, как и положено, скучное и формальное. Информация правит миром. Информация дороже золота. Какую бы еще избитую мысль привести, чтобы подтвердить тезис, в котором и так никто не сомневается?
Любая информация имеет особенность утекать. Причем обычно к конкурентам. Чтобы ваша информация оставалась при вас, ее надо защищать. Перечислим три основных способа защиты, посмотрим на плюсы и минусы. Ну а чтобы вы могли на равных разговаривать с вашим начальником службы ИТ-безопасности, добавим порцию умных слов, описывающих эти методы профессиональными терминами.
Первый способ. Можно построить стену, в стене прорубить калитку, у калитки поставить часового, и он будет совать нос в каждый документ, который пытаются вынести за пределы стены. Если документ похож на секретный, калитка захлопывается и вызывается начальник охраны.
Умные слова. Такой способ называется граничным DLP (Border DLP). Понятно, почему граничным: мы же запрещаем документам покидать границы нашей организации. Аббревиатура DLP расшифровывается как Data Leak Prevention – предотвращение утечек данных. Документы определяются как секретные либо по имени файла (способ простой, но ненадежный, ибо переименовать файл очень просто), либо по его содержимому. Вычисляется так называемая сигнатура – бинарная последовательность, которая будет уникальной для каждого исходного документа. Когда документ пытается покинуть пределы организации каким-либо путем – по сети, через USB-диск (флешку), по почте и так далее, определяется его сигнатура и сравнивается с базой защищаемых документов. Если сигнатура в базе найдена, операция блокируется, а ИТ-безопасность уведомляется.
Плюсы. Сделать такую систему достаточно просто, поэтому на рынке их много и стоят они относительно недорого.
Минусы. Не обязательно выносить документ из организации по сети или по почте. Есть и альтернативные способы. Во-первых, его можно прочитать и запомнить. Во-вторых, сделать снимок экрана и отправить по почте. В-третьих, сфотографировать документ, открытый на экране монитора. В-четвертых, вообще изменить документ, теперь он не будет совпадать с сигнатурой, а значит, система ничего не заметит.
Выводы. Стоит ли платить за такую систему – решайте сами. В качестве дополнения она, может, и сгодится. Проблема только в том, что зачастую две однотипные, но по-разному работающие системы имеют свойство конфликтовать.
Второй способ.Стену можно не строить (к чему такие строгости?), зато приставить к каждому работнику по сотруднику тайной службы, чтобы ходил следом да приглядывал, какие документы тот пытается прочитать. И только он захочет открыть запрещенный документ, как его хвать за рукав, секретный документ назад на полку, а нарушителя режима – куда следует.
Умные слова.Такой вариант DLP называется агентским (Agent DLP). На каждый компьютер в организации устанавливается агент, отслеживающий всякую попытку работы с любыми документами (открытие, копирование, удаление, печать и т. д.). При каждой такой попытке он вычисляет сигнатуру документа, сравнивает ее с базой сигнатур. Если документ защищен, определяется пользователь, пытающийся с ним работать, и есть ли у этого пользователя права на выполнение этой операции. Если права есть, операция выполняется, если нет, блокируется и уведомляется служба безопасности.
Плюсы. С помощью данного способа действительно можно эффективно защитить документы. Их невозможно будет даже открыть, а если нельзя открыть, то нельзя и ознакомиться с содержимым. Хотя, если основной задачей стоит именно запрет на открытие документов, здесь достаточно стандартного механизма разграничения прав доступа к файлам Windows.
Минусы. Как ни странно, тут их предостаточно. Во-первых, на каждом компьютере в сети работает агент, что отнюдь не сказывается положительно на общей производительности компьютера. Страдает также производительность сети, ведь каждый компьютер периодически обращается к базе сигнатур документов (нет, она, конечно же, сохраняется локально на компьютерах, но ведь ее надо периодически обновлять). Во-вторых, перед открытием, копированием, печатью каждого документа происходят вычисление его сигнатуры, сравнение и прочие действия, что в случае среднего компьютерного «железа» может обеспечить 1–5-секундные задержки (а то и больше) между запуском операции и ее выполнением. В-третьих, систему нужно настроить, указав все файлы, которые нужно защищать, и права доступа к ним для разных пользователей. Ну и наконец – деньги. Лицензия на каждый агент стоит недешево – 50–100 американских долларов, причем ближе к 100, чем к 50. При этом лицензию купить нужно на каждый компьютер, в противном случае можно сесть за незащищенную машину и получить доступ к файлам.
Выводы. Неплохой подход, если минусы для вас несущественны. Работает с любыми документами, но эффективен не во всех ситуациях.
Третий способ.Можно и стен не строить, и на соглядатаев не тратиться. Просто зашифровать документы. Что толку от документа, который прочесть невозможно? А хочешь прочесть, обратись в хранилище ключей, там твою личность проверят и дадут ключик. Но даже с ключиком ты не всесилен, если он не разрешает документ печатать или вносить в него изменения.
Умные слова.Каждая компания называет эту технологию по-разному. Но есть и общее название – DRM (Digital Rights Management), управление цифровыми правами. Данная технология реализуется путем встраивания механизма шифрования / дешифрации в стандартные программы для просмотра и редактирования документов. Для Microsoft это большинство программ, входящих в Office: Word, Excel, PowerPoint, Outlook; для Adobe – Acrobat и Acrobat Reader. Клиентская часть при попытке открытия документа обращается с информацией о документе и открывающем его пользователе к серверу ключей, который хранит сведения о правах различных пользователей на доступ к различным документам. Если право на доступ есть, отправляется ключ, с помощью которого клиент незаметно для пользователя расшифровывает документ и дает возможность выполнить разрешенные операции. То есть если в правах задано «Только просмотр», то напечатать документ уже не получится.
Плюсы. Защищенные письма в Outlook открываются заметно медленнее обычных, но в целом данная технология имеет хорошие показатели по скорости работы и мало нагружает компьютер и сеть.
Минусы. Я не зря сказал, что все компании называют эту технологию по-своему. Каждая компания еще и реализует эту технологию по-своему. Для защиты документов Microsoft Office используется программное обеспечение от Microsoft (причем желательно, чтобы Office был определенной версии), для защиты Adobe PDF – да, угадали, программное обеспечение от Adobe. Причем если захотите открыть документ с рабочего ноутбуку, который унесли домой, позаботьтесь, чтобы сервера были доступны извне вашей организации.
Вывод.Решение в целом неплохое, но весьма нишевое. Нужно в тех случаях, когда есть небольшое количество документов, которые надо защитить. Документы в едином формате, клиентское программное обеспечение одной и той же версии установлено у всех сотрудников, которые с этими документами будут работать (например, высшее руководство компании). Но для массового применения решение достаточно тяжелое и неэффективное.
Что такое DLP-система, как она видит ваши данные и почему они – кладезь информации для управления бизнесом
DLP-системы (Data Leakage Prevention) давно используются не только для защиты от утечек данных. Экспансивное развитие технологий сменилось интенсивным. DLP начали расти вглубь, улучшая качество анализа и перехвата контента. Благодаря этому данные из DLP становятся бесценны для принятия любых управленческих решений. Это позволяет превратить информационную безопасность в сервис для других подразделений компании — от HR до экономической безопасности
6.5K открытий
Зачем бизнесу данные из DLP, кроме обеспечения кибербезопасности? InfoWatch
Зачем анализировать данные
Первая задача, которую призван решить анализ данных, – это предотвращение утечек. Без технологий анализа утечки тоже можно предотвращать, но придётся применять слишком много административных мер и по сути всем всё запретить (это способы низкобюджетной безопасности, мы писали о них здесь). Если компания достаточно большая, это может навредить бизнес-процессам. Мы этого не хотим! Поэтому нужно блокировать данные избирательно, а выбирать, что блокировать и для какого пользователя, помогают технологии анализа.
Вторая задача – разметка перехваченного архива. Архив перехвата без разметки – это большая куча данных, работать с которой можно только с помощью полнотекстового поиска, но и он не всегда помогает. Яркий пример – это нормальная форма в текстовых объектах InfoWatch Traffic Monitor. Например, у вас есть номер кредитной карты из 16 цифр. Этот номер в переписке может быть записан в любом формате: все цифры слитно, группы по 4 цифры с различными разделителями и т.д. Полнотекстовым поиском в архиве перехвата такой номер карты найти практически невозможно. Но тут на помощь приходит нормальная форма. В Traffic Monitor есть текстовый объект «Кредитная карта», который отлавливает кредитки вне зависимости от форматирования. После чего выделяет нормальную форму, снимая любое форматирование. Нормальная форма сохраняется в базе данных (БД) с привязкой к перехваченному объекту. Далее при поиске номер карты можно задать в любом формате, от неё также будет получена нормальная форма и уже по ней будет произведён поиск.
Анализ цепочек событий
Ещё одно применение разметки архива событий – это анализ цепочек событий. На основе такого анализа появляются продукты класса UBA (User Behavior Analytics), например, InfoWatch Prediction. Они анализируют поведение пользователя – тот набор событий в информационной среде, который пользователь генерирует. Хорошо размеченные события показывают, что же на самом деле делает пользователь: от нарушения различных политик безопасности до анализа обычных жизненных ситуаций. Отправка резюме, посещение сайта поиска работы или сайта оценки работодателей – система выстраивает подобные события в цепочку и помогает понять, есть ли вероятность увольнения. А, может быть, кто-то из сотрудников аффилирован с компанией-подрядчиком? InfoWatch Prediction умеет выявлять и такие риски. Как это работает? Можно искать аномалии в поведении, направленные аномалии – такие, как аномальное количество скопированных файлов, говорящее о накоплении информации для будущего слива. Можно отслеживать цепочки событий, применять Machine Learning и прогнозировать риски, можно искать сбои и «затыки» в бизнес-процессах и вовремя корректировать их с пользой для бизнеса. InfoWatch Prediction сейчас развивается в этом направлении.
Какие данные бывают в компании
В современном мире очень много способов представить данные. Это оправдано и помогает улучшать качество программных продуктов. Например, архивы помогают сэкономить время пересылки и место для хранения информации. Офисные форматы хранят текст, изображения, разметку текста и другую метаинформацию в одном файле. Быстро к этой информации доступ получить затруднительно, нужно знать формат хранения данных. А ИБ – это область быстрого реагирования. Поэтому в DLP-системе существует богатый набор экстракторов. Их задача получить примитивы информации из всех поддерживаемых в компании форматов (текст, изображения, векторная графика и др.).
Разумеется, текст – самый простой и удобный для анализа примитив информации. Даже изображения DLP-системы стараются привести к тексту с помощью технологии OCR (Optical Character Recognition). С изображениями работают современные методы computer vision, в т.ч. нейронные сети, которые уже могут много «рассказать» об изображении. Надеемся, в будущем технологии разовьются до такой степени, что можно будет получить полнотекстовое описание изображения (такие наработки есть уже сейчас). Не так давно из разряда бинарных в отдельный примитив информации перешли векторные изображения, т.к. мы научились их анализировать как структурированные данные.
Анализировать данные можно в трёх направлениях: смысловом, формальном и содержательном. Для смыслового поиска информации обычно используется классификатор. Данный подход позволяет при утечке из перехваченной информации извлечь тематику, не имея точного образца для поиска. При формальном анализе интересует в первую очередь то, как информация оформлена, и уже во вторую, чем она является. Яркий пример такого анализа – регулярные выражения. А вот поиском по образцу как раз и занимаются содержательные виды анализа. Для их работы необходимо иметь эталон или несколько эталонов, с которыми и сравнивается анализируемая информация.
Какие есть технологии анализа
Классификация может быть применена к данным с признаками, по которым мы можем определять некие группы или тематики данных. Довольно долго классификация не применялась к изображениям, но computer vision и увеличение вычислительных мощностей позволили классифицировать и этот вид данных. Вообще, основные критерии при создании технологий – это, конечно, максимум качества за минимум времени работы. При анализе данных «на лету» важно делать это быстро, иначе ИБ-специалист узнает о нарушении слишком поздно. DLP-система перехватывает миллионы событий ежедневно. Задержки при анализе такого огромного количества перехваченных объектов могут быть критичны для бизнеса. В нашей практике были случаи, когда в ходе пилотного внедрения DLP прямо на одной из встреч с заказчиком специалист по безопасности получил уведомление об утечке критичных данных и буквально сорвался с места, чтобы заняться этим инцидентом.
Для работы классификатора необходима обучающая коллекция. Это должна быть размеченная коллекция, т.е. каждый документ в ней должен быть отнесён к одному из представленных классов. Самая простая аналогия – это директории с документами на жёстком диске. Далее из представленных документов выделяются признаки (ключевые точки для изображений и термины для текстов), которые с привязкой к категориям отправляются в математическое ядро, а оно обучается на их основе. После того, как классификатор обучен, в него можно подавать документы. Процесс анализа схож с обучением. После перехвата из документа извлекаются признаки и подаются в математическое ядро для классификации, в результате работы классификатор возвращает принадлежность анализируемых данных к одной или нескольким категориям. Заранее настроить классификатор для любой компании чаще всего не представляется возможным. Даже одна и та же тематика у компаний, работающих на одном рынке, может выражаться разными наборами терминов. Поэтому при установке DLP производится тонкая настройка классификаторов для повышения качества их работы. В процессе эксплуатации необходимо так же понадобится донастройка классификаторов, т.к. меняются категории или их признаки.
Например, при настройке DLP в отделе кадров было старое, «больное» МФУ. Категория «Паспорт РФ» была дообучена на сканах с этого МФУ. Через полгода в отделе кадров появилось новое модное МФУ с очень высоким качеством сканирования. С его сканов стали снимать больше ключевых точек, плюс перераспределились старые, а также не стало царапин на стекле сканера, которые давали ключевые точки. В такой ситуации качество классификации упадет, хотя и не критично. Однако этому можно противостоять, дообучив классификатор – предъявив ему новые примеры отсканированных паспортов.
Кроме изображений мы классифицируем и тексты. Для классификации текстов можно использовать много подходов из машинного обучения, InfoWatch использует два: косинусную меру (т.н. БКФ — База Контентной Фильтрации) и логистическую регрессию, с применением которой у нас скоро выйдет очередной релиз. Для текста признаками являются слова. Слова практически в любом языке имеют формы, при этом конечный смысл текста, в котором эти формы используются, меняется не радикально. Поэтому, в наших классификаторах используется морфология слова. Мы используем морфологические словари для нескольких языков (сейчас их 18), приводя все слова к нормальной форме, что помогает повысить качество классификации. Для тех языков, для которых у нас нет словарей, классификаторы работают на точное совпадение. Для поднятия точности есть еще технология исправления опечаток, которая выделенные слова сравнивает с известными терминами и может исправить одну опечатку.
Для формального анализа используются регулярные выражения, в Traffic Monitor они представлены в технологии текстовые объекты.
Программа dlp что это
Що таке DLP?
Це рішення для запобігання витоку конфіденційних файлів за межі мережі компанії.
DLP-системи аналізують усю вхідну та вихідну інформацію та за допомогою неї виявляють підозрілі операції та ризики.
Найпоширеніші канали витоку даних
- Мережа (браузер, хмарні сервіси).
- Електронна пошта.
- Роздруковані документи.
- Викрадення / втрата обладнання.
- Змінні носії (USB, телефони, жорсткі диски).
- Програми для миттєвого обміну повідомленнями (Skype, Viber та ін.).
Навіщо потрібні DLP-системи?
Досить часто співробітники спричиняють витоки ненавмисно — причинами є неуважність, недбалість або некомпетентність. Однак викрадення файлів з метою подальшого продажу конкурентам, помсти або започаткування власної компанії на основі унікальної інформації також є досить поширеними.
Звісно, гарантувати абсолютний захист від наслідків діяльності працівників не може жодна DLP-система, однак вона дозволяє значно мінімізувати ризики та наслідки людських помилок, а також забезпечують дотримання положень про захист конфіденційних даних.
Відомі приклади
Одразу дві британські компанії — авіаперевізник British Airways та мережа готелів Marriott Starwood у 2019 році опинилися в центрі гучного скандалу через витоки даних, через які постраждали мільйони клієнтів. Внаслідок цього інциденту компанії змушені були заплатити мільйонні штрафи.
Іншим відомим прикладом став випадок у 2016 році, коли один з найбільших у світі мобільних операторів T-mobile зазнав витоку даних понад 1,5 мільйона користувачів з Чеської республіки.
Варто зазначити, що втрати даних не завжди трапляються з цифрових носіїв. Зокрема, у Австралії у вогнетривких канцелярських шафах з комісійного магазину були виявлені тисячі сторінок секретних урядових документів.
При подготовке материала использовались источники:
https://habr.com/ru/articles/213209/
https://vc.ru/services/188527-chto-takoe-dlp-sistema-kak-ona-vidit-vashi-dannye-i-pochemu-oni-kladez-informacii-dlya-upravleniya-biznesom
https://www-eset-com-cdn-endpoint.azureedge.net/ua/support/information/entsiklopediya-ugroz/dlp/