Новые правила обезличивания персональных данных уже действуют. Разбираемся, как обезличить данные правильно и необратимо. Собрали всё в чек-лист.
Что это: ФИО, телефоны, e-mail, паспорт/ИНН/СНИЛС, точный адрес, ID устройств/аккаунтов.
Как сделать: выгрузите список полей и проверьте, что этих столбцов нет (или они очищены/заменены кодами, не связанными с реальными данными).
Инструменты: Excel (фильтр по названию колонок), DLP/регэксп-поиск по шаблонам.
ОК, если: в наборе нет явных персональных полей.
Что это: таблицы «реальный ID → анонимный ID», соли/seed, любые «ключи».
Как сделать: храните такие файлы отдельно в защищённой зоне; не пакуйте их вместе с датасетом; запретите доступ внешним лицам.
ОК, если: получателю датасета невозможно восстановить исходные идентификаторы.
Что это: поля «комментарий», «примечание», «описание» (там часто «утекают» ФИО/телефоны).
Как сделать: прогоните текст через поиск шаблонов (телефон/e-mail/паспорт), удалите совпадения или замените масками.
Пример: «Иванов И.И. +7-900-…» → «[скрыто]».
ОК, если: автоматическая проверка не находит ПДн в тексте.
Что это: поля, по комбинации которых человека можно «вычислить» (возраст+район+должность и т. п.).
Как сделать:
ОК, если: ни одно поле не даёт избыточной точности.
Что это: значения/категории, встречающиеся очень мало (в «хвостах»).
Как сделать: посчитайте частоты; категории с частотой < n (выберите порог, напр., <10 записей) объедините в «Прочее» или укрупните до родительской группы.
ОК, если: нет «редких» значений, по которым можно уникально опознать человека.
Что это: разрыв «сцепки» между полями (например, перетасуйте строки или некоторые атрибуты внутри группы).
Как сделать: в выборках, где возможны уникальные сочетания, используйте перемешивание или микс-техники (swapping) внутри однородных сегментов (один город/класс).
ОК, если: исходные «уникальные связки» разбиты.
Что это: небольшое контролируемое искажение чисел, либо перевод чисел в «бины» (диапазоны).
Как сделать: суммы округляйте (до тысячи/десятков тыс.), длительности — до минут/часов, координаты — до района/квадрата.
ОК, если: точные значения не восстанавливаются, а бизнес-метрики (тренды) сохраняются.
Что это: каждый «профиль» по выбранным квазиидентификаторам встречается минимум у 10 разных записей.
Как сделать:
Инструменты: Excel.
ОК, если: минимальный размер группы ≥10.
Что это: «одиночные» записи по выбранной комбинации квазиидентификаторов.
Как сделать: по той же сводной таблице посчитайте процент групп с размером =1 от общего числа записей.
ОК, если: ≤0,5% (или вовсе нет одиночек). При превышении — укрупнить поля/объединить редкие.
Что это: группы меньше порога k (напр., 2–9, если k=10).
Как сделать: выявите такие группы и примените укрупнение/подавление (как в пп. 4–5).
ОК, если: минимальная группа ≥k.
Что это: проверка, можно ли «сшить» ваш набор с открытыми данными/внутренними витринами и восстановить личности.
Как сделать: выберите реалистичные внешние источники (открытые реестры, данные компании из другой системы), попробуйте сопоставить по общим полям (город+период+категория и т.п.).
ОК, если: совпадения редки и ниже заданного порога; риск ре-идентификации низкий.
Что это: внутренние ID, пути к файлам, имена пользователей, комментарии, GUID, URL, хэши, которые могут «выдать» ключи.
Как сделать: проверьте перечень колонок и свойства файла; удалите ненужные служебные поля.
ОК, если: получатель не увидит служебных «следов» вашей системы.
Что это: названия «client_ivanov.xlsx», «2025-07-HR-petrov.docx» – так делать нельзя.
Как сделать: используйте нейтральные имена (например, dataset_A_v3_2025-08-10.parquet), без намёков на личности/ключи/службы.
ОК, если: по имени файла нельзя догадаться о содержимом ПДн.
Что это: нельзя считать анонимизацией «только шифрование» или «только хэш».
Как сделать: применяйте комбинацию методов из пп. 4-7; криптография может использоваться дополнительно для защиты, но не как способ обезличивания.
ОК, если: обезличивание достигается содержательными методами (обобщение, подавление, перемешивание и т. д.).
Что это: отчёт об анонимизации, список полей до/после, скрипты/версии, параметры биннинга/шума, контрольные суммы, результаты k-анонимности и доли уникальных, лог действий.
Как сделать: сложите всё в защищённую папку/репозиторий; дайте названия, дату, версию.
ОК, если: любой внутренний аудит сможет воспроизвести процесс.
Что это: финальный «допуск» на передачу.
Как сделать: короткий лист согласования: владелец набора → ИБ/данные-сайентист → юрист/ответственный за ПДн → утверждающий (CISO/DPO).
ОК, если: все подписи/одобрения есть; канал выгрузки согласован.
Шаблон с автоподсчётом k-анонимности и уникальности – в Телеграм-канале или MAX-канале. Можно пройтись по пунктам чек-листа и поставить «ОК / НЕ ОК».
Доверьте обезличивание профессионалам. Проверим ваши данные, подготовим отчёт, поможем соблюсти требования.
Актуальные новости, акции, мероприятия и полезная информация
ПодписатьсяЭлектронные документы должны сохранять юридическую значимость спустя годы. Разбираем, как организовать хранение документов, не перегружать рабочие системы и выстроить единый процесс работы с архивом.
Проведите инвентаризацию ИСПДн, пока не пришёл Роскомнадзор. Пошаговая инструкция: от анализа бизнес-процессов до готового реестра, который спасёт от штрафов.
В этой статье мы разберём, какие риски несёт утечка и какие шаги должен предпринять бизнес в соответствии с требованиями Федерального закона 152-ФЗ.
Подпишитесь на рассылку: новости, акции, мероприятия и полезная информация. Подробнее о наших рассылках
Нажимая кнопку "Подписаться", вы соглашаетесь с политикой конфиденциальности
Подпишитесь на рассылку для руководителей: новости, акции, мероприятия и полезная информация.
Нажимая кнопку "Подписаться", вы соглашаетесь с политикой конфиденциальности
Этот сайт использует файлы куки для хранения данных. Продолжая использовать сайт, Вы соглашаетесь с Политикой обработки персональных данных.
Принимаю