Проблема: Почему данные становятся грязными?

Q: Готовы навести порядок в данных?

- [1] Integrate.io — Data Quality Improvement Stats from ETL - [2] LakeFS — The cost of poor data quality on business operations - [3] ESRI — Data Quality Across the Digital Landscape - [4] Keymakr — Challenges in Maintaining Data Quality - [5] Spotintelligence — Entity Resolution Explained: Top 12 Techniques - [6] GetCensus — Improving Data Quality with Entity Resolution - [7] GetGalaxy — Top 10 Graph Database Use Cases for Modern Business - [8] Snowflake — Using Entity Resolution To Harmonize Product Data - [9] Anblicks — AI-Powered Supplier Data Normalization for Procurement - [10] GEP — Intelligent Procurement Data Normalization - [11] GetCensus — Identity vs. Entity Resolution in B2B Tech and Retail - [12] Integrate.io — Data Normalization for Data Quality & ETL Optimization - [13] Ve3.Global — The Science of Data Deduplication: Best Practices - [14] HyperScience — How Businesses can control Duplicated Data Shipmint помогает компаниям внедрять решения для очистки и унификации данных с использованием графовых баз и Entity Resolution.

Никита Яночкин·18 октября 2025 г.· 10 мин чтения

TL;DR

25–30% данных в организациях содержат ошибки, и плохое качество данных обходится бизнесу в среднем $12,9 млн убытков в год. Entity Resolution с помощью графовых баз данных автоматизирует 95% работы по унификации данных, оставляя лишь 5% для человеческого суждения в «серых» случаях. Традиционные методы (Excel, VLOOKUP) не масштабируются: обработка 4 часов в неделю вручную стоит €1 320 в год, а система на графовой базе выполняет ту же работу за 7–15 секунд. ROI окупается за 3–4 года только по прямой экономии, без учёта предотвращённых убытков от неверных управленческих решений.

Проблема: Почему данные становятся грязными?

Откуда берётся хаос в данных?

Почему это опасно именно для вашего бизнеса?

• Первый поставщик называет продукт Canon imagePRESS C256
• Второй пишет CANON ImagePress C-256
• Третий просто ImagePress Canon C256

Представьте, что у вас есть бизнес, который закупает офисные товары у разных поставщиков. Каждый поставщик отправляет вам таблицу с товарами, ценами и характеристиками. На первый взгляд кажется просто: получил файл, загрузил в базу, готово. Но на деле всё намного сложнее.

Пример из реальной жизни:

Технически это одно и то же оборудование, но ваша база данных видит три разных товара.

Когда вы пытаетесь сделать анализ цен этого оборудования, вместо единого тренда вы видите три разных кривые. Ваша аналитика даёт вам три разных ответа на один вопрос.

Это называется «грязными данными» — и это не редкость, а норма. По статистике, 25-30% данных в организациях содержат ошибки. Это могут быть:

"HP LaserJet" vs "HP Laserjet" vs "Hp LaserJet"

"2024-01-15" vs "01/15/2024" vs "15 January 2024"

Поле "Модель" пусто — товар невозможно идентифицировать

Один товар под разными SKU в разных системах

Результат? Аналитика врёт, отчёты неправильные, а управленческие решения принимаются на основе фикции. McKinsey Global Institute нашла, что плохие данные приводят к снижению производительности на 20% и увеличению затрат на 30%.

Предположим, вы хотите понять, какие товары приносят вам больше всего экономии. Вы запускаете отчёт, и система говорит вам: "Ваш топ товар — это Canon imagePRESS C256". Звучит хорошо. Но на самом деле это три разных записи одного оборудования с разными ценами и количествами. Реальная экономия от этого товара в 3 раза выше, и вы упускаете критический инсайт.

Вы используете CRM для управления поставщиками. У одного поставщика в системе три профиля (потому что он зарегистрировался тремя разными способами). Вы отправляете ему три разных запроса предложения — выглядит странно, поставщик раздражён. Или вы пытаетесь дать ему объём заказа, но система не видит, что он постоянный партнер, потому что его заказы раскиданы по разным профилям.

Проблема Entity Resolution — это именно про это. Когда система должна понять, что "Kyocera Ecosys" и "Kyocera Ecosys" с опечаткой — это один и тот же принтер, не два разных. Или что поставщик "ABC Ltd." (abc.ltd@mail.com) и "A.B.C. Limited" (contact@abc.com) — это одна организация.

Решение традиционное: Почему Excel и VLOOKUP больше не работают

Ручная очистка данных: миф о масштабируемости

Почему регулярные выражения недостаточно

Regex хорошо работает для простых шаблонов ("заменить все пробелы на подчёркивания")
Но он не понимает контекст ("это опечатка в названии товара" vs "это специальный символ в бренде")
Regex требует ручной настройки для каждого нового случая
Когда данные беспорядочные и несогласованные, regex часто даёт ложные срабатывания

Экспортируют данные в Excel
Создают формулы (VLOOKUP, IF, CONCATENATE)
Вручную проходят по всем записям и исправляют ошибки
Загружают результат обратно

Многие компании пытаются решить проблему грязных данных "по старинке":

Звучит управляемо? На сто товаров — может быть. На тысячу товаров — уже медленно. На миллион? Невозможно медленно, и при этом людские ошибки гарантированы.

Проблема в том, что ручная очистка не масштабируется. Когда приходит новый поставщик с 500 товарами, вы снова начинаете с нуля. Формулы Excel хрупкие: одно изменение в структуре данных — и всё ломается. Как говорят разработчики, VLOOKUP — это "техдолг в таблице".

Продвинутые команды используют регулярные выражения (regex) для парсинга и очистки данных. Это лучше, чем Excel, но всё равно неполное решение:

Пример проблемы с regex:

У вас есть строка "Xerox WorkCentre 5835 @ 15,500 EUR / шт.". Вы пишете regex, чтобы вытащить название оборудования. Regex хватит "Xerox", потому что не понимает, что "@" здесь — это разделитель, а не часть названия. Вам нужна более умная система.

Правильное решение: Entity Resolution + Графовые Базы

Что такое Entity Resolution и почему это работает?

Графовые базы данных: почему граф, а не таблица?

Связи первый класс: отношения хранятся явно, не требуют сложных JOIN-запросов
Быстрые запросы: даже миллионы связей запрашиваются быстро (в миллисекундах)
Контекст и логика: система понимает не просто "это дублирующиеся записи", но и почему они дублирующиеся (опечатка? вариация? alias?)
Масштабируемость: новые поставщики, новые товары — граф растёт, логика работает дальше без переписывания

Entity Resolution (разрешение сущностей) — это процесс, при котором система автоматически определяет, какие записи в разных источниках относятся к одной и той же сущности в реальном мире.

Это не просто "найти дублирующиеся записи и удалить". Это создание единого "канонического" представления каждой сущности, которое:

из всех источников в единую запись

различные форматы и написания

между вариациями (например, "Canon ImagePress" — это вариант "Canon imagePRESS")

эти отношения для будущих данных

Традиционные базы данных (SQL) — это таблицы и строки. Они хороши для простых данных (Имя, Фамилия, Email). Но когда дело доходит до сложных отношений, они неэффективны.

Представьте, что вы хотите найти все варианты написания оборудования "Ricoh MP C3004":

Вы должны угадать все возможные вариации и написать их в запрос. Если появится новый вариант, который вы не предусмотрели — запрос его пропустит.

В графовой базе данных (например, Neo4j):

Вы храните не просто текст, а связи:

Теперь, когда система видит "Richoh MP C3004" в новом прайс-листе, она автоматически знает, что это опечатка, и может найти каноническое название через связи в графе.

Как это работает на практике: воображаемый пример

Парсинг: система разбирает каждую строку и выделяет компоненты (бренд, модель, тип, цена)
Нормализация: приводит всё к единому формату (XEROX → Xerox, WorkCentre 5835 → Xerox WorkCentre 5835)
Matching: ищет в графе похожее оборудование
Entity Resolution: система говорит: "Это одно и то же. Создаю связи в графе"

Допустим, вы — директор закупок в компании, которая закупает офисное оборудование через разных дистрибьюторов. Вам пришли три прайс-листа:

Лист 1 (Дистрибьютор A):

Модель: WorkCentre 5835

Тип: Многофункциональное устройство

Лист 2 (Дистрибьютор B):

Оборудование: Xerox WorkCentre 5835 MFP

Объём печати (PPM): 35

Лист 3 (Дистрибьютор C):

Строка 1: Xerox WorkCentre

Строка 2: Model 5835 Color

Строка 3: €14,100 / за единицу

Три разных товара, три разных цены, вы не знаете точно, что покупаете.

Система автоматически определяет: "Это одно и то же оборудование" и создаёт связи в графе.

Система проходит каждый лист:

Теперь ваш отчёт говорит правду: "Xerox WorkCentre 5835 поставляют все три дистрибьютора. Дистрибьютор A — самый выгодный. Средняя цена — €13,267".

Это не просто данные. Это знание.

Компоненты решения: что нужно под капотом?

• Точное совпадение = 100 очков
• Совпадают 3 из 4 токенов = 85 очков
• Совпадают только бренд и модель = 60 очков

Чтобы такое решение работало, нужны несколько компонентов:

Когда данные приходят в беспорядочном виде (товар разбит по нескольким строкам, нет чёткого разделителя), обычный парсер сломается. Нужен State Machine — парсер, который помнит контекст.

Пример: если парсер прочитал "Бренд: Xerox" в одной строке, а в следующей строке видит "Модель: WorkCentre 5835", то он понимает: "Мы в контексте Xerox, поэтому это модель Xerox, а не отдельный товар".

Система разбивает названия товаров на "токены" (части) и сравнивает их:

3 Scoring функция для автоматического выбора

Когда система находит несколько похожих товаров в графе, она должна выбрать лучшего кандидата. Для этого используется scoring функция:

Если товар набирает > 80 очков, система считает его матчем. Если < 40 — это новое оборудование, добавляем в граф.

Важный момент: полная автоматизация невозможна и не нужна.

Есть "серые" случаи: Xerox WorkCentre 5835 vs Xerox WorkCentre 5835 Color (разные модели или варианты?)

Для таких случаев нужен интерфейс для людей, где закупочный специалист может вручную подтвердить или отклонить матч. Система "запомнит" это решение и применит его к похожим случаям в будущем.

Это честно: "AI делает 95% работы автоматически, 5% требуют человеческого суждения".

Применение: Где это работает?

Может показаться, что это решение подходит только для закупок или e-commerce. На самом деле, Entity Resolution и графовые базы работают везде, где есть данные из разных источников:

Унификация товарных каталогов от разных поставщиков, маркетплейсов, и внутренних систем. Создание "единого товарного справочника".

Унификация данных поставщиков. Маппирование товаров и услуг для анализа расходов.

Обнаружение мошенничества через анализ сети транзакций. Выявление связанных счётов.

Объединение медицинских записей пациента из разных больниц и клиник в единый профиль.

Создание "единого вида на клиента" (Customer 360), когда клиент разбросан по разным системам.

Парсинг контактной информации компаний, вытягивание лиц для принятия решений, матчинг между разными базами лидов.

Практический путь реализации

• Анализ источников данных
• Определение самых "грязных" полей
• Оценка объёма проблемы (сколько дублей, опечаток, вариаций)
• Определение "сущностей" (товар, клиент, бренд, поставщик)
• Определение "отношений" между ними (IS_ALIAS_OF, HAS_VARIANT, PRODUCED_BY и т.д.)
• Создание иерархии: что главное, что — вспомогательное
• Написание State Machine для каждого типа входных данных
• Настройка tokenization и matching
• Создание scoring функции
• Интерфейс для ручного разрешения "серых" случаев
• Интерфейс для добавления новых товаров/сущностей в граф
• Логирование и аудит всех изменений
• Unit-тесты для каждого компонента
• Прогонка на реальных данных
• Итеративное улучшение scoring функции
• Запуск на продакшене
• Постоянный мониторинг качества матчей
• Обновление правил при появлении новых типов ошибок

Вот как обычно выглядит путь к решению:

ROI и финансовое обоснование

Правильные решения на основе чистых данных (экономия от неправильных решений)
Скорость обработки новых источников данных (вместо 1 недели — 30 минут)
Масштабируемость (система растёт с объёмом данных, люди — нет)
Лучший анализ расходов (видимость всех вариантов поставщиков)

Звучит сложно — так ли оно того стоит?

Допустим, у вас есть сотрудница, которая 4 часа в неделю вручную чистит данные и маппит товары. Её зарплата стоит €6,35 в час (европейский уровень).

4 часа × €6,35 = €25,4 в неделю

€25,4 × 52 недели = €1 320 в год

Автоматизированная система может обработать те же 4 часа работы за 7-15 секунд.

Чтобы окупить стоимость разработки (скажем, €5 000), система должна отработать 4 года (€5 000 ÷ €1 320 = 3,8 года).

Но это только прямая экономия на зарплате. Добавьте:

И ROI получается намного выше.

Заключение

→ AI-автоматизация бизнес-процессов в 2025 году: руководство для компаний Казахстана
→ Комплексные AI-решения vs отдельные инструменты: что выбрать в 2025 году

Проблема грязных данных универсальна — работаете ли вы с товарами, клиентами, поставщиками или чем-то ещё
Традиционные подходы (Excel, regex) не масштабируются
Графовые базы данные — это правильный инструмент для хранения и работы с отношениями между данными
Entity Resolution + State Machine парсер + scoring функция + human-in-the-loop = решение, которое работает
ROI окупается за 3-4 года, и это не считая выгоды от правильных решений

Грязные данные — это не просто раздражающая проблема. Это финансовая потеря в $12,9 млн в год (в среднем по организации). Это неправильные решения, потраченное время, упущенные возможности.

Entity Resolution с помощью графовых баз данных — это не новая технология. Но это технология, которая только сейчас становится доступной и практичной для бизнеса среднего размера. В прошлом это требовало команду учёных-данных и годы разработки. Сейчас благодаря автоматизации на базе ИИ-агентов это можно запустить за несколько недель.

Если вы находитесь в ситуации, где данные из разных источников постоянно конфликтуют, где аналитика даёт странные результаты, или где один человек тратит часы на ручную очистку — это признак того, что пора рассмотреть более систематический подход.

Потому что в 2025 году, когда данные — это ваш главный актив, у вас не может быть "просто грязные данные". Это обходится слишком дорого.

Часто задаваемые вопросы (FAQ)

Готовы навести порядок в данных?

[1]

Integrate.io — Data Quality Improvement Stats from ETL
[2]

LakeFS — The cost of poor data quality on business operations
[3]

ESRI — Data Quality Across the Digital Landscape
[4]

Keymakr — Challenges in Maintaining Data Quality
[5]

Spotintelligence — Entity Resolution Explained: Top 12 Techniques
[6]

GetCensus — Improving Data Quality with Entity Resolution
[7]

GetGalaxy — Top 10 Graph Database Use Cases for Modern Business
[8]

Snowflake — Using Entity Resolution To Harmonize Product Data
[9]

Anblicks — AI-Powered Supplier Data Normalization for Procurement
[10]

GEP — Intelligent Procurement Data Normalization
[11]

GetCensus — Identity vs. Entity Resolution in B2B Tech and Retail
[12]

Integrate.io — Data Normalization for Data Quality & ETL Optimization
[13]

Ve3.Global — The Science of Data Deduplication: Best Practices
[14]

HyperScience — How Businesses can control Duplicated Data

Shipmint помогает компаниям внедрять решения для очистки и унификации данных с использованием графовых баз и Entity Resolution.

Проблема: Почему данные становятся грязными?

TL;DR

Проблема: Почему данные становятся грязными?

Откуда берётся хаос в данных?

Почему это опасно именно для вашего бизнеса?

Решение традиционное: Почему Excel и VLOOKUP больше не работают

Ручная очистка данных: миф о масштабируемости

Почему регулярные выражения недостаточно

Правильное решение: Entity Resolution + Графовые Базы

Что такое Entity Resolution и почему это работает?

Графовые базы данных: почему граф, а не таблица?

Как это работает на практике: воображаемый пример

Компоненты решения: что нужно под капотом?

Применение: Где это работает?

Практический путь реализации

ROI и финансовое обоснование

Заключение

Часто задаваемые вопросы (FAQ)

Готовы навести порядок в данных?

Читайте также

Читайте также

Почему Числа в Google Ads и GA4 Никогда Не Совпадают Идеально?

Почему ChatGPT теряет свою гегемонию?

Почему закрываются казахстанские компании: ИИ-решения