Що робити, якщо у постачальників різні назви для тих самих товарів?
-
Роман Ревун
Копірайтер Elbuz
Один із найпоширеніших викликів під час роботи з кількома постачальниками - це розбіжності у назвах ідентичних товарів. Смартфон Apple iPhone 15 Pro може називатися "iPhone 15 Pro 256GB Titanium", "Apple iPhone15Pro 256Gb Титан", "Айфон 15 Про 256 ГБ" або "APPLE IPHONE 15 PRO (256GB, Natural Titanium)". Всі ці варіанти позначають один товар, але система автоматично сприйме їх різні позиції.
Проблема зіставлення призводить до критичних наслідків: дублювання карток товарів у каталозі, неможливості коректно порівнювати ціни різних постачальників, помилок у залишках та труднощі в аналітиці. У цьому посібнику ми розглянемо ефективні методи вирішення цього завдання – від базових технік до використання машинного навчання.
Причини розбіжностей у назвах товарів
Розуміння причин відмінностей допомагає вибрати правильну стратегію зіставлення.
Технічні причини
- Різні ERP-системи: кожен постачальник використовує свою облікову систему із власними правилами формування найменувань
- Ручне введення даних: оператори по-різному запроваджують характеристики товарів
- Імпорт від виробників: різні версії каталогів та перекладів
- Автоматичні транслітерації: перетворення назв з інших мов
Лінгвістичні відмінності
- Синоніми: "мобільний телефон", "смартфон", "стільниковий"
- Абревіатури: "256GB" vs "256 Гб" vs "256 ГБ"
- Порядок слів: "Samsung Galaxy S24 Ultra 256GB Black" vs "Galaxy S24 Ultra 256GB Samsung Black"
- Реєстр: "iPhone 15 Pro" vs "IPHONE 15 PRO" vs "iphone 15 pro"
- Розділювачі: "iPhone15Pro" vs "iPhone 15 Pro" vs "iPhone-15-Pro"
Регіональні особливості
- Локалізація: європейські назви можуть відрізнятись від азіатських версій
- Колірні варіанти: "Titanium" vs "Титан" vs "Титановий"
- Маркетингові назви: різні постачальники додають свої акценти
- Одиниці виміру: літри vs л vs L, кілограми vs кг vs kg
Масштаб проблеми
У каталозі з 10 000 товарів від 5 постачальників без системи зіставлення може утворитися до 30-40% дублів. Це означає 3000-4000 зайвих карток товарів, які захаращують каталог і вводять покупців в оману.
Методи зіставлення товарів
Існує кілька базових методів ідентифікації товарів, які можна комбінувати задля досягнення максимальної точності.
1. Зіставлення по артикулам виробника
Принцип: використання унікального коду виробника (SKU, MPN – Manufacturer Part Number) як основного ідентифікатора.
Переваги:
- Висока точність - артикул виробника.
- Не залежить від назви товару
- Стандартизовано для більшості брендів
- Легко автоматизувати
Проблеми:
- Не всі постачальники надають артикул виробника
- Можливі друкарські помилки в артикулах
- Різні формати запису (з пробілами, дефісами)
- Деякі товари не мають артикулів (noname продукція)
Приклад зіставлення за артикулом
Постачальник A: "Смартфон Apple iPhone 15 Pro Max 256 GB Blue Titanium" - Артикул: MU793
Постачальник B: "APPLE iPHONE 15 PRO MAX 256 ГБ СИНІЙ ТИТАН" - Артикул: MU793
Результат: Система визначає, що це один товар, незважаючи на різні назви.
2. Зіставлення по штрих-кодах
Міжнародні стандарти штрих-кодів:
- EAN-13: європейський стандарт, 13 цифр (наприклад, 5901234123457)
- UPC-A: американський стандарт, 12 цифр
- ISBN: для книг, 10 або 13 символів
- GTIN: глобальний ідентифікатор торгової одиниці
Переваги штрих-кодів:
- Абсолютна унікальність для кожної товарної позиції
- Міжнародний стандарт, визнаний усіма учасниками ринку
- Використовується в логістиці та складському обліку
- Легко верифікувати через відкриті бази даних
Обмеження:
- Не всі постачальники вказують штрих-коди в прайсах
- Один товар може мати кілька штрих-кодів (для різних регіонів)
- Дрібні виробники можуть не реєструвати штрих-код
- Можливі технічні помилки під час введення довгих цифрових кодів
3. Зіставлення за характеристиками
Коли артикули та штрих-коди недоступні, використовується аналіз ключових характеристик товару.
Ключові параметри для електроніки:
- Бренд: Apple, Samsung, Sony (обов'язково)
- Модель: iPhone 15 Pro, Galaxy S24 Ultra (обов'язково)
- Об'єм пам'яті: 128GB, 256GB, 512GB
- Колір: Black, White, Titanium
- Додаткові параметри: покоління процесора, розмір екрану
Для одягу та взуття:
- Бренд
- Артикул колекції
- Розмір (EU, US, UK)
- Колір
- Сезон/колекція
Алгоритм зіставлення за характеристиками
- Витягти з назви бренд та модель
- Нормалізувати текст (привести до єдиного регістру, видалити зайві символи)
- Виділити числові характеристики (обсяг пам'яті, розміри)
- Визначити колір із визначеного списку
- Порівняти отримані параметри з існуючими товарами
- При збігу всіх ключових параметрів – порівняти товари
4. Комбінований підхід
Найбільш ефективна стратегія - використання кількох методів із пріоритизацією:
- Перший рівень: пошук по штрихкоду EAN/UPC (100% точність)
- Другий рівень: пошук за артикулом виробника (95-98% точність)
- Третій рівень: зіставлення за характеристиками (85-90% точність)
- Четвертий рівень: нечітке текстове порівняння назв (70-80% точність)
- Ручна перевірка: для випадків, що залишилися
Автоматичне зіставлення
Сучасні системи управління даними використовують комплексні алгоритми для автоматизації процесу зіставлення.
Алгоритми нечіткого порівняння
Відстань Левенштейна (Levenshtein Distance):
Вимірює мінімальну кількість операцій (вставка, видалення, заміна символу) для перетворення одного рядка на інший.
Приклад використання
"iPhone 15 Pro 256GB" та "iPhone15Pro 256GB"
Відстань: 2 операції (додати 2 пробіли)
Схожість: 92% - товари можна порівняти
Інші алгоритми:
- Jaro-Winkler Distance: враховує позицію символів, що збігаються, краще працює з короткими рядками
- Soundex / Metaphone: фонетичне порівняння, корисне для транслітерацій
- N-grams: порівняння підрядок фіксованої довжини
- TF-IDF: векторне подання тексту для пошуку подібних документів
Токенізація та нормалізація
Етапи підготовки даних:
- Приведення до нижнього регістру: "iPhone" → "iphone"
- Видалення спецсимволів: "iPhone-15" → "iphone 15"
- Нормалізація прогалин: "iPhone 15" → "iphone 15"
- Уніфікація одиниць виміру: "256 Гб" → "256gb"
- Видалення стоп-слів: "новий", "оригінальний", "офіційний"
- Транслітерація: "Айфон" → "iphone"
Поріг схожості
Критично важливо правильно налаштувати поріг автоматичного зіставлення:
- 95-100%: автоматичне зіставлення без перевірки
- 85-95%: автоматичне зіставлення з логуванням для аудиту
- 70-85%: пропозиція зіставлення для ручної перевірки
- Нижче 70%: відхилення, потрібна ручна обробка
Використання AI та Machine Learning
Сучасні підходи із застосуванням штучного інтелекту значно підвищують точність зіставлення.
Supervised Learning (Навчання з учителем)
Система навчається на розмічених даних - парах продуктів, які були зіставлені вручну.
Процес:
- Збір навчальної вибірки (1000-5000 пар товарів)
- Вилучення ознак (features): схожість назв, збіг артикулів, категорія
- Навчання моделі класифікації (Random Forest, Gradient Boosting)
- Валідація на тестовій вибірці
- Застосування моделі для автоматичного зіставлення
Deep Learning із використанням ембеддингів
Просунута техніка, що використовує нейронні мережі для представлення товарів у векторному просторі.
- Word2Vec / FastText: векторні уявлення слів та фраз
- BERT / Transformers: контекстне розуміння назв товарів
- Siamese Networks: нейромережі для визначення схожості пар об'єктів
- Cosine Similarity: вимірювання схожості векторів у багатовимірному просторі
Переваги ML-підходів
- Точність порівняння: 95-98% (vs 85-90% для rule-based систем)
- Здатність навчатися нових даних
- Розуміння контексту та семантики
- Адаптація до специфіки вашого каталогу
- Обробка складних випадків (синоніми, абревіатури)
Практична реалізація
Процес автоматичного зіставлення:
- Отримання нового прайсу: завантаження файлу від постачальника
- Передобробка: парсинг, нормалізація даних
- Пошук точних збігів: по EAN, артикулу виробника
- Нечітке зіставлення: для товарів без точних ідентифікаторів
- ML-аналіз: застосування навченої моделі
- Формування результатів: автоматично зіставлені кандидати для перевірки
- Логування: збереження всіх операцій для аудиту
Ручне коригування та керування винятками
Навіть найпросунутіші системи автоматизації вимагають ручного контролю для обробки нестандартних випадків та підвищення точності.
Коли необхідне ручне втручання
- Нові бренди: система ще не навчена на цих товарах
- Складні конфігурації: товари з безліччю варіацій
- Схожі моделі: "iPhone 15" vs "iPhone 15 Plus" - відмінності критичні
- Регіональні версії: EU версія vs US версія з різними характеристиками
- Набори та комплекти: окремий товар vs набір
- Низька впевненість системи: схожість нижче встановленого порога
Інтерфейс ручного зіставлення
Ключові елементи UI:
- Список кандидатів: товари з нового прайсу, які вимагають перевірки
- Пропозиції системи: автоматично знайдені схожі товари з відсотком схожості
- Паралельне порівняння: таблиця з характеристиками обох позицій
- Історія змін: попередні зіставлення цього товару
- Швидкі дії: прийняти / відхилити / створити новий товар
Створення майстер-картки товару
При зіставленні кількох постачальників однією товар створюється єдина майстер-картка:
- Назва: уніфіковане найменування для каталогу
- Основні ідентифікатори: артикул виробника, EAN
- Характеристики: повний набір атрибутів
- Зв'язки з постачальниками: ID товару у кожного постачальника
- Правила оновлення: які поля оновлювати під час імпорту
Управління аліасами
Система аліасів (псевдонімів) дозволяє пов'язати різні назви одного товару:
- Основна назва: "Apple iPhone 15 Pro 256GB Titanium"
- Аліаси:
- "iPhone 15 Pro 256GB Titanium"
- "iPhone15Pro 256Gb Титан"
- "Айфон 15 Про 256 ГБ Титановий"
- "APPLE IPHONE 15 PRO (256GB) Natural Titanium"
При наступному імпорті прайсу з будь-якою з цих назв система автоматично розпізнає товар.
Словники та довідники
Ведення довідників допомагає стандартизувати дані:
Словник брендів
- "Apple" = ["Apple", "APPLE", "apple", "Епл", "Яблуко"]
- "Samsung" = ["Samsung", "SAMSUNG", "Samsung", "Samsung Electronics"]
Словник квітів
- "Black" = ["Black", "Чорний", "Чорний", "BLK", "Noir"]
- "White" = ["White", "Білий", "WHT", "Blanc"]
Одиниці виміру
- "GB" = ["GB", "Gb", "ГБ", "Гб", "Гб", "Гігабайт"]
- "kg" = ["kg", "кг", "кілограм", "кілограма"]
Навчання системи на ручних рішеннях
Кожне ручне зіставлення – це цінні дані для покращення ML-моделі:
- Логування рішень: запис усіх ручних зіставлень
- Періодичне перенавчання: раз на місяць/квартал
- A/B тестування: перевірка нової моделі на історичних даних
- Feedback loop: система стає точнішою з кожним рішенням
Типові помилки при ручному зіставленні
- Зіставлення схожих, але різних моделей: iPhone 15 та iPhone 15 Plus - це різні товари
- Ігнорування важливих характеристик: об'єм пам'яті, колір можуть бути критичні
- Поспішні рішення: важливо перевірити всі параметри перед зіставленням
- Відсутність документування: записуйте причину нестандартних рішень
Найкращі практики та рекомендації
Стандартизація даних біля джерела
Працюйте з постачальниками над покращенням якості прайсів:
- Запитуйте артикули виробника та EAN коди
- Погодьте стандартний формат найменувань
- Просіть виділяти характеристики в окремі стовпці
- Надайте постачальникам шаблон прайс-листа
Регулярний аудит
Періодично перевіряйте якість зіставлення:
- Щотижня: перегляд нових автоматичних зіставлень
- Щомісяця: аналіз статистики (відсоток автоматизації, помилки)
- Щоквартально: повний аудит каталогу на дублі
- При змінах: перевірка після додавання нового постачальника
Метрики ефективності
Слідкуйте за ключовими показниками:
- Відсоток автоматизації: скільки товарів зіставляється без участі людини (мета: 85-90%)
- Точність зіставлення: відсоток правильних рішень (ціль: 98%+)
- Час обробки: середній час на ручне зіставлення одного товару
- Кількість дублів: відсоток дубльованих карток у каталозі (ціль:<1%)
Приклад розрахунку ефективності
Вихідні дані:
- Новий прайс: 1000 товарів
- Автоматично зіставлено: 850 (85%)
- Потребує перевірки: 150 (15%)
- Час ручної обробки: 2 хвилини на товар
Результат: 150 × 2 хв = 300 хвилин (5 годин) ручної роботи
Без автоматизації: 1000 × 2 хв = 2000 хвилин (33 години)
Економія часу: 28 годин на кожен прайс
Висновок
Проблема зіставлення товарів із різними назвами - це неминучий виклик під час роботи з кількома постачальниками. Однак сучасні технології дозволяють автоматизувати до 85-90% процесу, залишаючи для ручної обробки лише найскладніші випадки.
Ключові висновки
- Багаторівневий підхід працює найкраще: починайте з точних ідентифікаторів (EAN, артикули), потім переходьте до алгоритмів нечіткого порівняння
- Machine Learning збільшує точність: системи з ML зіставляють на 10-15% точніше, ніж rule-based алгоритми
- Якість даних критична: робота з постачальниками над стандартизацією окупається зниженням ручної праці
- Ручне коригування необхідне: навіть кращі системи вимагають людського контролю для edge cases
- Система навчається на рішеннях: кожне ручне зіставлення робить алгоритми точнішими
План впровадження системи зіставлення
- Аналіз поточної ситуації: оцініть масштаб проблеми дублів у каталозі
- Стандартизація даних: запитайте у постачальників артикули та EAN коди
- Вибір інструментів: визначте, які алгоритми підходять для вашого каталогу
- Пілотний проект: почніть з 1-2 основних постачальників
- Навчання команди: підготуйте співробітників до роботи із системою
- Поступове масштабування: додавайте інших постачальників
- Безперервне покращення: аналізуйте метрики та оптимізуйте процеси
Правильно налаштована система зіставлення - це інвестиція, яка окупається за кілька місяців за рахунок економії часу співробітників, зниження помилок у каталозі та покращення якості даних для прийняття бізнес-рішень.
Автоматизуйте зіставлення товарів з Elbuz
Платформа Elbuz використовує просунуті алгоритми машинного навчання автоматичного зіставлення товарів від різних постачальників. Система працює з артикулами, штрихкодами, характеристиками та використовує NLP для розуміння назв. Автоматизуйте до 90% процесу та забудьте про дублі в каталозі.
Дізнатись більше про автоматичну обробку прайсівПов'язані матеріали
Збережи посилання на цю сторінку
Роман Ревун
Копірайтер ElbuzМій шлях – це шлях до автоматизації успіху в інтернет-торгівлі. Тут є слова ткачі інновацій, а тексти – магія ефективного бізнесу. Ласкаво просимо до мого віртуального світу, де кожна ідея – ключ до процвітання онлайн!
Обговорення теми – Що робити, якщо у постачальників різні назви для тих самих товарів?
Що робити, якщо у постачальників різні назви для тих самих товарів?
Немає коментарів.


Написати коментар
Ваша адреса електронної пошти не буде опублікована. Обов'язкові поля відмічені *