РОЗПІЗНАВАННЯ ТЕКСТУ НА СУПЕРМАРКЕТНИХ ЦІННИКАХ АНГЛІЙСЬКОЮ ТА КИРИЛИЦЕЮ ЗА ДОПОМОГОЮ ВІДКРИТИХ OCR-РІШЕНЬ

DOI: 10.31673/2412-4338.2025.048901

  • Онищенко Вікторія Валеріївна (Onyshchenko Viktoriia) Вармінсько-Мазурський університет в Ольштині, Польща https://orcid.org/0000-0002-3126-2260
  • Іванов Анатолій Ігорович (Ivanov Anatolii) Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", Київ https://orcid.org/0009-0006-5370-445X

Анотація

Цінники в супермаркетах часто містять дрібний, щільно форматований текст, представлений у складних візуальних умовах – з відблисками, низьким контрастом, нерівномірним освітленням. Такі фактори істотно ускладнюють читання тексту, особливо для людей із порушеннями зору, і знижують ефективність загальновживаних OCR-систем, які зазвичай застосовуються в допоміжних технологіях. У цій статті досліджується можливість використання легковагових, відкритих OCR моделей для отримання точного та читабельного тексту зі щільно обрізаних зображень цінників на двох мова: англійській (латиниці) та українській (кирилиці).

У дослідженні оцінюються три публічно доступні OCR-фреймворки — Tesseract, EasyOCR та PaddleOCR — відібрані завдяки їх широкій доступності, підтримці багатьох мов і сумісності з пристроями, що мають обмежені обчислювальні ресурси, включно зі смартфонами та вбудованими системами. Для  забезпечення репрезентативної та різноманітної вибірки був сформований уніфікований датасет, зібраний із кількох відкритих джерел і організований у підмножини з латинським текстом, кириличним текстом та змішаним мовним наповненням. Кожну з OCR-моделей було протестовано як у «чистих» умовах, так і за різноманітних синтетичних спотворень, що імітують реальні роздрібні сценарії, зокрема розмиття, погіршення контрасту та перспективні деформації.

Дана робота містить опис процесу побудови датасету, методів попередньої обробки, застосованих для підвищення якості зображень, методології оцінювання та метрик, використаних для вимірювання надійності розпізнавання. Також розглянуто практичні виклики, що виникли під час роботи, зокрема неконсистентні анотації, а також труднощі, пов'язані зі змішаними скриптами, які часто зустрічаються у двомовних роздрібних середовищах. Завдяки аналізу сильних сторін, обмежень та стійкості кожного OCR-двигуна це дослідження пропонує рекомендації для розробників і науковців, що створюють OCR-інструменти для асистивних технологій, спрямованих на підвищення доступності роздрібної торгівлі для користувачів із порушеннями зору.

Ключові слова: оптичне розпізнавання символів (OCR), розпізнавання цінників, багатомовний текст, моделі з відкритим вихідним кодом, аналіз зображень.

Номер
Розділ
Статті