Системи оптичного розпізнавання символів

При створенні електронних бібліотек і архівів шляхом перекладу книг і документів у цифровий комп’ютерний формат, при переході підприємств від паперового до електронного документообігу, при необхідності відредагувати отриманий по факсу документ використовуються системи оптичного розпізнавання символів.

За допомогою сканера досить просто одержати зображення сторінки тексту в графічному файлі. Однак для одержання документа у форматі текстового файлу необхідно провести розпізнавання тексту, тобто перетворити елементи графічного зображення в послідовності текстових символів.

Спочатку необхідно розпізнати структуру розміщення тексту на сторінці: виділити колонки, таблиці, зображення і так далі. Далі виділені текстові фрагменти графічного зображення сторінки необхідно перетворити в текст.

Якщо вихідний документ має типографську якість (досить великий шрифт, відсутність погано надрукованих символів або виправлень), то завдання розпізнавання вирішується методом порівняння з растровим шаблоном. Спочатку растрове зображення сторінки розділяється на зображення окремих символів. Потім кожний з них послідовно накладається на шаблони символів, наявних у пам’яті системи, і вибирається шаблон з найменшою кількістю відмінних від вхідного зображення крапок.

При розпізнаванні документів з низькою якістю друку (машинописний текст, факс і так далі) використовується метод розпізнавання символів по наявності в них певних структурних елементів (відрізків, кілець, дуг і ін.).

Будь-який символ можна описати через набір значень параметрів, що визначають взаємне розташування його елементів. Наприклад, буква «Н» і буква «И» складаються із трьох відрізків, два з яких розташовані паралельно один одному, а третій з’єднує ці відрізки. Відмінність між даними буквами — у величині кутів, які утворює третій відрізок із двома іншими.

При розпізнаванні структурним методом у перекрученому символьнім зображенні виділяються характерні деталі й рівняються зі структурними шаблонами символів. У результаті вибирається той символ, для якого сукупність усіх структурних елементів і їх розташування найбільше відповідає розпізнаваємому символу.

Найпоширеніші системи оптичного розпізнавання символів Finereader і Cuneiform використовують як растровий, так і структурний методи розпізнавання.

Попередня стаття
Наступна стаття