Распознавание текста в файле¶
Модуль OCR предназначен для распознавания текста в файлах и формирования pdf
-файлов с текстовым слоем.
Данный модуль выполняет следующие функции:
-
Создание карточки операции OCR для файла, который необходимо распознать.
-
Создание запроса на распознавание текста в файле с заданными параметрами.
-
Отслеживание прогресса распознавания текста файла.
-
Формирование
json
-файла с метаданными, содержащими информацию о распознанных элементах. Формированиеpdf
-файла, в котором хранится содержимое распознаваемого файла и распознанный текст в виде текстового слоя документа.
Для работы модуля необходимо:
-
Установить и настроить Веб-сервис Jinni для работы с документами, сконфигурировав его для поддержки операций OCR (см. Конфигурирование веб-сервиса).
-
Включить плагин
TextRecognitionCollector
сервиса Chronos, выставив в соответствующемxml
файлеdisabled="false"
. Все конфигурационные файлы плагинов сервиса Chronos хранятся в папкеChronos\Plugins\Tessa\configuration
. Более подробно про плагины см. в разделе Настройка плагинов Chronos. -
Включить функциональность распознавания текста в карточке настроек “Настройки распознавания текста”. Подробное описание настроек см. ниже.
-
Проверить наличие файла
Tessa.Chronos.DocumentsLoad.dll
в папкеChronos\Plugins\Tessa
.
Поддерживаемые типы документов: pdf
, gif
, tif
, tiff
, pnm
, png
, jpg
, jpeg
, jfif
, bmp
(кроме 32-битовых 4-х канальных изображений с поддержкой прозрачности - требуется преобразование к другому формату, например png
).
Карточка настроек “Настройки распознавания текста” (Правое меню → Настройки → Настройки распознавания текста) содержит следующие настройки:
Параметр |
Описание |
---|---|
Включить распознавание текста в файле | Отвечает за включение/отключение модуля. Если этот флаг снят, то перестаёт отображаться пункт “Распознавание текста” контекстного меню файла в карточке документа, не работают плагины Chronos для распознавания текста в файле и удаления карточек операций OCR |
Таблица |
Описание |
---|---|
Настройки типов для маппинга полей | Таблица со списком типов карточек/документов, для которых будут добавлены секции с полями для маппинга значений в ходе верификации документа в карточке операции OCR |
Настройки секций для маппинга полей | Таблица со списком секций соответствующего типа, для которых будут добавлены поля для маппинга значений в ходе верификации документа в карточке операции OCR |
Настройки полей для маппинга | Таблица со списком полей соответствующих типа и секции для маппинга значений в ходе верификации документа в карточке операции OCR |
Таблица |
Описание |
---|---|
Настройки шаблонов | Таблица с шаблонами в виде регулярных выражений, которые используются при верификации значений в полях карточки операции OCR |
Параметр |
Описание |
---|---|
№ | Порядок записи в таблице. Порядок задаёт приоритет проверки шаблона в рамках одного и того же типа данных при верификации поля в карточке операции OCR |
Тип шаблона | Тип данных поля, для проверки которого будет использован шаблон |
Значение шаблона | Паттерн, который представлен в виде регулярного выражения. Данный паттерн будет использован при верификации поля |
Описание | Дополнительная информация, описывающая шаблон. В частности, пример входных данных или паттерн в понятном виде |
Important
Значение шаблона должно содержать регулярное выражение, которое состоит из именованных групп. Набор имён групп фиксирован и перечислен в подсказке, которая отображается при создании или изменении строки с шаблоном. Порядок групп не имеет значения, однако имеет значение порядок шаблона в таблице, так как проверка значения поля будет выполняться с учетом приоритетности. Например, предполагается, что дата в верифицируемом поле имеет формат MM-dd-yyyy
. А в таблице настройки шаблонов паттерн MM-dd-yyyy
стоит после паттерна dd-MM-yyyy
, т.е. имеет меньший приоритет. В случае, если верифицируемое поле будет иметь значение 01-02-2023
, то 01
будет обработано как день, а 02
- как месяц, поскольку будет применён паттерн dd-MM-yyyy
. Если необходимо обратное поведение, то необходимо изменить порядок записей в таблице настройки шаблонов.
Для запуска процесса OCR посредством утилиты tadmin
обратитесь к разделу Команда распознавания текста в файле.