Распознавание текста в файле¶
Модуль OCR предназначен для распознавания текста в файлах и формирования pdf-файлов с текстовым слоем.
Данный модуль выполняет следующие функции:
- Создание карточки операции OCR для файла, в котором необходимо распознать текст.
- Создание запроса на распознавание текста с заданными параметрами.
- Отслеживание прогресса распознавания текста файла.
- Формирование
json-файла с метаданными, содержащими информацию о распознанных элементах. - Формирование
pdf-файла, в котором хранится содержимое распознаваемого файла и распознанный текст в виде текстового слоя.
Для работы модуля необходимо:
- Установить и настроить веб-сервис Jinni для работы с документами, сконфигурировав его для поддержки операций OCR.
- Включить плагин
TextRecognitionCollectorPlugin, выставив в конфигурационном файлеapp-plugins.jsonдля соответствующего плагина в параметрEnabledзначениеtrue. Подробнее о плагинах см. в разделе Настройка плагинов. - Включить функциональность распознавания текста в карточке “Настройки распознавания текста”.
Поддерживаемые форматы файлов: pdf, gif, tif, tiff, pnm, png, jpg, jpeg, jfif, bmp (кроме 32-битовых 4-х канальных изображений с поддержкой прозрачности, для них требуется преобразование к другому формату, например, png).
Карточка “Настройки распознавания текста”¶
Открыть карточку можно из меню системы -> Настройки -> Настройки распознавания текста.
Карточка содержит следующие настройки:

Параметр |
Описание |
|---|---|
| Включить распознавание текста в файле | Отвечает за включение/отключение модуля. Если этот флаг снят, то пункт Распознавание текста контекстного меню файла перестаёт отображаться, а также не работают плагины для распознавания текста в файле и удаления карточек операций OCR |

Таблица |
Описание |
|---|---|
| Настройки типов для маппинга полей | Таблица со списком типов карточек/документов, для которых будут добавлены секции с полями для маппинга значений в ходе верификации документа в карточке операции OCR |
| Настройки секций для маппинга полей | Таблица со списком секций соответствующего типа, для которых будут добавлены поля для маппинга значений в ходе верификации документа в карточке операции OCR |
| Настройки полей для маппинга | Таблица со списком полей соответствующих типа и секции для маппинга значений в ходе верификации документа в карточке операции OCR |

Таблица |
Описание |
|---|---|
| Настройки шаблонов | Таблица с шаблонами в виде регулярных выражений, которые используются при верификации значений в полях карточки операции OCR |
Параметр |
Описание |
|---|---|
| № | Порядок записи в таблице. Порядок задаёт приоритет проверки шаблона в рамках одного и того же типа данных при верификации поля в карточке операции OCR |
| Тип шаблона | Тип данных поля, для проверки которого будет использован шаблон |
| Значение шаблона | Паттерн, который представлен в виде регулярного выражения. Данный паттерн будет использован при верификации поля |
| Описание | Дополнительная информация, описывающая шаблон. Например, пример входных данных или паттерн в понятном виде |
Important
Значение шаблона должно содержать регулярное выражение, состоящее из именованных групп. Набор имён групп фиксирован и перечислен в подсказке, которая отображается при создании или изменении строки с шаблоном. Порядок групп не имеет значения, однако имеет значение порядок шаблона в таблице, так как проверка значения поля будет выполняться с учетом приоритетности. Например, предполагается, что дата в верифицируемом поле имеет формат MM-dd-yyyy. А в таблице настройки шаблонов паттерн MM-dd-yyyy стоит после паттерна dd-MM-yyyy, т.е. имеет меньший приоритет. В случае, если верифицируемое поле будет иметь значение 01-02-2025, то 01 будет обработано как день, а 02 - как месяц, поскольку будет применён паттерн dd-MM-yyyy. Если необходимо обратное поведение, то необходимо изменить порядок записей в таблице настройки шаблонов.
Информация о запуске процесса OCR посредством утилиты tadmin находится в разделе Команда распознавания текста в файле.