17.1. преобразование документов в электронную форму

17.1. преобразование документов в электронную форму: Информатика: Базовый курс, Сергей Витальевич Симонович, 2003 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Рассмотрены основные категории аппаратных и программных средств вычислитель-ной техники. Указаны базовые принципы построения архитектур вычислительных систем. Обеспечено методическое обоснование процессов взаимодействия информации, данных и методов.

17.1. преобразование документов в электронную форму

Сканирование документов

Процесс создания электронного изображения бумажного документа напоминает его фотографирование и требует применения соответствующего устройства. Сегодня в качестве такого устройства выступает сканер. Такие устройства, как цифровые камеры, пока не могут обеспечить для документов стандартного формата качество изображения, которое гарантировало бы их надежное распознавание.

Основной рабочий элемент сканера включает источник света, используемый для освещения документа, и светочувствительную головку, воспринимающую отраженный свет. Универсальные сканеры, в отношении которых нет специальных требований по функциональным возможностям, качеству и скорости сканирования делятся на три основные категории.

Ручной сканер протягивается над поверхностью документа вручную. Он обеспечивает минимальное качество сканирования, в частности, непригоден для сканирования документов, содержащих иллюстрации.

Листовой сканер способен сканировать отдельные страницы, протягивая их мимо светочувствительного элемента Его недостатком является невозможность сканирования книг и журналов без разборки на отдельные страницы.

В планшетном сканере подвижный светочувствительный элемент перемещается в ходе сканирования внутри корпуса устройства. Сканируемый документ располагается напротив прозрачного окна в корпусе прибора. Этот вид сканера лишен недостатков, присущих типам, рассмотренным выше.

Сканер является внешним устройством и подключается к компьютеру через специальный разъем. При высоком разрешении и большой площади сканируемого документа объем передаваемых данных оказывается очень большим и требует производительной линии передачи. Малопроизводительные сканеры используют порт принтера. Наиболее быстрые устройства подключаются через интерфейс SCSI (Small Computer System Interface).

Разные модели сканеров понимают разные управляющие команды. Чтобы избежать разнобоя, был принят универсальный стандарт взаимодействия сканера и приложений. Этот стандарт называется TWAIN. Приложение посылает команды драйверу TWAIN, который преобразует их в инструкции, распознаваемые сканером. Таким образом, для приложения перестает иметь значение конкретная модель сканера. Операционная система Windows 98 поддерживает интерфейс TWAIN, а все современные сканеры совместимы с ним и предоставляют необходимые драйверы нижнего уровня.

Сканирование через посредство интерфейса TWAIN осуществляется следующим образом. Сначала следует включить сканер. Команда сканирования располагается в приложении в меню Файл (например, в программе Imaging соответствующий пункт так и называется — Сканировать). После выбора этой команды открывается диалоговое окно драйвера TWAIN, вид которого зависит от модели сканера (рис. 17.1). В этом окне задают параметры сканирования: черно-белый или цветной режим, разрешение, коррекция яркости и контрастности. Большинство сканеров позволяют также произвести предварительное черновое сканирование с низким разрешением и по его результатам точно задать область сканирования — часть страницы документа.

После настройки всех параметров следует щелкнуть на кнопке Сканировать (надпись на кнопке может быть иной). Процесс сканирования происходит автоматически, и изображение передается в приложение. Диалоговое окно драйвера TWAIN автоматически не закрывается, так что, например, в многооконных графических редакторах (таких как Adobe PhotoShop) можно сразу провести сканирование нескольких изображений.

Рис. 17.1. Диалоговое окно интерфейса TWAIN может выглядеть

по-разному — его вид определяется драйвером сканера

Распознавание документов

Этап, распознавания документа состоит в преобразовании электронного изображения (фактически набора цветных или черно-белых точек) в текстовый документ. Ранее для описания этого процесса обычно использовался термин OCR (Optical Character Recognition), который соответствует одному из используемых методов. При таком подходе происходит «сравнение» элемента изображения с эталонными вариантами начертания символов, после чего выбирается наиболее подходящий символ. Этот подход требует использования специального комплекта шрифтов, но дает на нем наилучшие результаты. Современные алгоритмы распознавания не привязаны к конкретному начертанию символов, так же, как человек способен узнавать буквы при любых начертаниях (и даже при значительных искажениях).

В ходе распознавания сначала в изображении выделяются крупные элементы текста: колонки, абзацы, отдельные текстовые блоки (например, подрисуночные подписи), ячейки таблиц. Этот этап называют сегментацией, он может выполняться автоматически или вручную. После этого выполняется автоматический этап распознавания: блоки разбиваются на строки, строки — на отдельные символы, каждый из которых распознается независимо и помещается в итоговый текстовый документ.

Работа с программой FineReader

Все операции, необходимые в ходе преобразования бумажного документа в электронную форму, могут быть выполнены с помощью программы FineReader (рис. 17.2). Эта программа способна выполнять сканирование и распознавание текстов на разных языках, в том числе и смешанных двуязычных текстов. С ее помощью можно выполнять пакетную обработку многостраничных документов, а также настраивать режим распознавания для улучшения соответствия электронного документа бумажному оригиналу при плохом качестве последнего или использовании в нем шрифтов, далеких от стандартных.

Основные операции обработки бумажного документа в программе FineReader выполняются с помощью панели инструментов Scan&Read. С точки зрения этой программы, процесс обработки документа состоит из пяти этапов:

• сканирование документа (кнопка Сканировать);

• сегментация документа (кнопка Сегментировать);

• распознавание документа (кнопка Распознать);

• редактирование и проверка результата (кнопка Проверить);

• сохранение документа (кнопка Сохранить).

Сканирование документа. На этапе сканирования производится получение изображений при помощи сканера и сохранение их в виде, удобном для последующей обработки. Чтобы начать сканирование, надо включить сканер и щелкнуть на кнопке Сканировать на панели инструментов Scan&Read. В программе FineReader сканирование может производиться как через драйвер TWAIN, так и в обход его. Первый способ используют, когда требуется точная настройка параметров сканирования, когда документ включает цветные иллюстрации, которые необходимо сохранить, а также когда разные страницы многостраничного документа сильно различаются по качеству. Второй вариант обеспечивает максимальную скорость и удобство сканирования. Выбор используемого варианта осуществляется при помощи флажка Показывать диалог TWAIN-драйвера сканера (Сервис > Опции > Сканирование).

Процесс сканирования осуществляется автоматически и требует от пользователя только вспомогательных операций, таких, как смена сканируемой страницы. Возможность вмешательства в работу программы заблокирована размещением на экране специального диалогового окна, уведомляющего о том, что идет сканирование, и позволяющего прервать это процесс.

По завершении сканирования значки всех обработанных страниц отображаются в окне Пакет. В основной части рабочей области появляется окно Изображение, содержащее изображение текущей страницы. Добавлять страницы в пакет можно не только путем сканирования, но и путем открытия файлов с изображениями, имеющихся на компьютере.

Сегментация документа. Второй этап работы — сегментация, разбиение страницы на блоки текста. Естественный порядок распознавания — по строкам, расположенным на странице сверху вниз и идущим от левого края до правого. Если страница содержит колонки, иллюстрации, врезки, подрисуночные подписи или таблицы, то порядок распознавания требует коррекции.

Рис. 17.2. Рабочее окно программы FineReader в процессе

распознавания отсканированного документа

Содержимое страницы разбивается на блоки, внутри каждого из которых распознавание осуществляется в естественном порядке. Блоки нумеруются, исходя из порядка включения их в документ. При автоматической сегментации (кнопка Сегментировать на панели инструментов Scan&Read) определение границ блоков осуществляется автоматически. При этом учитываются поля документа, просветы между колонками, рамки.

Если структура страницы очень сложная, удобнее использовать ручную сегментацию или ручное редактирование результатов автоматической сегментации. Блоки отображаются в виде цветных прямоугольников с номером в левом верхнем углу. Новый блок создают протягиванием мыши по диагонали прямоугольника. Текущий блок помечается выделенной линией, а его углы — прямоугольными маркерами. С помощью этих маркеров можно изменить размер или положение блока.

Команды редактирования блоков выведены на панель Инструменты. Они позволяют:

объединить два блока в один (Добавить часть блока);

удалить фрагмент блока (Удалить часть блока);

изменить положение блоков (Переместить блоки);

изменить порядок нумерации блоков (Перенумеровать блоки);

изменить разбиение таблицы на ячейки (Добавить вертикаль, Добавить горизонталь, Удалить линии);

Разные типы блоков обрабатываются программой по-разному. Чтобы изменить тип блока, надо щелкнуть правой кнопкой мыши в его пределах и назначить новый тип с помощью меню Тип блока в контекстном меню. Программа FineReader поддерживает следующие типы блоков:

текстовый (Текст) — на этапе распознавания преобразуется в текст;

табличный (Таблица) — представляет собой набор ячеек, каждая из которых преобразуется в текст по отдельности;

изображение (Картинка) — включается в документ без изменений как графическая иллюстрация, если формат сохранения преобразованного документа допускает вставные объекты;

лишний (Нераспознаваемый) — игнорируется;

содержащий штрих-код (Штрих-код) — распознается как штрих-код.

Распознавание текста. Процесс распознавания текста после сегментации начинается с щелчка на кнопке Распознать и полностью автоматизирован. В ходе процесса отображается диалоговое окно Распознавание, позволяющее прервать процесс. Кроме того, в этом окне отображаются сообщения, указывающие на наличие проблем при распознавании. Проблемы обычно вызываются неверными настройками или плохим качеством распознаваемого изображения. Если же дело в каких-то шрифтовых особенностях распознаваемого документа, применяют распознавание с обучением.

Распознавание с обучением. Распознавание с обучением состоит в формировании эталона, который используется в ходе распознавания в дальнейшем. Эталон настраивается так, чтобы соответствовать определенному документу или группе однотипных документов. Чтобы создать эталон, используют команду Сервис > Редактор эталонов > Новый эталон. После этого надо указать имя эталона и щелкнуть на кнопке ОК. Режим распознавания с обучением включается при настройке параметров работы программы (Сервис > Опции > Распознавание). На панели Обучение следует выбрать нужный эталон и установить флажок Распознавание с обучением.

Когда в ходе распознавания с обучением программа FineReader обнаруживает символ, который не может интерпретировать однозначно, на экран выдается диалоговое окно Ручное обучение эталона (рис. 17.3). Программа указывает элемент изображения, вызвавший сомнения, и показывает, как именно он будет интерпретирован. Если допущена ошибка, можно указать нужный символ в поле Символ или уточнить область распознавания с помощью кнопок Сдвинуть влево и Сдвинуть вправо.

Рис. 17.3. Ручное «обучение» механизма распознавания текста

Затем надо щелкнуть на кнопке Обучить. Необходимые сведения сохраняются и используются при дальнейшем анализе изображения. Если число ошибок невелико, можно продолжить распознавание в обычном режиме щелчком на кнопке Продолжать без обучения.

Редактирование документа. Когда распознавание данной страницы завершается, полученный текстовый документ отображается в окне Текст. Заключительные этапы работы позволяют отредактировать полученный текст с помощью средств, напоминающих текстовый редактор WordPad (панель для форматирования открывается при помощи команды Вид > Панели инструментов > Форматирование). Провести проверку орфографии с учетом трудностей распознавания позволяет кнопка Проверить на панели инструментов Scan&Read.

Сохранение документа. По щелчку на кнопке Сохранить на панели инструментов Scan&Read запускается Мастер сохранения результатов. Он позволяет сохранить распознанный текст или передать его в другую программу (например, в Microsoft Word) для последующей обработки.

Обработка бланков

Бланки, или формы, представляют собой особый род документов. Они используются как анкеты, бюллетени для голосования, опросные листы и состоят из постоянной части, содержащей информацию, используемую в ходе заполнения бланка, и переменной части, куда при заполнении бланка заносятся данные. В ходе обработки бланков требуется получить внесенные в него данные и представить их в виде, удобном для дальнейшей обработки. При этом часто приходится иметь дело с тысячами однотипных бланков.

Для обработки бланков используется автономное приложение FineReader Forms. Процесс работы с бланками несколько отличается от работы с обычными документами. Вначале подготавливается шаблон, который содержит все постоянные и переменные зоны бланка. Этап сегментации заменяется наложением шаблона, то есть его совмещением с постоянными элементами бланка. Это позволяет определить местонахождение переменных элементов бланка и провести их распознавание. Данные, полученные с отдельного бланка, рассматриваются как строка таблицы или как отдельная запись базы данных. Содержимое отдельного поля бланка соответствует ячейке таблицы.

Для создания шаблона требуется электронное изображение отдельного бланка, хотя бы и незаполненного. Чтобы создать шаблон, надо в приложении FineReader Forms дать команду Файл > Новый, после чего указать имя пакета форм и папку для хранения отсканированных бланков. Затем необходимо отсканировать или выбрать готовое изображение, которое будет использоваться в качестве основы шаблона.

Сам процесс создания шаблона состоит в ручной сегментации бланка. При этом кроме окна Редактор шаблонов открыто также диалоговое окно Параметры. Следует определить как блоки, охватывающие фиксированные элементы бланка, так и те, которые содержат области, подлежащие заполнению. Блоки, соответствующие постоянным элементам, используются как приводные метки. Чтобы исключить такой блок из процесса распознавания, следует щелкнуть на нем правой кнопкой мыши и выбрать в контекстном меню команду Тип блока > Статический текст.

Параметры блока задают на вкладке Блок диалогового окна Параметры. Для каждого распознаваемого блока надо установить флажок Экспортируемый блок, а также указать имя поля базы данных. Информация из этого блока будет заноситься в указанное поле. После того как все нужные блоки созданы и настроены, следует щелкнуть на кнопке Закрыть на панели инструментов. При этом производится проверка, обеспечивают ли заданные блоки возможность однозначного наложения шаблона на бланк.

В результате сканирования заполненного бланка, наложения шаблона и распознавания, полученные данные представляются в виде формы, содержащей названия полей и данные, полученные при распознавании. Сохранение данных производят в формате, ориентированном на последующую обработку средствами электронных таблиц или баз данных, например, в виде электронной таблицы Excel (файл .XLS).

Практическое занятие

Упражнение 17.1. Сканирование документа

Включите сканер.

Запустите программу Imaging (Пуск > Программы > Стандартные > Imaging).

Откройте крышку сканера, положите документ на окно сканера текстом вниз, закройте крышку.

Дайте команду Файл > Сканировать.

Средствами открывшегося диалогового окна драйвера ТТВД/ЛГпроведите предварительное сканирование документа.

Средствами диалогового окна драйвера ТТОД/ЛГвыделите на документе область, подлежащую сканированию.

Средствами диалогового окна драйвера TWAIN задайте черно-белый режим и разрешение сканирования.

Средствами диалогового окна драйвера TWAIN проведите сканирование.

Закройте диалоговое окно драйвера TWAIN.

Ознакомьтесь с тем, как выглядит отсканированный документ. Увеличьте масштаб изображения, чтобы оценить качество воспроизведения отдельных символов.

Сохраните отсканированный документ в формате TIFF для использования в следующем упражнении.

Мы научились выполнять сканирование документов из приложений через драйвер TWAIN. Это наиболее универсальный метод, применимый во всех приложениях, которые допускают использование сканера.

Упражнение 17.2. Преобразование изображения в

текстовый документ

Включите сканер.

Запустите программу FineReader (Пуск > Программы > ABBYY FineReader > Fine Reader 4.0 Professional).

Откройте крышку сканера, положите документ на окно сканера текстом вниз, закройте крышку сканера.

Щелкните на кнопке Сканировать на панели инструментов Scan&Read.

Дождитесь окончания сканирования. Обратите внимание на появление значка отсканированного документа на панели Пакет и окна Изображение.

Щелкните на кнопке Сегментировать на панели инструментов Scan&Read. Изучите результат автоматической сегментации.

Щелкните накнопке Распознать. Ознакомьтесь с распознанным текстом в окне Текст.

Сохраните распознанный текст в виде текстового файла.

Откройте текстовый файл в программе Блокнот и еще раз убедитесь в правильности распознавания. Закройте программу Блокнот.

Дайте команду Файл > Открыть и выберите изображение, созданное в предыдущем упражнении.

Выберите это изображение в окне Пакет и проведите его распознавание в соответствии с пп. 6-8 данного упражнения.

Сравните результаты распознавания при сканировании через TWAflV-драйвер и в обход его. Сравните трудоемкость этих операций.

Мы научились преобразовывать бумажные документы в электронную форму при помощи программы FineReader. Мы познакомились с возможностью работы с пакетом страниц. Мы также выяснили преимущества методов сканирования с использованием TWAIN-драй вера и в обход его.

Упражнение 17.3. Ручная сегментация изображения

1. Включите сканер.

15 мин

Запустите программу FineReader (Пуск > Программы > ABBYY FineReader >FineReader 4.0 Professional).

Откройте крышку сканера, положите документ на окно сканера текстом вниз, закройте крышку.

Щелкните на кнопке Сканировать на панели инструментов Scan&Read и дождитесь окончания сканирования.

Щелкните на кнопке Сегментировать на панели инструментов Scan&Read.

Щелкните на кнопке Распознать на панели инструментов Scan&Read. Ознакомьтесь с тем, как проведено упорядочение распознанного текста в соответствии с автоматической сегментацией. Оцените пригодность полученного документа.

Закройте окно Текст. Полученный документ предварительно сохраните для сравнения.

Щелкните в окне Изображение правой кнопкой мыши и выберите в контекстном меню команду Удалить все блоки.

Сформируйте блоки вручную, выделяя отдельные элементы документа.

Чтобы блоки, содержащие иллюстрации, не распознавались как текст, щелкните на каждом из них правой кнопкой мыши и выберите в контекстном меню команду Тип блока > Картинка.

Щелкните на кнопке Перенумеровать блоки на панели Инструменты. Задайте последовательность блоков, щелкая на них в том порядке, в каком их содержимое должно включаться в окончательный документ.

Щелкните на кнопке Распознать на панели инструментов Scan&Read. Сохраните полученный документ.

Сравните документы, полученные в результате автоматической и ручной сегментации.

Мы научились производить ручную сегментацию изображения для распознавания и узнали, в каких случаях ее следует производить. Мы также узнали, как задается тип блоков и порядок блоков, чтобы полученный документ наилучшим образом соответствовал оригиналу.

Упражнение 17.4. Создание шаблона

для распознавания бланков

Включите сканер.

Запустите программу FineReader Forms (Пуск > Программы > ABBYY FineReader > Fine Reader 4.0 Forms).

Откройте крышку сканера, положите бланк на окно сканера текстом вниз, закройте крышку.

Дайте команду Файл > Новый.

Задайте имя пакета и место его размещения, после чего щелкните на кнопке Далее.

Установите переключатель Создать новый и щелкните на кнопке Далее.

Введите имя шаблона и щелкните на кнопке Далее.

Установите переключатель Отсканировать и щелкните на кнопке Далее. Дождитесь окончания сканирования. Щелкните на кнопке Готово.

Создайте блоки, охватывающие постоянные поля («разметку») бланка. Для каждого такого блока на вкладке Блок диалогового окна параметры задайте тип Статический.

Создайте блоки, охватывающие переменные (заполняемые) поля бланка. Для каждого такого поля установите флажок Экспортируемый блок и задайте имя поля базы данных (Поле БД).

Завершив разметку бланка, щелкните на кнопке Закрыть на панели инструментов.

После закрытия редактора шаблонов снова отсканируйте тот же бланк, но уже для распознавания (кнопка Сканировать на панели инструментов Open&Read).

Щелкните на кнопке Наложить шаблон на панели инструментов Open&Read.

Щелкните на кнопке Распознать на панели инструментов Open&Read.

Ознакомьтесь с заполненной формой, полученной в результате распознавания. Сохраните документ в виде таблицы Excel.

Мы научились обрабатывать бланки, имеющие предопределенную структуру. Мы также узнали, как сохранять результаты распознавания в виде, удобном для дальнейшей обработки.

Информатика: Базовый курс

Информатика: Базовый курс

Обсуждение Информатика: Базовый курс

Комментарии, рецензии и отзывы

17.1. преобразование документов в электронную форму: Информатика: Базовый курс, Сергей Витальевич Симонович, 2003 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Рассмотрены основные категории аппаратных и программных средств вычислитель-ной техники. Указаны базовые принципы построения архитектур вычислительных систем. Обеспечено методическое обоснование процессов взаимодействия информации, данных и методов.