Работа на персональном компьютере в среде Windows без применения мышки и без помощи глаз

(Лекционный курс)
Дата публикации:2005
Поделиться в Twitter Поделиться в F******k Поделиться в VKontakte Поделиться в Telegram Поделиться в Mastodon

Урок 3: Программа распознавания текстов FineReader, версия 6.0. 2

Как устроен сканер

Сканер - это оптико-механическое электронное устройство. Механизм сканера помещается в герметический корпус, стеклянный сверху. На это стекло кладётся сканируемый лист или книга в развороте. Под стеклом ездит очень яркая продольная лампа, освещающая сканируемый лист. Вместе с лампой перемещается узкое продольное зеркало. Это зеркало постоянно изменяет угол своего наклона так, чтобы проецировать освещённую полоску изображения на продольный фотосчитыватель, расположенный неподвижно на задней стенке сканера.

Теперь становится понятным, что изображение считывается сканером в виде тонких ниточек. Каждая ниточка - это цепочка точек. Ниточки распознанных точек постоянно передаются сканером в компьютер. И уже драйвер сканера складывает из этих ниточек изображение и передаёт его запросившей программе в виде графического файла.

Немного упрощённая модель бытового сканера, но зато всё должно стать понятным.

Раньше сканеры подключались к компьютеру через LPT-порт. Но затем скорости этого порта стало не хватать, и сканеры начали подключать через более скоростной USB-порт.

Сканирование одной страницы у хорошего сканера должно занимать до 20 секунд.

После сканирования страницы лампа и зеркало сканера возвращаются на исходную позицию. Это называется обратным ходом сканера. Во время обратного хода можно переворачивать и менять страницы. Современный компьютер успевает за время обратного хода распознать отсканированную страницу.

Крышку сканера при сканировании текста закрывать не обязательно.

Параметры сканирования

Сканер выдаёт нам картинку. Эта картинка состоит из набора цветных или чёрно-белых точек, для каждой из которых сканер распознаёт цвет.

Плотность распознаваемых точек (то есть количество точек на единицу длины или площади) называется разрешающей способностью сканера или разрешением. Максимальная разрешающая способность ограничена оптическими возможностями сканера. Разрешение сканера можно регулировать программным путём. Уменьшение разрешения ускоряет работу сканера.

Разрешающая способность измеряется количеством точек на дюйм и обозначается как "dpi". Например, для сканирования нормального текста достаточно установить разрешение в 300 dpi, что составляет примерно 12 точек на миллиметр. Разрешение монитора компьютера меньше 100 dpi. Очень хорошим разрешением для принтера является 600 dpi. Поэтому для бытовых потребностей большего разрешения сканера и не требуется.

Сканирование может производиться в трёх режимах:

  • цветном,
  • сером,
  • чёрно-белом.

Начнём с цветного режима, как естественного. В цветном режиме сканер определяет цвет для каждой точки. Сканер может различать несколько миллионов цветов или оттенков цветов. Значит, задача сканера - выдать для каждой точки число, которое определяет ее цвет среди миллионов оттенков цветов. Числа выходят большими. Поэтому и файлы цветных рисунков имеют большие размеры. И передача цветного изображения из сканера в компьютер происходит медленнее.

Если нам не важен цвет изображения, то можно облегчить работу сканеру и компьютеру, задав сканирование в сером режиме. При этом сканер будет определять для каждой точки один из 256 оттенков серого цвета. Это все оттенки от абсолютно белого до абсолютно чёрного. При этом сканер выдаёт для каждой точки число от 0 до 255, что значительно меньше миллионов цветных оттенков. Размер серого графического файла на порядок меньше размера цветного файла.

Но для сканирования текста нам и этого много. Нам нужно только отличать чёрные буквы от белой бумаги. Поэтому у сканера есть ещё третий режим сканирования. Это чёрно-белый режим. При чёрно-белом режиме для каждой точки определяется только два варианта цвета. Точка может быть или чёрной, или белой. Графический файл с чёрно-белым изображением тоже имеет на порядок меньший размер, чем файл с серым изображением.

А как же быть с серыми точками?

Сканер устанавливает условную границу серого цвета. Всё, что светлее этой границы, относится к белому цвету. А всё, что темнее, относится к чёрному цвету.

А как сдвигать эту границу, чтобы в чёрный цвет не попали серые пятна на бумаге или чтобы в белый цвет не попали бледные буквы? Эта граница сдвигается при помощи яркости.

Добавляя яркость, мы осветляем серую бумагу. Уменьшая яркость, мы зачерняем бледные буквы.

А если наш текст напечатан бледными буквами на грязно-серой бумаге, то нужно переходить к серому режиму сканирования, иначе пятна бумаги наложатся на буквы и отличить их станет невозможно.

Зачем нужна программа распознавания текста

Познакомившись со сканером и процессом сканирования, мы понимаем, что сканер можно сравнить с фотоаппаратом. Он выдаёт нам фотографию страницы текста. Это набор очень большого количества цветных или чёрно-белых точек.

А как же выделить текст из этих сотен тысяч и миллионов точек?

Для этого служат очень большие и сложные программы распознавания текста. Проводя сложный и трудоёмкий процесс анализа графического файла, программа распознавания текста отделяет и распознаёт символы или относит скопления точек к разряду рисунков.

На сегодняшний день лучшей в мире программой распознавания текстов является московская программа FineReader, которую мы и будем изучать.

Как правильно класть документ в сканер

Установите сканер возле себя на столе так, чтобы крышку вы открывали от себя, а шнуры подключения питания и соединения с компьютером входили в заднюю стенку сканера.

Документ закладывается текстом вниз, по направлению к стеклу сканера. В одних сканерах (чаще) документ ориентируется так, чтобы верхняя часть текста страницы была направлена на Вас (книжная ориентация) или верхняя часть разворота книги была слева (альбомная ориентация). В других сканерах наоборот: верхняя часть текста должна быть направлена к задней стенке сканера (книжная ориентация) или к правой стенке сканера (альбомная ориентация).

Общее правило такое. Верхняя часть текста должна находиться там, откуда стартует лампа сканера. Это будет правильная книжная ориентация. При книжной ориентации лампа сканера проходит текст сверху вниз. А правильная альбомная ориентация текста получается поворотом на 90 градусов по часовой стрелке. То есть, при альбомной ориентации лампа сканера должна проходить по тексту справа налево или против направления чтения.

Если лист положен правильно, тогда можно отключить автоматическое определение ориентации страницы, что ускорит распознавание текста.

Сканирование и распознавание

FineReader содержит в своём меню различные команды для сканирования и распознавания текста. Простейшая из команд - "Сканировать и распознать" из меню "Процесс". По этой команде будет отсканирована и тут же распознана одна страница текста. После завершения распознавания вновь распознанный текст появится в окне "Текст". Курсор будет установлен на начало распознанного текста. Джоз обычно реагирует на это произнесением слова "Текст". После этого распознанный текст можно читать и править, как в обычном редакторе текстов.

Если Вы сканируете целую книгу, то удобно сначала отсканировать все страницы, а потом их распознать. Для этого нужно воспользоваться командой "Сканировать несколько страниц" из меню "Файл", а затем - командой "Распознать все" из меню "Процесс". Поначалу советую Вам устанавливать в настройках сканера флажок "Останавливаться между страницами". Тогда сканирование новой страницы не начнётся, пока Вы не нажмёте "Enter" в ответ на запрос программы. Зато Вы всегда будете успевать переворачивать страницы.

Перед сканированием книги не забудьте установить в настройках сканера признак альбомной ориентации изображения. А перед распознаванием не забудьте проверить язык распознавания текста в опциях FineReader.

Перечислим основные команды сканирования и распознавания.

"Control+d" - отсканировать и распознать одну страницу или разворот книги (меню "Процесс")

"Control+k" - сканировать одну страницу (меню "Файл").

"Control+Shift+k" - сканировать много страниц (меню "Файл").

"Control+T" - остановить сканирование (меню "Файл").

"Control+r" - распознать одну страницу (меню "Процесс").

"Control+Shift+r" - распознать все страницы (меню "Процесс").

"Сканировать и распознать несколько страниц" - команда из меню "Процесс".

"Control+Shift+s" - вызов диалога Настройки сканера (в меню "Сервис" пункт "Настройки сканера").

Если Вы сканируете разворот книги (альбомная ориентация текста), то можно установить опцию "Делить Разворот Книги" на вкладке "Сканирование" диалога "Опции". Это приведёт к тому, что после сканирования FineReader разделит два листа разворота на два разных файла и будет распознавать их отдельно. Такой метод улучшит качество распознавания и уменьшит количество ошибок. При сканировании отдельных страниц эту опцию можно убрать.

Однако, FineReader может не понять, что перед ним разворот книги и оставить этот разворот как страницу текста в две колонки.

А бывает и ещё хуже. Если текст идёт во много колонок, FineReader может разделить разворот не посредине, а в другом месте. И тогда Вы получите полстраницы и полторы страницы текста и гарантировано неправильное распознавание. Поэтому будьте осторожны с переключателем "Делить Разворот Книги". Применяйте его только к качественному тексту в хорошо разворачивающейся книге.

На месте разворота обычно происходит изгиб бумаги. Место изгиба после сканирования выглядит как тёмная полоса. Если в изгиб попадают буквы, то в этом месте изображение строки изгибается, а сами буквы искажаются. Ещё буквы могут попадать как бы в серую тень изгиба, частично или полностью теряясь. Многочисленные ошибки в концах или в начале строк говорят о том, что книгу нужно сильнее прижать на развороте, чтобы уменьшить изгиб.

Если книгу не удаётся достаточно хорошо развернуть, перейдите на серый режим сканирования. Это уменьшит влияние тени изгиба на крайние буквы и улучшит распознавание.

При сканировании разворота книги в диалоге "Настройки Сканера" необходимо установить "Альбомную Ориентацию Изображения", а при сканировании одной обычной страницы текста - "Книжную ориентацию".

Текст нормального размера и качества печати можно сканировать при "Ручном подборе яркости" 50%. В "Режиме сканирования картинок" нужно установить "Чёрно-белое изображение" при "Разрешении" 300. Это самый быстрый режим сканирования.

Если буквы мелкие, увеличьте Разрешение до 400, 500 или 600.

Если качество печати плохое или книга совсем плохо разворачивается, перейдите к "Автоматическому Подбору Яркости" и в "Режиме Сканирования Картинок" установите "Серый". Это замедлит сканирование, но улучшит качество распознавания.

Все эти параметры устанавливаются в диалоге "Настройки Сканера" ("Control+Shift+s").

Если на листе встречаются серые пятна или из-за тонкой бумаги и жирного чёрного текста проступают буквы и рисунки с обратной стороны страницы, увеличивайте яркость сканирования, например, до 60 или до 70. Это приведёт к исчезновению пятен и проступающих с обратной стороны страницы букв и рисунков.

Если буквы слишком бледные, то уменьшите яркость сканирования, например, до 40. Это приведёт к тому, что буквы станут более чёткими и жирными, и их легче будет распознавать.

Если текст на листе расположен в несколько колонок, как в журнале или газете, то на вкладке "Сканирование" диалога "Опции" переключатель "Тип Страницы" необходимо установить в положение "Авто". А если это обычный книжный текст, то лучше поставить переключатель "Тип Текста" в значение "Одна Колонка", что ускорит распознавание. Для верности лучше всегда держать этот переключатель в режиме "Авто".

Замечание. Если выставлен признак "Делить Разворот Книги", то книгу можно распознавать, установив переключатель "Тип текста" в значение "Одна колонка". Если же признак "Делить разворот книги" не выставлен, то обе страницы книги распознаются как один лист текста. То есть, получается текст, набранный в две колонки. Поэтому в таком случае необходимо установить переключатель "Тип текста" в положение "Авто", чтобы текст распознавался как состоящий из нескольких колонок.

Если нужно повторно отсканировать некоторые страницы, то установите на вкладке "Сканирование" диалога "Опции" признак "Запрашивать номер страницы перед добавлением в пакет". Это даст Вам возможность привести номер отсканированной страницы в пакете FineReader в соответствии с номером страницы в книге. Затем эту опцию можно будет отменить, так как дальше страницы будут нумероваться по порядку и добавляться в конец пакета.

Если текст распознаётся очень плохо или распознанный текст совсем нечитабелен, первым делом проверьте ориентацию страницы, то есть, правильно ли закладывается страница в сканер. Дальше проверьте на вкладке "Распознавание" диалога "Опции" самый первый параметр "Язык распознавания". Неправильно выбранный язык может привести к огромному количеству ошибок. Не ставьте "Русско-английский" язык распознавания, если в тексте нет английских букв, чтобы русские буквы не заменялись аналогичными по написанию английскими. И только после проверки языка распознавания увеличивайте разрешение сканирования и переходите к серому режиму сканирования.

Что такое Пакет

"Control+n" - создать новый пакет (меню "Файл").

"Control+p" - открыть существующий пакет (меню "Файл").

Когда Вы начинаете сканировать новую книгу, нужно создать для этого новый пакет. Это папка, в которую будут помещаться все файлы: отсканированные изображения, распознанные тексты и так далее.

Диалог создания и открытия пакета похож на диалог открытия и сохранения файла в Windows. Создание для каждой книги отдельного пакета гарантирует, что страницы разных книг не будут перемешиваться между собой. Продумайте имена для пакетов, чтобы Вам было в дальнейшем легко находить их.

"Alt+1" - перейти в окно "Пакет" со списком отсканированных страниц.

"Курсорные клавиши" - передвижение по списку отсканированных страниц в окне "Пакет".

"Control+a" - выделить все отсканированные страницы.

"Shift+курсорные стрелки" - выделение идущих подряд отсканированных страниц.

Выделенные страницы можно распознавать, удалять или перенумеровывать.

Например, Вы отсканировали страницы книги с 20 по 50, а в пакете они имеют номера от 1 до 31. Тогда нужно перейти в окно "Пакет" ("Alt+1"), выделить все страницы пакета ("Control+a") и задать номер первой странице равным 20 (команда "Перенумеровать страницы" из меню "Пакет").

Находясь в окне "Пакет" (на какой-то из отсканированных страниц) и нажав "Enter ", Вы откроете окно "Текст", в котором находится распознанный текст этой страницы. Иначе в окне "Текст" будет текст просматривавшейся Вами ранее страницы.

"Любая цифра" - перейти к странице, номер которой начинается с этой цифры.

"Control+g" - перейти к распознанному тексту страницы с определённым номером.

"Control+f4" - закрыть все остальные окна и перейти в окно "Пакет".

Вычитка текста

Из четырёх больших окон FineReader нас интересуют только два: окно со списком отсканированных страниц (окно "Пакет") и окно с распознанным текстом (окно "Текст").

"Alt+3" - перейти в окно "Текст".

Здесь Вы можете работать, как в любом редакторе текстов. Можно выделять, удалять, копировать, вставлять текст. То есть, распознанный после сканирования текст можно править ещё до сохранения. Причём, Ваши исправления не пропадут, если Вы даже закроете FineReader, не сохранив исправленный текст в файл. Откорректированный Вами распознанный текст сохранится во внутренних файлах пакета. Только если Вы повторите распознавание страницы, распознанный текст изменится.

Обычно ошибки распознавания встречаются в местах с неуверенно распознанным текстом. Поэтому можно уделить основное внимание именно этим местам.

"F4" - перейти к следующему месту с неуверенно распознанным текстом.

"Shift+F4" - перейти к предыдущему месту с неуверенно распознанным текстом.

Сохранение текста

"Control+F2" - вызов диалога сохранения текста в файл (меню "Файл").

Диалог сохранения распознанного текста похож на диалог сохранения файла в Word. При открытии окна диалога курсор находится в поле имени файла. Задав имя файла, переходим при помощи табуляции к окну "Тип файла", где выбираем тип файла для сохраняемого текста.

Затем доходим при помощи табуляции до кнопки "Форматы". По пути можно проверить и изменить некоторые настройки. Если кнопка "Форматы" не нажимается клавишей "Enter", нажимаем её при помощи пробела. В крайнем случае применяем JAWS-курсор или курсор мышки. Делаем это так:

"Insert+минус на серой клавиатуре" - перемещаем курсор мышки на кнопку "Форматы".

"Разделить на серой клавиатуре" - иммитируем нажатие левой кнопки мышки.

Открывается диалог "Форматы".

Если мы хотим сохранить текст в формате "TXT", то нужно зайти на вкладку "TXT" и обратить внимание на окошко "Кодовая Страница". Выбираем здесь пункт "DOS Russian (866)" для сохранения текста в ДОС-формате или "Windows Кириллическая (1251)" для сохранения текста в формате Windows .

Дальше либо нажимаем "Enter ", чтобы сразу вернуться в диалог сохранения текста в файл, либо табулируем до кнопки "OK", устанавливая по пути в нужное состояние опции сохранения текста.

Например, при сохранении текста в формате "TXT" обязательно должна быть установлена опция "Сохранять деление на строки", чтобы текст в дальнейшем можно было читать "Блокнотом" в Windows 98 или программой "Reader" в ДОС.

Вернувшись в диалог сохранения текста, доходим при помощи табуляции до кнопки "Сохранить" и нажимаем её при помощи "Enter " или пробелом. Сохранённый таким образом текст можно будет в дальнейшем читать как в Windows при помощи Word, так и в ДОС при помощи чтеца Reader.

Альтернативным способом сохранения является команда "Передать выбранные страницы в Word ". Эта команда находится в меню "Файл". В этом случае FineReader запустит редактор Word, передаст ему выделенные Вами ранее распознанные страницы, и работа с текстом далее будет вестись по правилам редактора Word.

Настройка опций FineReader

"Control+Shift+o" - вызов диалога Опции (меню "Сервис") .

"Control+Tab" - переход на следующую вкладку диалога "Опции".

"Tab" - переход к следующей опции на вкладке.

"Shift+Tab" - переход к предыдущей опции на вкладке.

"Пробел" - сброс или установка опции, на которой стоит курсор.

"Стрелки Вверх и Вниз" - Выбор из группы радиокнопок. Затем нужно табуляцией идти дальше по вкладке.

"F4","Стрелка Вниз" или "Alt+Стрелка Вниз" - выбор значений в комбобоксе. Затем нужно табуляцией идти дальше по вкладке.

Замечание. Не забудьте после установки параметров нажать кнопку "OK" или "Закрыть", чтобы изменённые параметры сохранились.

Поначалу самым главным будет переключатель "Язык распознавания" на вкладке "Распознавание".

Если настройки сканера вдруг предстанут перед Вами в незнакомом английском виде, загляните на вкладку "Сканирование" и установите радиокнопку "Использовать интерфейс FineReader". Если Ваш сканер совместим с FineReader, то диалог его настройки будет представлен в знакомом стандартном виде. В противном случае Вам придётся работать с оригинальным англоязычным интерфейсом драйвера Вашего сканера.

На вкладке "Общие" диалога "Опции" есть кнопки "Сохранить" и "Загрузить", которые позволяют сохранить установленные опции в виде файла или загрузить из файла сохранённые ранее опции.

Система помощи FineReader

"F1" - вызов справки (меню "Справка").

FineReader обладает очень подробной и хорошо структурированной справочной системой.

Диалог справки представляет собой два окна. В левом окне находится содержание, а в правом - сам текст справки. При запуске справки курсор находится в окне содержания.

Развернём для начала окно диалога справки. Для этого нажмём "Alt+Пробел" и дойдём затем "Стрелкой Вниз" до команды "Развернуть".

Идём вниз по содержанию до интересующей нас темы. Мы движемся по нулевому уровню содержания. Здесь расположены названия глав.

Чтобы перейти на первый уровень оглавления, где расположены названия статей справки, нажимаем "Enter" или "Стрелку Вправо". JAWS озвучивает переход между уровнями оглавления, что очень удобно.

"Enter" - загрузка в правое окно текста статьи справки, на названии которой стоит курсор в левом окне содержания .

"F6" - перейти в правое окно с текстом статьи справки и прослушать её содержимое.

"F6" - вернуться в окно оглавления.

"Стрелка Влево" - Сворачивание развёрнутых ранее глав содержания справки.

Читать дальше  Вернуться к оглавлению урока



Распространение материалов сайта означает, что распространитель принял условия лицензионного соглашения.
Идея и реализация: © Владимир Довыденков и Анатолий Камынин,  2004-2024