Пользовательский поиск

Книга Домашний компьютер № 9 (123) 2006. Содержание - Рубрика: КУНСТКАМЕРА

Кол-во голосов: 0

Рубрика: МЯГКАЯ РУХЛЯДЬ

Утонченное чтиво

Автор: Евгений Яворских.

Значительное число пользователей считает, что негоже им на домашнем компьютере применять «домашние» версии приложений: наличие приставки Home означает для них несмываемый позор: только Pro — и никаких компромиссов. В итоге система «бомбардируется» тяжеловесными и навороченными профессиональными пакетами, а главная цель такой экспансии — исключительно желание покрасоваться. Дай бог, чтобы при этом использовали хотя бы десятую часть функциональных возможностей софтверных тяжеловесов…

Жизненное наблюдение: едва освоив назначение кнопок системного блока, некоторые сразу же причисляют себя к клану IT-профессионалов — теперь им обеспечено внимание и почет со стороны тех, кто так и не научился правильно выключать компьютер. Самое забавное, что амбиции этих «профи» чрезвычайно высоки: если системный блок — то самый навороченный, если мышка — то непременно профессиональная 22 , а уж софт… И тут уж чувство меры теряется напрочь, поскольку еще не оскудели сетевые закрома с программами, готовыми к употреблению.

Неизбывная вера в некие магические функции Pro-версий программного обеспечения витает в головах и более толковых граждан. В самом деле, чем же отличаются профессиональные версии программ от домашних? Может быть, Pro работают лучше, нежели их простые собратья? Есть ли смысл расходовать дисковое пространство на более «тяжелые» вариации софта или достаточно обычных версий? Не следует забывать и о материальной стороне вопроса: неискушенный пользователь рискует истратить гораздо большую сумму за Pro-инкарнацию программы, нежели за обычную (или Home).

Попробуем разобраться с программными «профессионалами» на примере линейки продуктов для распознавания текста от компании ABBYY — семейство FineReader (или «Утонченный Чтец» в вольном переводе). Полагаю, четырех приложений, различающихся функциональными возможностями и, разумеется, ценой, будет вполне достаточно. Однако для более корректного сравнения возможностей этих программ следует уяснить основные принципы систем распознавания текста.

Что такое OCR

Представьте ситуацию, когда вам требуется ввести в компьютер солидный объем информации: это могут быть книжные и альбомные страницы, офисные документы, газеты и прочее. Согласитесь, перспектива столь рутинного труда вряд ли способна обрадовать, поэтому и были придуманы системы распознавания или OCR-системы (Optical Character Recognition). Все, что вам понадобится — это сканер, программа распознавания и, конечно же, исходные «бумажные» документы (толковые OCR-системы умеют распознавать текст в графических и PDF-файлах).

Механизм работы с такой системой чрезвычайно прост: вы загружаете документ в сканер, нажимаете определенную кнопку в окне программы, проверяете полученный результат, после чего даете команду сохранить распознанную информацию в один из поддерживаемых форматов (Word, Excel, HTML, RTF, PDF, TXT). Наиболее трудоемкая операция — это проверка результата распознавания и воссоздание оформления исходного документа: количество ошибок, допущенных при этом, в идеале должно быть единичным, а качество передачи оформления исходного документа должно максимально соответствовать «исходнику».

Немаловажную роль играют языки распознавания, встроенная поддержка проверки орфографии 23 , работа с таблицами и многоколоночными текстами, с цветом (сохранение цветных картинок и цвета шрифта, фона), скорость и простота использования. Чуть позже мы рассмотрим, чем «грешат» домашние версии и чем могут гордиться профессиональные. Начнем с самого «легкого» приложения, рассмотрев на его примере некоторые приемы работы, присущие всей линейке.

Параметры сканирования

Качество распознавания во многом зависит от параметров сканируемого изображения. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости. Оптимальным типом в данном случае считается «Серый (256 градаций)», при этом будет осуществлен автоматический подбор яркости. Черно-белый тип обеспечивает более высокую скорость сканирования, но при этом будет утрачена часть информации о буквах, что может привести к ухудшению качества распознавания на документах среднего и низкого качества печати.

Если вам нужно, чтобы цветные элементы сканируемого документа (иллюстрации, цвет букв и фона) были переданы в FineReader точно, необходимо выбрать цветной тип изображения. Разрешение рекомендуется не более 300 dpi для обычных текстов (размер шрифта 10 и более пунктов) и 400—600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов). Для яркости в большинстве случаев подходит среднее значение — 50%.

ABBYY FineReader 6.0 Sprint

Самый простой продукт распознавания (65 Мбайт) вы не сможете купить отдельно — он поставляется в комплекте со сканерами и многофункциональными устройствами. Ряд пользователей относятся к такому «сопутствующему» софту с легким презрением, полагая «Спринт» недостойным их внимания. Но возможно, на первых порах «Спринт» вполне устроит вас, поскольку удобен и прост в использовании, а распознавание документа происходит с помощью одной кнопки Scan amp;Read.

Предлагается 13 языков установки, в том числе и русский. Учтите, выбирая язык, вы тем самым определяете локализацию интерфейса: в дальнейшем этот параметр изменить невозможно. По умолчанию будут установлены значок ABBYY FineReader в панели инструментов MS Word, а также огромное число языков распознавания, сгруппированных в четыре категории: «Основные» (наиболее употребимые языки), «Дополнительные» (сюда попали, например, албанский, белорусский, фиджи и гагаузский), «Формальные» (языки программирования и простые химические формулы) и «Искусственные» (эсперанто, интерлингва и другие). Нет смысла вводить все языки распознавания, в особенности, если вы не работаете с документами на языке Чаморо или Гуарани — экономия дискового пространства 24 окажется весьма существенной.

31
© 2012-2016 Электронная библиотека booklot.ru