 |
«Наша компания, как разработчик системы, предназначенной для интеграции приложений, управления документами и бизнес-процессами, прекрасно понимает существующие потребности современных организаций в области обработки больших объемов данных. В качестве стратегического партнера, поставляющего технологии для организации потокового ввода, мы избрали компанию ABBYY — признанного мирового лидера в области подобных решений».
Елена Шелястина,
к. т. н., технический директор компании «ЛЕТОГРАФ» |
 |
«Наша компания со дня основания ведет серьезные научные исследования, которые позволяют создавать мощные высокотехнологичные продукты. Поэтому для нас очень важен успех интеграции системы ЛЕТОГРАФ и ABBYY Recognition Server. Это больше, чем просто удачный проект, — это практическое подтверждение ценности и необходимости той работы, которую ведут наши специалисты».
Юрий Корюкин,
директор по корпоративным проектам ABBYY (Россия) |
Проблема борьбы с бумажными архивами
Результаты современных исследований показывают, что объем бумажных документов в организации имеет тенденцию к увеличению: прирост объема составляет до 200% в год. Современный бизнес порождает огромные массивы информации, зафиксированной в документах различной формы и нуждающейся в эффективной обработке.
Многие компании, особенно крупные, страдают от большого объема бумажных архивов: что-либо найти в них бывает очень непросто, а поиски требуют значительных затрат как временных, так и человеческих ресурсов. Проблема усугубляется тем, что в компании может существовать несколько версий одного и того же документа, и зачастую бывает невозможно разобраться, какая из них нужна в данный момент.
В связи с этим у руководства подобных организаций возникает закономерное желание найти решение, способное сократить затраты на обеспечение бумажного документооборота. Очевидным представляется решение о переводе бумажного архива в электронный вид и использовании для работы с ним современных технических решений. Основой решения подобной задачи является применение концепции управления корпоративным содержанием (ECM), включающей в себя:
• управление корпоративными документами (EDM);
• управление web-содержанием (WCM);
• управление корпоративными записями (ERM).
Фактически концепция ECM и подразумевает перевод всех документов организации в электронный вид и последующее управление ими.
Однако сегодня полный переход на безбумажные технологии невозможен по некоторым принципиальным причинам.
1. Юридическую силу в нашей стране фактически имеют только соответствующим образом оформленные бумажные документы, поскольку законодательство, связанное с электронными цифровыми подписями, пока еще весьма несовершенно (хотя ситуация в этой области постепенно улучшается).
2. Общение организации с «внешним миром» осуществляется преимущественно с помощью различных бумажных документов, т.к. пока нельзя рассчитывать на то, что все клиенты и партнеры, особенно государственные органы, с которыми компания имеет дело, готовы работать с электронными документами.
3. Определенную роль играют психологические факторы: многие привыкли работать именно с бумажными документами.
Таким образом, развертывание электронной системы управления документами должно решить не только задачу организации ввода уже имеющихся документов, но и обеспечить эффективную работу с постоянным потоком вновь поступающей информации на бумажных
носителях. Более того, зачастую эта последняя задача настолько важна, что способность IT-решения обеспечить автоматизированный ввод необходимого потока документов может стать решающим фактором при выборе системы управления документами.
Возможности распознавания в системе ЛЕТОГРАФ
Компания «ЛЕТОГРАФ», разработчик одноименной системы интеграции приложений, управления документами и бизнес-процессами, прекрасно осознает необходимость эффективного обеспечения обработки большого количества бумажных документов. Основываясь на стратегии предоставления комплексного программного продукта, основанного на решениях технологических лидеров в различных областях, специалисты компании из множества существующих решений выбрали для реализации функций потокового ввода программное обеспечение фирмы ABBYY, которая известна широкому кругу пользователей системой ABBYY FineReader, предназначенной для распознавания документов сравнительно небольшого объема. ABBYY FineReader рассчитан в первую очередь на индивидуальных пользователей и небольшие организации. Имеется также система автоматизированного ввода данных ABBYY FormReader, способная распознавать формы, заполненные от руки или напечатанные на принтере.
Естественно, в системе промышленного масштаба, какой является ЛЕТОГРАФ, применяется не коробочный продукт, а крупное решение — ABBYY Recognition Server. Этот серверный продукт способен справиться практически с любыми объемами документов (естественно, при условии использования адекватной аппаратной базы). Важно отметить, что ЛЕТОГРАФ стал первым программным продуктом, тесно интегрированным с ABBYY Recognition Server, что в значительной мере стало возможно благодаря интеграционной платформе «ЛЕТОГРАФ.Ансамбль» и открытой архитектуре ABBYY Recognition Server. Важно отметить, что именно интеграционная платформа ЛЕТОГРАФ Ансамбль, на основе которой построена вся система, позволяет легко интегрировать в систему инструментарий потокового ввода.
Аппаратное обеспечение
Для автоматизированного ввода бумажных документов используются разнообразные сканеры. В тех случаях, когда объемы поступающий в систему бумажной информации невелики (несколько десятков страниц в день), вполне подойдут обычные планшетные сканеры, которые в силу своей простоты и дешевизны получили самое широкое распространение. Однако они отличаются невысокой производительностью, поэтому для ввода документов в промышленных масштабах обычно применяются специальные потоковые сканеры. Система ЛЕТОГРАФ способна работать с любыми типами сканеров, так что это оборудование следует выбирать исключительно из соображений функционального назначения и доступных финансовых ресурсов. В последнее время значительное распространение приобретают технологии штрих-кодирования. Обычно для ввода и распознавания штрих-кодов используются специальные сканеры (для этой цели можно использовать и обычные универсальные аппараты, но работать они будут существенно медленнее и будут значительно менее удобны в эксплуатации). Подобные приборы широко применяются, например, на кассах супермаркетов, но действительная сфера их применения значительно шире.
Например, с помощью штрих-кода можно закодировать все поля товарно-транспортных накладных: номер, дату, получателя и отправителя, код товара, количество, сумму и т.п. Ввод информации из такой накладной займет в несколько раз меньше времени, чем сканирование и
распознавание печатного текста, не говоря уже о ручном вводе этих данных в компьютер, а вероятность возникновения ошибки, требующей вмешательства человека, окажется многократно меньшей. Если же на одном бланке печатать и текстовую информацию, удобную для человека, и дублирующий ее штрих-код, появляется возможность быстро вводить такие документы в информационную систему с помощью сканера штрих-кодов, и в то же время сохраняется возможность обработки более традиционными способами, в том числе вручную. Система ЛЕТОГРАФ полностью поддерживает все перечисленные способы использования штрих-кодов.
В системах промышленного масштаба зачастую приходится обрабатывать значительные объемы документов, с распознаванием и обработкой которых не может справиться один, даже очень мощный, компьютер. Для предупреждения подобных проблем участок потокового ввода системы ЛЕТОГРАФ снабжен возможностью распределенной работы. Он способен функционировать сразу на множестве станций распознавания, работа между которыми распределяется автоматически. Помимо прочего, это повышает надежность системы, поскольку выход из строя нескольких станций лишь несколько замедлит процесс обработки, но не остановит его совсем.
Технология ввода и распознавания
Помимо бумажных носителей информации, источниками входящих документов для системы ЛЕТОГРАФ могут служить факсимильные сообщения, электронная почта, полученные извне файлы, в том числе документы из других информационных систем предприятия. В частности, возможна обработка PDF-файлов, содержащих образы ранее отсканированных, но еще не распознанных документов. В подобном случае потребность в сканировании отпадает, а существующий графический образ документа прямо передается в систему распознавания.
Ввод бумажных документов в систему происходит следующим образом.
1. Сначала оператор должен подготовить их к сканированию и поместить в сканер. Конкретные выполняемые при этом действия зависят от типа сканера, но в общем случае сводятся к приведению бумажных документов в пригодное для сканирования состояние.
2. После этого запускается сканирование. Полученные графические образы страниц документов поступают на распознавание — при этом ABBYY Recognition Server распределяет их между имеющимися станциями распознавания, повышая общую производительность системы.
Технологии ABBYY позволяют автоматически выделять поля из документов, структурированных определенным образом. Предусмотрены различные способы структурирования.
• Ряд документов имеет фиксированный набор полей, располагающихся на бумаге в строго определенном порядке; для их автоматического распознавания предварительно создается специальный шаблон, в котором указывается местоположение и назначение каждого реквизита.
• Часто встречаются также документы, имеющие «шапку» фиксированной структуры, за которой следует таблица, содержащая переменное число однотипных записей (таковы, например, товарно-транспортные накладные). Технологии ABBYY позволяют корректно обрабатывать и такие бланки, в том числе самостоятельно определять конец табличных данных.
Обработка многостраничных документов принципиально не отличается от обработки одностраничных. Единственное дополнительное требование — обеспечить отслеживание конца документа.
В некоторых случаях это можно сделать только вручную, хотя для более формализованных документов (например, для уже упоминавшихся товарно-транспортных накладных, включающих «шапку» и таблицу с заранее неизвестным количеством однотипных записей) определение осуществляется автоматически.
Возможны ситуации, когда система не может качественно распознать тот или иной участок текста. Подобные проблемы обычно связаны с низким качеством исходного документа (низкоконтрастная печать, загрязнение, потертости и сгибы бумаги и т.п.). В таких ситуациях модуль распознавания помечает проблемные участки и передает документ на проверку человеку-контролеру, который может внести коррективы, опираясь на бумажный оригинал. Конечно, может возникнуть потребность и в ручном вводе всего документа, и такая возможность системой, безусловно, поддерживается. Хотя оригиналы настолько низкого качества встречаются редко.
Отдельно следует остановиться на средствах контроля значений полей, полученных после сканирования и распознавания. Помимо элементарной проверки по словарю, которую осуществляют и сравнительно простые коробочные решения, возможно проведение сложных проверок:
• допускается проверка соответствия некоего поля одному из значений, представленных в списке — это могут быть наименования видов изделий или фирм-поставщиков и т.п.;
• полям может быть назначен определенный тип, например, дата или неотрицательное число с двумя знаками после запятой и т.п.
Возможна и реализация комплексных проверок, таких как суммирование значений нескольких полей и их сравнение с эталонным значением, которым может быть, в частности, значение еще одного поля. Все эти средства значительно повышают надежность распознавания документов и помогают выявлять ошибки сканирования и распознавания.
Создание хранилища данных
Способность системы самостоятельно или с помощью человека-оператора структурировать введенную информацию совершенно незаменима при создании электронных архивов, библиотек и баз знаний. Важность подобной функциональности несомненна, так как одной из важнейших функций подобных хранилищ информации является быстрое обнаружение документов по заданным критериям, а качественный поиск без предварительного структурирования данных возможен далеко не всегда. Например, в документе может встречаться несколько различных дат, но только одна из них показывает, когда создан сам документ. Соответственно, при поступлении запроса на поиск документов, созданных в определенный отрезок времени, должна проверяться именно эта дата, а при поиске любых упоминаний о заданном периоде времени — другие содержащиеся в тексте даты. Если же не выделить дату создания документа в качестве отдельного реквизита, реализовать подобный «умный» поиск будет невозможно.
Как уже отмечалось, разработанные компанией ABBYY технологии позволяют распознавать реквизиты большинства типичных деловых документов. Соответственно, в систему ЛЕТОГРАФ информация из обработанных бланков поступает уже в структурированном виде, пригодном для дальнейшей автоматизированной обработки. В частности, все поступившие документы сохраняются в архиве, что дает возможность в любой момент найти их и получить доступ к необходимой информации.
Преимущества системы ЛЕТОГРАФ
В основе технологий и решений, примененных в комплексной системе ЛЕТОГРАФ, лежит признанная концепция управления корпоративным содержанием (ECM), позволившая создать программный продукт, отвечающий всем современным потребностям коммерческих и государственных организаций любого размера.
Система ЛЕТОГРАФ, опираясь на интегрированные с ней возможности решений для потокового ввода, способна эффективно выполнять следующие задачи:
• преобразование больших объемов документов;
• ввод и последующее индексирование документов во встроенном хранилище данных, что обеспечивает в дальнейшем качественный полнотекстовый поиск;
• полнотекстовое распознавание неструктурированных документов;
• создание архива документов и быстрый поиск данных.
Внедрение технологий потокового ввода бумажных документов предоставляет организации целый ряд преимуществ:
• значительно сокращается время ввода информации в систему управления документами,
• снижается количество ошибок, связанных с неправильным вводом информации;
• уменьшается потребность в персонале, задействованном в первичной обработке документов.
Возможности системы ЛЕТОГРАФ, предназначенной для интеграции приложений, управления документами и бизнес-процессами, позволяют получить беспрецедентную скорость и высокое качество обработки массивов документов в сочетании с управляемостью, надежностью, гибкостью и масштабируемостью получаемого решения.
Перспективы решений ЛЕТОГРАФ
В настоящее время решения ЛЕТОГРАФ для организации специализированного документооборота функционируют как в государственных, так и в коммерческих структурах. Систему ЛЕТОГРАФ выбрали телекоммуникационные компании, проектные и финансовые организации. Применяется система и для реализации функций классического «рутинного» документооборота.
Залог успеха решений ЛЕТОГРАФ для организации специализированного документооборота — принципы, которыми руководствовались разработчики системы. Функциональные возможности ЛЕТОГРАФ основаны на ключевых современных концепциях управления корпоративной информацией: в системе реализованы модули, реализующие функции традиционного документооборота и решающие задачи интеграции корпоративных приложений и управления бизнес-процессами организации.
При разработке системы специалисты компании опирались на международные методологические требования и стандарты в области документоведения. Подобный подход позволил компании ЛЕТОГРАФ предложить универсальный программный продукт, способный удовлетворить потребности любых организаций, работающих на всех вертикальных рынках.
Сейчас компания «ЛЕТОГРАФ» совместно со своими партнерами ведет разработку типовых решений для различных отраслей. Создание подобных решений позволит оптимизировать схему работы со средними и малыми компаниями, заинтересованными в максимально быстром внедрении системы и запуске ее в промышленную эксплуатацию. Вертикальные решения будут основаны не только на опыте, приобретенном в ходе реализации отраслевых проектов, но и на анализе существующих потребностей бизнеса в целом и конкретных его отраслей.