OCR CuneiForm – бесплатная программа для распознавания текста, таблиц и иллюстраций от ведущего российского разработчика программного обеспечения компании Cognitive Technologies.
Изначально данная программа для оптического распознавания была коммерческим продуктом. Её история началась с 1993 года, когда Cognitive Technologies и Corel Corporation заключили соглашение , в соответствии с которым векторный графический редактор CorelDRAW от Corel стал распространяться с интегрированной библиотекой CuneiForm.
В 1996 году в программе был впервые применен новый метод распознавания документов – адаптивный.
Существует два основных способа распознавания текста OCR-программами. Первый, шрифтовый, основан на сравнении распознаваемого текста с набором шаблонных шрифтов, имеющихся в базе программы. Этот метод имеет сравнительно. высокую точность распознавания. Второй метод – бесшрифтовый (шрифтонезависимый) основан на анализе всевозможных признаков отдельных букв и не привязан к какому-либо определенному шрифту. Бесшрифтовый метод обладает такими достоинствами как универсальность, технологичность и большее удобство при использовании программы. Так вот, адаптивный подход к распознаванию текста является синтезом двух основных подходов, описанных выше, и объединяет в себе их преимущества.
В 1997 году в CuneiForm задействован принцип распознавания, основанный на нейронных сетях.
В 1999 году к возможностям программы была добавлена функция “what you scan is what you get”, которая позволяет воссоздать точную форму исходного распознанного документа. Эта функция актуальна для сложных документов с таблицами, иллюстрациями, несколькими текстовыми колонками. При ее использовании каждый составляющий элемент исходного документа окажется при распознавании на своем месте. Разработка программы была прервана на значительное время и 2 апреля 2008 года было принято решение об официальном открытии текстов исходных кодов OCR CuneiForm. С тех пор программа стала распространяться свободно и любой желающий мог теперь внести свою лепту в ее улучшение.
Последняя доступная для скачивания версия на данный момент – это OCR CuneiForm v.12. Программа поддерживается в операционной системе Windows, а также представлена в репозиториях операционных систем семейства GNU/Linux. Скачать и пользоваться данной программой можно совершенно бесплатно. CuneiForm переведена на большое количество языков мира. Имеется поддержка и русского языка. Интерфейс программы прост и довольно лаконичен. Освоить её не составит большого труда. CuneiForm поддерживает интеграцию со сторонними приложениями для работы с текстовыми документами.
Итак, OCR CuneiForm является совершенно бесплатным аналогом ABBYY FineReader. А серьезных альтернатив в мире свободных программных продуктов у нее просто нет. Если вам часто приходится заниматься распознаванием текстовых документов, а затраты на коммерческий FineReader неоправданны, то вы вполне можете попробовать такую программу как CuneiForm.