Folium
Поради спеціалістів з конвертації документів

Переведення інформації з паперових носіїв актуальний не лише враховуючи потреби компаній в налагодженні електронного документообігу. Сучасні інформаційні технології дозволяють суттєво спростити доступ до інформаційних ресурсів, які були накопичені людством, але лише за тієї умови, коли всі вони представлені в електронному вигляді.

Варто звернути увагу на необхідність використання прийнятних технологій для розпізнавання документів, бо документ може так і залишитись лише файлом, збереженим на носієві і непридатним для оперативного пошуку (за аналогією із його паперовим відповідником, що містить згасаючий текст: документ є, однак цінність його втрачена).

Розпізнавання документів в умовах налагодження електронного документообігу, або ж створення електронного архіву, безумовно, передбачає використання та тестування різних методів переведення даних в машиночитний вид.

undefinedНайвідомішою в світі є технологія оптичного розпізнавання текстів (від англ. optical character recognition, OCR). Це механічна або електронна конвертацію машинописного або друкованого тексту в машиночитні текстові документи. Програмне забезпечення або онлайн-сервіси конвертують відскановані документи в формати, доступні для редагування, з можливістю пошуку по тексту. Використання подібних програм та сервісів оптимальне для конвертації невеликих об’ємів тексту, так як в великих масштабах оцифрування стає достатньо дорогим, оскільки досягти 100% відповідності оригіналу можливо лише за умов подальшого редагування розпізнаних символів людськими ресурсами. Існує чимало OCR-додатків розпізнавання документів - ABBY FineReader, CuneiForm, Tesseract, а також онлайн-сервісів (FineReaderOnline.ru, Onlineocr.ru, Liveocr.com).

Однак під час реалізації масштабних проектів на підприємствах, які мають значну історію, виникають складнощі, пов’язані з якістю документів, їх станом фізичного збереження. Дуже часто сучасні технології розпізнавання не можуть бути застосовані до такої категорії першоджерел.

Мова йде про великі обсяги документів, їх незадовільний фізичний стан (ветхі, пожовклі, на різному папері тощо), наявністю вузькопрофільної лексики. Безумовно, в таких випадках задачу з оцифрування даних не вирішити за допомогою єдиної технології розпізнавання документів. У такому випадку є необхідність звернутись до спеціалістів. До прикладу, компанія «Електронні архіви України» має налагоджену технологію та реалізовані проекти, пов’язані з обробкою рукописних, важко відтворюваних даних.