Folium
Розпізнавання документів та їх індексація.

Розпізнавання тексту а його індексація

Для ефективного використання документів важливо не тільки відсканувати ваші документи, а й мати можливість виробляти пошук по них. Є кілька варіантів вирішення цього завдання, зокрема розпізнавання документів або введення з них ключових слів.

Розпізнавання документів

Розпізнавання документів застосовується для першоджерел хорошої якості, без наявності артефактів. Для цього найчастіше використовуються різні системи розпізнавання документів або OCR -системи (Optical Character Recognition ). Їх завдання полягає в автоматичному введенні всіх даних в комп'ютер.

Наведений метод використовується для документів без артефактів (сміття, коментарів, записів на полях і т.д.), наприклад, сторінок «свіжої» книги, журналу, словника, опитувальні анкети. Розпізнаний документ користувач зможе скопіювати, працювати з окремими абзацами тексту, коригувати їх.

Що стосується архівних документів - тут процедура налагодження розпізнавання документів проходить набагато довше, а його достовірність становить невеликий відсоток. У цьому випадку використовуються різні методи напівавтоматичного перетворення документів в електронний вигляд, за допомогою ключових слів (індексація ).

Індексація документів

Індексація документів - це процес присвоєння документам (їх електронним копіям або електронним документам) ідентифікаційних ознак, що дозволяють швидко знаходити потрібну інформацію в базі даних. Такими індексами може бути тип документа, його номер, дата, автор, інше.

Відмітною перевагою компанії "ЕЛАУ " на етапі розпізнавання даних/ індексації, є робота з самими складними даними, зокрема:

  • рукописними (повністю рукописні документи або ж містять інформацію , написану від руки);
  • виконані на друкарській машинці;
  • такими що погано читаються (текст вицвів, інформація частково втрачена та ін);
  • інформація з документів одного типу розташована в різних частинах (наприклад , при зміні порядку оформлення договорів).

Зверніть увагу , що більшість документів, що містять перераховані вище ознаки - практично не піддаються коректному автоматичному розпізнаванню.

При виконанні повного або часткового розпізнавання документів , фахівці " ЕЛАУ " використовують багаторівневу перевірку якості масиву. Уникнути можливих помилок допомагає також виконання тестового ресурсу , де на невеликому обсязі « обігрується » вся технологія , узгоджуються поля , визначаються критерії якості.

Ціни на разпознаваніе документів або індексацію визначаються індивідуально, залежно від обсягу, критеріїв якості і т.д. На всі питання, що стосуються розпізнавання документів або створення електронного архіву, з радістю дадуть наші менеджери, зв'язатися з якими можна за телефоном +38(044)498-20-09.