Витягти текст з PDF-файлу шляхом простого копіювання можна далеко не завжди. Часто сторінки подібних документів є відскановане вміст їх паперових варіантів. Для перетворення таких файлів в повністю редаговані текстові дані використовуються спеціальні програми з функцією Optical Character Recognition (OCR).
Такі рішення є досить складними в реалізації і, отже, коштують чималих грошей. Якщо потреба в розпізнаванні тексту з PDF у вас виникає регулярно, цілком доцільно буде придбати відповідну програму. Для рідкісних же випадків більш логічним буде скористатися одним з доступних онлайн-сервісів з подібними функціями.
зміст
Звичайно, набір можливостей онлайн-сервісів OCR, в порівнянні з повноцінними десктопними рішеннями, більш обмежений. Але і працювати з такими ресурсами можна або ж зовсім безкоштовно, або за символічну плату. Головне, що з основним своїм завданням, а саме з розпізнаванням тексту, відповідні веб-додатки справляються так само добре.
Компанія-розробник сервісу - одна з лідерів в області оптичного розпізнавання документів. ABBYY FineReader для Windows і Mac є потужним рішенням для перетворення PDF в текст і подальшої роботи з ним.
Веб-аналог програми, звичайно ж, поступається їй за функціоналом. Проте сервіс вміє розпізнавати текст зі сканів і фотографій на більш ніж 190 мовами. Підтримується перетворення PDF-файлів в документи Word , Excel і т.п.
Онлайн-сервіс ABBYY FineReader Online
Сервіс відрізняється, ймовірно, найбільш точними алгоритмами розпізнавання тексту на зображеннях і PDF-файлах. Але, на жаль, його безкоштовне використання обмежене п'ятьма робочою сторінками в місяць. Щоб працювати з більш об'ємними документами, доведеться купити річну передплату.
Проте, якщо функція OCR потрібна зовсім уже й рідко, ABBYY FineReader Online - відмінний варіант для вилучення тексту з невеликих PDF-файлів.
Простий і зручний сервіс для оцифровки тексту. Без необхідності реєстрації ресурс дозволяє розпізнавати 15 повних PDF-сторінок на годину. Free Online OCR повноцінно працює з документами на 46 мовах і без авторизації підтримує три формату експорту тексту - DOCX, XLSX і TXT.
При реєстрації користувач отримує можливість обробляти багатосторінкові документи, проте безкоштовне кількість цих самих сторінок обмежена 50 одиницями.
Для авторизованих же користувачів послідовність дій дещо інша.
При необхідності витягти текст з невеликого PDF-документа можна сміливо вдаватися до використання вищеописаного інструменту. Для роботи ж з об'ємними файлами доведеться купити додаткові символи у Free Online OCR або ж вдатися до іншого рішення.
Повністю безкоштовний OCR-сервіс, який дозволяє добувати текст практично з будь-яких графічних та електронних документів на кшталт DjVu і PDF. Ресурс не накладає обмежень на розмір і кількість розпізнаваних файлів, не вимагає реєстрації і пропонує широкий набір супутніх функцій.
NewOCR підтримує 106 мов і вміє коректно обробляти навіть низькоякісні скани документів. Є можливість вручну вибирати область для розпізнавання тексту на сторінці файлу.
Інструмент зручний і досить якісно розпізнає всі символи. Втім, обробку кожної сторінки імпортованого PDF-документа потрібно запускати самостійно і виводиться вона в окремий файл. Можна, звичайно, відразу копіювати результати розпізнавання в буфер обміну і об'єднувати їх з іншими.
Проте, з огляду на вищеописаний нюанс, великі обсяги тексту за допомогою NewOCR витягувати вельми скрутно. З малими ж файлами сервіс справляється «на ура».
Простий і зрозумілий ресурс для оцифровки тексту, дозволяє розпізнавати PDF-документи і виводити результат в TXT-файл. Ніяких лімітів за кількістю сторінок не передбачено. Єдине обмеження - розмір вхідного документа не повинен перевищувати 5 мегабайт.
Якщо вам потрібно просто витягти текст з PDF і при цьому фінальне його форматування зовсім не важливо, OCR.Space - хороший вибір. Єдине, документ повинен бути «одномовних», так як розпізнавання двох і більше мов одночасно в сервісі не передбачено.
Читайте також: Безкоштовні аналоги FineReader
Оцінюючи онлайн-інструменти, представлені в статті, слід зазначити, що найбільш точно і якісно з функцією OCR справляється FineReader Online від ABBYY. Якщо для вас важлива саме максимальна точність розпізнавання тексту, найкраще розглянути конкретно цей варіант. Але і заплатити за нього, швидше за все, також доведеться.
Якщо ж потрібна оцифровка невеликих документів і ви готові самостійно виправляти помилки за сервісом, доцільно використовувати NewOCR, OCR.Space або Free Online OCR.