Витягти текст з PDF-файлу шляхом простого копіювання можна далеко не завжди. Часто сторінки подібних документів є відскановане вміст їх паперових варіантів. Для перетворення таких файлів в повністю редаговані текстові дані використовуються спеціальні програми з функцією Optical Character Recognition (OCR).

Такі рішення є досить складними в реалізації і, отже, коштують чималих грошей. Якщо потреба в розпізнаванні тексту з PDF у вас виникає регулярно, цілком доцільно буде придбати відповідну програму. Для рідкісних же випадків більш логічним буде скористатися одним з доступних онлайн-сервісів з подібними функціями.

Як розпізнати текст з PDF онлайн

Звичайно, набір можливостей онлайн-сервісів OCR, в порівнянні з повноцінними десктопними рішеннями, більш обмежений. Але і працювати з такими ресурсами можна або ж зовсім безкоштовно, або за символічну плату. Головне, що з основним своїм завданням, а саме з розпізнаванням тексту, відповідні веб-додатки справляються так само добре.

Спосіб 1: ABBYY FineReader Online

Компанія-розробник сервісу - одна з лідерів в області оптичного розпізнавання документів. ABBYY FineReader для Windows і Mac є потужним рішенням для перетворення PDF в текст і подальшої роботи з ним.

Веб-аналог програми, звичайно ж, поступається їй за функціоналом. Проте сервіс вміє розпізнавати текст зі сканів і фотографій на більш ніж 190 мовами. Підтримується перетворення PDF-файлів в документи Word , Excel і т.п.

Онлайн-сервіс ABBYY FineReader Online

  1. Перш ніж приступити до роботи з інструментом, створіть акаунт на сайті або увійдіть за допомогою облікового запису Facebook, Google або Microsoft.
    Реєстрація в онлайн-сервісі ABBYY FineReader Online
    Щоб перейти до вікна авторизації, натисніть на кнопку «Вхід» у верхній панелі меню.
  2. Здійснивши вхід, імпортуйте потрібний PDF-документ в FineReader, скориставшись кнопкою «Завантажити файли».
    Розпізнавання тексту з PDF-документа в онлайн-сервісі ABBYY FineReader Online
    Потім натисніть «Вибрати номера сторінок» і вкажіть бажаний проміжок для розпізнавання тексту.
  3. Далі виберіть мови, присутні в документі, формат підсумкового файлу і натисніть на кнопку «Розпізнати».
    Старт розпізнавання тексту з PDF-документа в ABBYY FineReader Online
  4. Після обробки, тривалість якої повністю залежить від обсягу документа, ви можете завантажити готовий файл з текстовими даними просто клацнувши по його назві.
    Завантаження готового документа з онлайн-сервісу ABBYY FineReader Online
    Або ж експортуйте його в один з доступних хмарних сервісів.

Сервіс відрізняється, ймовірно, найбільш точними алгоритмами розпізнавання тексту на зображеннях і PDF-файлах. Але, на жаль, його безкоштовне використання обмежене п'ятьма робочою сторінками в місяць. Щоб працювати з більш об'ємними документами, доведеться купити річну передплату.

Проте, якщо функція OCR потрібна зовсім уже й рідко, ABBYY FineReader Online - відмінний варіант для вилучення тексту з невеликих PDF-файлів.

Спосіб 2: Free Online OCR

Простий і зручний сервіс для оцифровки тексту. Без необхідності реєстрації ресурс дозволяє розпізнавати 15 повних PDF-сторінок на годину. Free Online OCR повноцінно працює з документами на 46 мовах і без авторизації підтримує три формату експорту тексту - DOCX, XLSX і TXT.

При реєстрації користувач отримує можливість обробляти багатосторінкові документи, проте безкоштовне кількість цих самих сторінок обмежена 50 одиницями.

Онлайн-сервіс Free Online OCR

  1. Щоб розпізнати текст з PDF як «гість», без авторизації на ресурсі, скористайтеся відповідною формою на головній сторінці сайту.
    Розпізнавання PDF в онлайн-сервісі Free Online OCR
    Виберіть потрібний документ за допомогою кнопки «Файл», вкажіть основну мову тексту, вихідний формат, потім дочекайтеся завантаження файлу і натисніть «Конвертувати».
  2. Після закінчення процесу оцифровки натисніть «Завантажити вихідний файл» для збереження готового документа з текстом на комп'ютері.
    Завантаження результату розпізнавання тексту з PDF з онлайн-сервісу Free Online OCR

Для авторизованих же користувачів послідовність дій дещо інша.

  1. Скористайтеся кнопкою «Реєстрація» або «Вхід» у верхній панелі меню, щоб, відповідно, створити обліковий запис Free Online OCR або зайти в неї.
    Створення облікового запису в онлайн-сервісі Free Online OCR
  2. Після авторизації в панелі розпізнавання, утримуючи клавішу «CTRL», виберіть до двох мов вихідного документа із запропонованого списку.
    Визначення мов вихідного документа для розпізнавання тексту в Free Online OCR
  3. Вкажіть подальші параметри вилучення тексту з PDF і натисніть кнопку «Вибрати файл» для завантаження документа в сервіс.
    Старт розпізнавання PDF-документа в онлайн-сервісі Free Online OCR
    Потім, щоб приступити до розпізнавання, клацніть «Конвертувати».
  4. Після закінчення обробки документа натисніть на посилання з назвою вихідного файлу у відповідній колонці.
    Завантаження готового DOCX-файлу з онлайн-сервісу Free Online OCR
    Результат розпізнавання відразу ж буде збережений в пам'яті вашого комп'ютера.

При необхідності витягти текст з невеликого PDF-документа можна сміливо вдаватися до використання вищеописаного інструменту. Для роботи ж з об'ємними файлами доведеться купити додаткові символи у Free Online OCR або ж вдатися до іншого рішення.

Спосіб 3: NewOCR

Повністю безкоштовний OCR-сервіс, який дозволяє добувати текст практично з будь-яких графічних та електронних документів на кшталт DjVu і PDF. Ресурс не накладає обмежень на розмір і кількість розпізнаваних файлів, не вимагає реєстрації і пропонує широкий набір супутніх функцій.

NewOCR підтримує 106 мов і вміє коректно обробляти навіть низькоякісні скани документів. Є можливість вручну вибирати область для розпізнавання тексту на сторінці файлу.

Онлайн-сервіс NewOCR

  1. Так, приступити до роботи з ресурсом ви можете відразу, без необхідності виконання зайвих дій.
    Завантаження PDF-файлу для розпізнавання в онлайн-сервіс NewOCR
    Прямо на головній сторінці розміщена форма для імпорту документа на сайт. Щоб завантажити файл в NewOCR, скористайтеся кнопкою «Виберіть файл» в розділі «Select your file». Потім в полі «Recognition language (s)» вкажіть один або більше мов вихідного документа, після чого натисніть «Upload + OCR».
  2. Задайте бажані настройки розпізнавання, виберіть потрібну сторінку для вилучення тексту і натисніть на кнопку «OCR».
    Налагодження та запуск розпізнавання тексту з PDF в онлайн-сервісі NewOCR
  3. Прокрутіть сторінку трохи нижче і знайдіть кнопку «Download».
    Завантаження витягнутого в NewOCR текст на комп'ютер
    Клацніть по ній і в випадаючому списку виберіть необхідний формат документа для скачування. Після цього готовий файл з витягнутим текстом буде завантажений на ваш комп'ютер.

Інструмент зручний і досить якісно розпізнає всі символи. Втім, обробку кожної сторінки імпортованого PDF-документа потрібно запускати самостійно і виводиться вона в окремий файл. Можна, звичайно, відразу копіювати результати розпізнавання в буфер обміну і об'єднувати їх з іншими.

Проте, з огляду на вищеописаний нюанс, великі обсяги тексту за допомогою NewOCR витягувати вельми скрутно. З малими ж файлами сервіс справляється «на ура».

Спосіб 4: OCR.Space

Простий і зрозумілий ресурс для оцифровки тексту, дозволяє розпізнавати PDF-документи і виводити результат в TXT-файл. Ніяких лімітів за кількістю сторінок не передбачено. Єдине обмеження - розмір вхідного документа не повинен перевищувати 5 мегабайт.

Онлайн-сервіс OCR.Space

  1. Реєструватися для роботи з інструментом не потрібно.
    Імпорт PDF-файлу в онлайн-сервіс OCR.Space
    Просто перейдіть за посиланням вище і завантажте PDF-документ на сайт з комп'ютера за допомогою кнопки «Виберіть файл» або з мережі - за посиланням.
  2. У випадаючому списку «Select OCR language» виберіть мову імпортованого документа.
    Запуск процесу розпізнавання PDF-документа в онлайн-сервісі OCR.Space
    Потім запустіть процес розпізнавання тексту, натиснувши кнопку «Start OCR!».
  3. Після закінчення обробки файлу ознайомтеся з результатом в поле «OCR'ed Result» і натисніть «Download», щоб завантажити готовий TXT-документ.
    Завантаження результату розпізнавання PDF-файлу з онлайн-сервісу OCR.Space

Якщо вам потрібно просто витягти текст з PDF і при цьому фінальне його форматування зовсім не важливо, OCR.Space - хороший вибір. Єдине, документ повинен бути «одномовних», так як розпізнавання двох і більше мов одночасно в сервісі не передбачено.

Читайте також: Безкоштовні аналоги FineReader

Оцінюючи онлайн-інструменти, представлені в статті, слід зазначити, що найбільш точно і якісно з функцією OCR справляється FineReader Online від ABBYY. Якщо для вас важлива саме максимальна точність розпізнавання тексту, найкраще розглянути конкретно цей варіант. Але і заплатити за нього, швидше за все, також доведеться.

Якщо ж потрібна оцифровка невеликих документів і ви готові самостійно виправляти помилки за сервісом, доцільно використовувати NewOCR, OCR.Space або Free Online OCR.