Збір даних

Octoparse – це комплексне програмне рішення для масового та автоматизованого збору (веб-скрейпінгу), структуризації та аналізу даних, для використання якого не потрібні навички програмування. З його допомогою можна перетворити будь-які неструктуровані веб-дані в готову інформаційну базу для маркетингу, досліджень, продажів, просування та вирішення безлічі інших бізнес-завдань.

Головне вікно програми для веб-скрейпінгу даних Octoparse

В залежності від того, на яких сайтах буде використовуватися ПЗ, можна отримати дані та/або контент наступного типу: ціни та інформація про продукти (для торгових майданчиків); пости, публікації, коментарі (соціальні мережі); ціни, рейтинги, відгуки (бронирование, нерухомість); вакансії та зарплати (робота) тощо.

Набір шаблонів одного сайту в програмі для веб-скрейпінгу даних Octoparse

Розглянуте ПЗ функціонує під управлінням унікального алгоритму, в основі якого лежить штучний інтелект, що і дозволяє автоматично знаходити та витягувати дані веб-сторінок за попередньо вказаними або шаблонними параметрами.

Приклад шаблону для сайту Amazon у програмі для веб-скрейпінгу даних Octoparse

Шаблони

Сервіс надає понад 200 готових до використання шаблонів для збору даних з веб-сайтів наступних категорій:

  • Популярні веб-сервіси;
  • Шаблони для роботи з популярними сайтами в програмі для веб-скрейпінгу даних Octoparse
  • Інтернет-магазини та торгові майданчики (Amazon, eBay, Walmart тощо);
  • Шаблони для роботи з інтернет-магазинами та торговими майданчиками в програмі для веб-скрейпінгу даних Octoparse
  • Готелі та подорожі (Airbnb, Booking, Tripadvisor тощо);
  • Шаблони категорії готелі та подорожі в програмі для веб-скрейпінгу даних Octoparse
  • Соціальні мережі та медіа (Facebook, Instagram, Twitter, YouTube тощо);
  • Шаблони категорії соціальні мережі та медіа в програмі для веб-скрейпінгу даних Octoparse
  • Пошукові системи (Google, Yahoo);
  • Шаблони категорії пошукових систем у програмі для веб-скрейпінгу даних Octoparse
  • Дошки оголошень (Crunchbase, Yellow Pages, Yelp тощо);
  • Шаблони категорії дошки оголошень у програмі для веб-скрейпінгу даних Octoparse
  • Картографічні сервіси (Google);
  • Шаблони категорії картографічні сервіси в програмі для веб-скрейпінгу даних Octoparse
  • Огляди;
  • Шаблони категорії огляди в програмі для веб-скрейпінгу даних Octoparse
  • Пошук роботи;
  • Шаблони категорії "робота" в програмі для веб-скрейпінгу даних Octoparse
  • Нерухомість;
  • Шаблони категорії нерухомість у програмі для веб-скрейпінгу даних Octoparse
  • Шкільна освіта;
  • Шаблони категорії шкільної освіти в програмі для веб-скрейпінгу даних Octoparse
  • Фінанси;
  • Шаблони категорії фінанси в програмі для веб-скрейпінгу даних Octoparse
  • Ставки.
  • Шаблони категорії ставок у програмі для веб-скрейпінгу даних Octoparse

Створення завдань

Окрім шаблонних, в Octoparse можна створити власні завдання для витягування даних з вебу. Ця процедура виконується в три прості кроки: вказівка URL-адреси сторінки сайту, з якої потрібно зібрати дані, вибір мети та потім запуск і безпосереднє витягування.

Створення власного завдання в програмі для веб-скрейпінгу даних Octoparse

Процедура надзвичайно проста та автоматизована – система розпізнає ключові елементи на веб-сторінках і виділяє (підсвічує) їх, що не лише забезпечує додаткову зручність у взаємодії, але й економить час. Ще більш важливо те, що такий підхід виключає необхідність знання та використання мови XPath для самостійного створення XML-запитів.

Хід виконання завдання в програмі для веб-скрейпінгу даних Octoparse

Збереження та зміна налаштувань завдань

Під час автоматичного витягування інформації та на основі виявленого на сайті контенту Octoparse створює власні налаштування, які можна як зберегти у вигляді шаблонних і готових для подальшого використання, так і змінити на свій розсуд, наприклад, виключивши одні категорії та додавши інші або просто змінивши їхню черговість.

Початкове уявлення задачі в програмі для веб-скрейпінгу даних Octoparse

Очевидно, що необхідність зміни базових налаштувань, які й обумовлюють кінцеве представлення зібраних даних, виникає досить часто. Спочатку вони відображаються у вигляді наочній таблиці з автоматично визначеними категоріями та порядком, стовпці в якій можна змінювати місцями, а непотрібні просто видалити.

Процес роботи в програмі для веб-скрейпінгу даних Octoparse

Окрім цього, можна і часто потрібно самостійно вказувати такі параметри, як кількість сторінок на сайті та інтервал звернення до них.

Налаштування дій для вилучення даних у програмі для веб-скрейпінгу даних Octoparse

Після автоматичного або самостійного визначення налаштувань, запуску та завершення безпосереднього процесу витягування створюється робочий шаблон (workflow), що складається з кількох блоків – редагованих елементів, кінцевий вигляд яких і визначає те, як буде виглядати завдання в результаті.

Процес виконання створеного завдання в програмі для веб-скрейпінгу даних Octoparse

Представлення завдань та управління

Готові завдання додаються на панель моніторингу (доступна з верхнього та бічного меню), звідки можна виконувати такі дії, як запуск і зупинка процесу витягування, ділитися з колегами, експортувати, переглядати локальні дані та ті, що зберігаються в хмарі.

Панель моніторингу з завданнями в програмі для веб-скрейпінгу даних Octoparse

Для більш зручного пошуку та управління рекомендується створювати групи, за необхідності можна переміщати завдання з однієї категорії в іншу.

групування завдань на панелі моніторингу в програмі для веб-скрейпінгу даних Octoparse

Додаткові інструменти

У складі актуальної (бета) версії Octoparse є два додаткові інструменти, які розширюють функціональні можливості цієї програми та дозволяють більш ефективно взаємодіяти з даними. Так, RegEx Tool надає можливість очищення зібраної інформації, а Database Auto Export Tool дозволяє задавати своє розклад для експорту в локальну базу.

Набір додаткових інструментів у програмі для веб-скрейпінгу даних Octoparse

Експорт даних

Зібрані за допомогою Octoparse дані за необхідності можуть бути збережені у форматах XLSX, CSV, JSON тощо для подальшої обробки в сторонньому програмному забезпеченні, наприклад, Excel або Ajax. Також є можливість експорту в бази даних.

Експорт зібраних під час виконання завдання даних у програмі для веб-скрейпінгу даних Octoparse

Проксі-сервери

Розглянута програма надає можливість використання власного проксі-сервера в процесі збору даних. Таким чином можна приховати або автоматично підміняти свою IP-адресу, щоб не потрапити в чорний список оброблюваних веб-ресурсів.

Блокування реклами

Octoparse містить у своєму складі засоби блокування реклами, завдяки чому скорочується час завантаження сторінок і звернень до них, а отже, оптимізується і прискорюється вирішення основних робочих завдань.

Хмарні сервіси

Для забезпечення безпеки та надійності процесу веб-скрейпінгу Octoparse використовує передові технології хмарних обчислень власної розробки, а також надає доступ до своїх сервісів і серверів, швидкість роботи яких у 20 разів вища, ніж у локальних аналогів.

Принцип роботи програми для веб-скрейпінгу даних Octoparse

Уроки з використання

На офіційному сайті Octoparse представлена вичерпна бібліотека навчальних матеріалів, завдяки яким можна в найкоротші терміни освоїти всі функціональні можливості цього ПЗ, щоб максимально ефективно використовувати його для організації робочих процесів і вирішення бізнес-завдань. Перейти до них можна і з інтерфейсу програми, її головного вікна.

Сторінка підтримки на сайті програми для веб-скрейпінгу даних Octoparse

Технічна підтримка

У разі виникнення будь-яких труднощів у використанні та/або проблем у роботі Octoparse завжди можна звернутися до служби технічної підтримки сервісу веб-скрейпінгу даних. Доступні такі канали зв'язку: електронна пошта, форум і спільнота, соціальні мережі та живий чат (є тільки в платному тарифі). При цьому варто зазначити, що для отримання відповідей на ті чи інші питання часто достатньо звернутися до представленої на сайті бази знань або вже згаданих вище навчальних матеріалів.

Сторінка довідки та технічної підтримки на сайті програми для веб-скрейпінгу даних Octoparse

Переваги

  • Наявність 14-денної безкоштовної пробної версії;
  • Простий і зручний, інтуїтивно зрозумілий інтерфейс;
  • Відсутність необхідності володіти навичками програмування;
  • Можливість використання хмарних сервісів компанії-розробника;
  • Наявність навчальних матеріалів по використанню ПЗ;
  • Технічна підтримка з кількома каналами зв'язку;
  • Велика бібліотека готових шаблонів, які за необхідності можна змінювати під свої завдання;
  • Підтримка найбільш популярних веб-сайтів і сервісів зовсім різних напрямків і тематик.

Недоліки

  • Відсутність русифікації;
  • Відсутність шаблонів для вітчизняних сайтів;
  • На момент написання огляду актуальні версії Octoparse для Windows і macOS доступні тільки у вигляді beta. Попередня (стабільна) відрізняється від неї інтерфейсом і функціональністю.

Скачати пробну версію Octoparse

Завантажити останню версію програми з офіційного сайту