Зміст:
- Збір даних
- Шаблони
- Створення завдань
- Збереження та зміна налаштувань завдань
- Представлення завдань та управління
- Додаткові інструменти
- Експорт даних
- Проксі-сервери
- Блокування реклами
- Хмарні сервіси
- Уроки з використання
- Технічна підтримка
- Переваги
- Недоліки
- Завантажити пробну версію Octoparse
- Питання та відповіді: 1
Збір даних
Octoparse – це комплексне програмне рішення для масового та автоматизованого збору (веб-скрейпінгу), структуризації та аналізу даних, для використання якого не потрібні навички програмування. З його допомогою можна перетворити будь-які неструктуровані веб-дані в готову інформаційну базу для маркетингу, досліджень, продажів, просування та вирішення безлічі інших бізнес-завдань.

В залежності від того, на яких сайтах буде використовуватися ПЗ, можна отримати дані та/або контент наступного типу: ціни та інформація про продукти (для торгових майданчиків); пости, публікації, коментарі (соціальні мережі); ціни, рейтинги, відгуки (бронирование, нерухомість); вакансії та зарплати (робота) тощо.

Розглянуте ПЗ функціонує під управлінням унікального алгоритму, в основі якого лежить штучний інтелект, що і дозволяє автоматично знаходити та витягувати дані веб-сторінок за попередньо вказаними або шаблонними параметрами.

Шаблони
Сервіс надає понад 200 готових до використання шаблонів для збору даних з веб-сайтів наступних категорій:
- Популярні веб-сервіси;
- Інтернет-магазини та торгові майданчики (Amazon, eBay, Walmart тощо);
- Готелі та подорожі (Airbnb, Booking, Tripadvisor тощо);
- Соціальні мережі та медіа (Facebook, Instagram, Twitter, YouTube тощо);
- Пошукові системи (Google, Yahoo);
- Дошки оголошень (Crunchbase, Yellow Pages, Yelp тощо);
- Картографічні сервіси (Google);
- Огляди;
- Пошук роботи;
- Нерухомість;
- Шкільна освіта;
- Фінанси;
- Ставки.













Створення завдань
Окрім шаблонних, в Octoparse можна створити власні завдання для витягування даних з вебу. Ця процедура виконується в три прості кроки: вказівка URL-адреси сторінки сайту, з якої потрібно зібрати дані, вибір мети та потім запуск і безпосереднє витягування.
Процедура надзвичайно проста та автоматизована – система розпізнає ключові елементи на веб-сторінках і виділяє (підсвічує) їх, що не лише забезпечує додаткову зручність у взаємодії, але й економить час. Ще більш важливо те, що такий підхід виключає необхідність знання та використання мови XPath для самостійного створення XML-запитів.

Збереження та зміна налаштувань завдань
Під час автоматичного витягування інформації та на основі виявленого на сайті контенту Octoparse створює власні налаштування, які можна як зберегти у вигляді шаблонних і готових для подальшого використання, так і змінити на свій розсуд, наприклад, виключивши одні категорії та додавши інші або просто змінивши їхню черговість.

Очевидно, що необхідність зміни базових налаштувань, які й обумовлюють кінцеве представлення зібраних даних, виникає досить часто. Спочатку вони відображаються у вигляді наочній таблиці з автоматично визначеними категоріями та порядком, стовпці в якій можна змінювати місцями, а непотрібні просто видалити.

Окрім цього, можна і часто потрібно самостійно вказувати такі параметри, як кількість сторінок на сайті та інтервал звернення до них.

Після автоматичного або самостійного визначення налаштувань, запуску та завершення безпосереднього процесу витягування створюється робочий шаблон (workflow), що складається з кількох блоків – редагованих елементів, кінцевий вигляд яких і визначає те, як буде виглядати завдання в результаті.

Представлення завдань та управління
Готові завдання додаються на панель моніторингу (доступна з верхнього та бічного меню), звідки можна виконувати такі дії, як запуск і зупинка процесу витягування, ділитися з колегами, експортувати, переглядати локальні дані та ті, що зберігаються в хмарі.

Для більш зручного пошуку та управління рекомендується створювати групи, за необхідності можна переміщати завдання з однієї категорії в іншу.

Додаткові інструменти
У складі актуальної (бета) версії Octoparse є два додаткові інструменти, які розширюють функціональні можливості цієї програми та дозволяють більш ефективно взаємодіяти з даними. Так, RegEx Tool надає можливість очищення зібраної інформації, а Database Auto Export Tool дозволяє задавати своє розклад для експорту в локальну базу.

Експорт даних
Зібрані за допомогою Octoparse дані за необхідності можуть бути збережені у форматах XLSX, CSV, JSON тощо для подальшої обробки в сторонньому програмному забезпеченні, наприклад, Excel або Ajax. Також є можливість експорту в бази даних.

Проксі-сервери
Розглянута програма надає можливість використання власного проксі-сервера в процесі збору даних. Таким чином можна приховати або автоматично підміняти свою IP-адресу, щоб не потрапити в чорний список оброблюваних веб-ресурсів.
Блокування реклами
Octoparse містить у своєму складі засоби блокування реклами, завдяки чому скорочується час завантаження сторінок і звернень до них, а отже, оптимізується і прискорюється вирішення основних робочих завдань.
Хмарні сервіси
Для забезпечення безпеки та надійності процесу веб-скрейпінгу Octoparse використовує передові технології хмарних обчислень власної розробки, а також надає доступ до своїх сервісів і серверів, швидкість роботи яких у 20 разів вища, ніж у локальних аналогів.

Уроки з використання
На офіційному сайті Octoparse представлена вичерпна бібліотека навчальних матеріалів, завдяки яким можна в найкоротші терміни освоїти всі функціональні можливості цього ПЗ, щоб максимально ефективно використовувати його для організації робочих процесів і вирішення бізнес-завдань. Перейти до них можна і з інтерфейсу програми, її головного вікна.

Технічна підтримка
У разі виникнення будь-яких труднощів у використанні та/або проблем у роботі Octoparse завжди можна звернутися до служби технічної підтримки сервісу веб-скрейпінгу даних. Доступні такі канали зв'язку: електронна пошта, форум і спільнота, соціальні мережі та живий чат (є тільки в платному тарифі). При цьому варто зазначити, що для отримання відповідей на ті чи інші питання часто достатньо звернутися до представленої на сайті бази знань або вже згаданих вище навчальних матеріалів.

Переваги
- Наявність 14-денної безкоштовної пробної версії;
- Простий і зручний, інтуїтивно зрозумілий інтерфейс;
- Відсутність необхідності володіти навичками програмування;
- Можливість використання хмарних сервісів компанії-розробника;
- Наявність навчальних матеріалів по використанню ПЗ;
- Технічна підтримка з кількома каналами зв'язку;
- Велика бібліотека готових шаблонів, які за необхідності можна змінювати під свої завдання;
- Підтримка найбільш популярних веб-сайтів і сервісів зовсім різних напрямків і тематик.
Недоліки
- Відсутність русифікації;
- Відсутність шаблонів для вітчизняних сайтів;
- На момент написання огляду актуальні версії Octoparse для Windows і macOS доступні тільки у вигляді beta. Попередня (стабільна) відрізняється від неї інтерфейсом і функціональністю.