X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

Открыть тему
Добавить ответ в эту тему
> BatchURLScraper - Извлечение данных методами XPath, CSSPath, XQuery и RegExp
Chaser
Chaser
Topic Starter сообщение 17.11.2020, 19:54; Ответить: Chaser
Сообщение #1


Всем привет!

Представляю вашему вниманию бесплатную программу BatchURLScraper, предназначенную для извлечения данных со страниц сайтов используя XPath, CSS-селекторы, XQuery и RegExp.







Возможности программы BatchURLScraper:
  • парсинг и извлечение данных по списку URL
  • гибкая настройка парсинга используя XPath, CSSPath, XQuery и RegExp
  • модуль для тестирования правил парсинга
  • экспорт отчетов в Excel (CSV-формат)


Страница скачивания (5 Мб): https://site-analyzer.ru/soft/batch-url-scraper/

Буду рад любым отзывам и пожеланиям по работе программы.


--------------------
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
NormanSky
NormanSky
сообщение 17.11.2020, 21:45; Ответить: NormanSky
Сообщение #2


Я так понимаю, если я не понимаю половины терминов в описании возможностей - значит софт такой мне не нужен? )
Простоым языком - для чего он?
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Chaser
Chaser
Topic Starter сообщение 17.11.2020, 22:03; Ответить: Chaser
Сообщение #3


NormanSky, Софт предназначен для извлечения цен из интернет-магазинов (мониторинг цен), кол-ва товаров на карточках, кол-ва лайков, мониторинга объявлений, извлечения Email с сайта и т.п. вещей.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
rokot
rokot
сообщение 18.11.2020, 10:56; Ответить: rokot
Сообщение #4


Chaser, прокси поддерживает софт? Т.к. в многопотоке парсить со своего IP не очень хочется.
А так софт классный, буду тестировать :)


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Chaser
Chaser
Topic Starter сообщение 18.11.2020, 11:15; Ответить: Chaser
Сообщение #5


rokot, пока нет, но если понадобится - прикрутим


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
rokot
rokot
сообщение 18.11.2020, 11:34; Ответить: rokot
Сообщение #6


Chaser, хотелось бы, т.к. многие сайты банят при частых запросах, а это сильно затрудняет и замедляет сбор нужной информации.

UPD: опробовал. Без проксей делать нечего, т.к. парсить будет вечность. При увеличении скорости ip уходит в бан. Но инфу парсит нормально, тут вопросов нет.

Сообщение отредактировал rokot - 18.11.2020, 16:31


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Chaser
Chaser
Topic Starter сообщение 26.11.2020, 19:11; Ответить: Chaser
Сообщение #7


rokot, добавили прокси

Новая версия BatchURLScraper 1.3







Что нового:
  • расширено число страниц для парсинга с 1000 до 5000 URL
  • добавлена возможность скрапинга через HTML templates
  • добавлена возможность извлечения данных через атрибуты CSS
  • добавлена возможность скрапинга через внешний и внутренний HTML
  • добавлена возможность использования списков Proxy
  • исправлен баг некорректного сохранения User-Agent


Страница скачивания: https://site-analyzer.ru/soft/batch-url-scraper/


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Chaser
Chaser
Topic Starter сообщение 8.12.2020, 20:33; Ответить: Chaser
Сообщение #8


Новая версия BatchURLScraper 1.4 (build 27), 08.12.2020:
  • исправлена ошибка с валидацией HTML-темплейтов
  • оптимизирована работа с регулярными выражениями
  • добавлена возможность неучета повторений при скрейпинге
  • исправлена проблема с учетом пауз между запросами
  • диапазон пауз между запросами расширен до полутора минут
  • доработан и улучшен перевод программы
  • устранены утечки памяти


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Добавить ответ в эту тему
Быстрый ответ
2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыSEO раскрутка вашего сайта белыми методами | Крауд, доски, статьи, соц. сети и пр.
Новый ALL-reg.biz - белые методы, подробные отчеты, доступные цены
43 Dr_Tapac 14058 9.1.2021, 17:23
автор: Lavr
Открытая тема (нет новых ответов) Интеграция спортивных данных API. Коэффициенты БК, Live результаты
6 yaroslav89 1017 7.1.2021, 18:05
автор: yaroslav89
Открытая тема (нет новых ответов) Apple обвинили в нарушении законов о защите личных данных
2 VinogradOFF 319 17.11.2020, 19:33
автор: Freedo
Открытая тема (нет новых ответов) Базы данных, различной тематики, выкладываем тут.
Делимся, обмениваемся, заказываем, парсим.
2 InfoObmen 2270 4.8.2020, 23:53
автор: InfoObmen
Открытая тема (нет новых ответов) SEO раскрутка вашего сайта белыми методами | Крауд, доски, статьи, соц. сети и пр.
9 DrTapac 3184 3.6.2020, 14:11
автор: -DrTapac-


 



RSS Текстовая версия Сейчас: 19.1.2021, 11:40
Дизайн