Помощник
|
WebArchive Extractor - многопоточный парсер WebArchive |
Vilgelm |
3.5.2015, 3:43;
Ответить: Vilgelm
Сообщение
#12
|
|
Напишу небольшой отзыв:
Софт хороший, но несколько сыроват. Сначала вставил ссылку с вебархива в том виде, в котором она была в адресной строке. Информация загрузилась, но при парсинге полезли ошибки и ничего не спарсилось. Оказалось, что https не поддерживается, нужен http. Ничего страшного, но хотелось бы получать какое-нибудь предупреждение. Потом попробовал парсить через публичные прокси, получил большой и жирный, т.к. парсилось от силы процентов 20 страниц. При этом прокси прочеканые, но валилось куча 404 и 503 ошибок (очевидно потому что прокси говно). Однако программа такие ошибки не обрабатывает и не пытается загрузить страницу через другой прокси, т.е. ошибка и хрен с ней, идем дальше. Без прокси что-то парсить тоже особо не выходит, т.к. даже в однопоточном режиме вебархив (?) достаточно быстро это дело пресекает ("err: Время ожидания операции истекло" после 5-50 страниц, хотя я не уверен, в чем проблема, по идее вебархив не должен за такое банить, канал тоже отличный), а возможности указать задержку между запросами нет. Через прокси с awmproxy все заработало, но тарифы у них мама дорогая, через роботулс наверное и то дешевле выйдет. Однако после того как спарсился весь сайт (или не весь) зачем-то парсинг пошел по второму кругу. А потом по третьему. Подождал до 7-го, надоело. Лог могу прислать в ЛС или куда-нибудь еще. Проявляется не на всех сайтах, у меня на двух из пяти. В остальном все работает хорошо, цены тоже радуют. Небольшие пожелания: - при парсинге через прокси после получения 403, 404 и других ошибок пробовать загрузить страницу через другой прокси; - исправить глюк с бесконечным парсингом. Да, при оплате неплохо бы было добавить возможность оплачивать картами, а то сегодня на Webmoney не было, пришлось какими-то обходными путями (выбирать в oplata.info оплату через W1, после редиректа на Робокассу выбирать оплату через Промсвязь). В oplata.info, если я не ошибаюсь, такая возможность есть, нужно смотреть в настройках товара или аккаунта. Кстати, заглушки вебархива по поводу редиректа тоже парсятся. Такие вот Развернуть/Свернуть
Loading...
/moscow.htm | 20:55:23 июл 28, 2007 Got an HTTP 302 response at crawl time Redirecting to... http://host5.km.ru/404.htm В принципе, ничего страшного, но зачем? Сообщение отредактировал Vilgelm - 3.5.2015, 3:47 -------------------- |
|
|
oxgen
|
Сообщение
#13
|
|
Vilgelm, спасибо за отзыв!
Был в отъезде, в течении пары дней разберусь и поправлю. В личные сообщения пришлите, пожалуйста, сайты на которых идет по кругу (ссылку какую давали в программу), где-то видимо ошибка при обработке. -------------------- |
|
|
stefanboss |
21.5.2015, 22:11;
Ответить: stefanboss
Сообщение
#14
|
|
oxgen,
в Вебархиве куча мусора в коде.. Убивает ли прожка этот мусор или нужно ручками? |
|
|
oxgen
|
Сообщение
#15
|
|
Какой именно мусор имеется ввиду? Программа убивает всю лишнюю разметку архива и часть скриптов которые не получается восстановить.
-------------------- |
|
|
stefanboss |
22.5.2015, 13:48;
Ответить: stefanboss
Сообщение
#16
|
|
было бы неплохо ключ на одни сутки что бы был в предложении покупки.. Думаю желающих бы много нашлось. Просто не всегда есть необходимость в программе на 3 дня.. Бывает возникает срочная надобность выкачать один сайт.
Сообщение отредактировал stefanboss - 22.5.2015, 13:48 |
|
|
oxgen
|
Сообщение
#17
|
|
Суточные ключи есть в продаже на площадке плати.ру
-------------------- |
|
|
stefanboss |
26.5.2015, 15:55;
Ответить: stefanboss
Сообщение
#18
|
|
oxgen
Я вот одного не могу понять, почему я обычным бесплатным скриптом скачиваю около 250 страниц без всяких там проксей и прочих сложностей, а с помощью вашей программы не могу с количеством 1 потока выкачать и 20 страниц? Нарываясь на какие то ERR.. ошибки |
|
|
oxgen
|
Сообщение
#19
|
|
Я сам лично выкачивал сайт на 3000 страниц меньше чем неделю назад, в 1н поток без прокси. Присылайте лог работы в личные сообщения или на почту, посмотрю.
-------------------- |
|
|
zilonitiz |
27.8.2015, 19:08;
Ответить: zilonitiz
Сообщение
#20
|
|
oxgen, импорт в популярные CMS возможен или все в планах?
|
|
|
bekett |
2.9.2015, 16:18;
Ответить: bekett
Сообщение
#21
|
|
oxgen, Суточные ключи есть в продаже на площадке плати.ру
ключей 1,3 дня нет каспер беспощадно удаляет WebArchive.exe https://www.virustotal.com/ru/file/54e67093...120d7/analysis/ -------------------- |
|
|
|
Похожие темы
Тема | Ответов | Автор | Просмотров | Последний ответ | |
---|---|---|---|---|---|
A-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парсеров. | 353 | Forbidden | 279269 | 11.4.2024, 17:07 автор: AParser_Support |
|
Linken Sphere - многопоточный браузер / антидетект / арбитраж трафика / мультиаккаунтинг | 42 | Gor510 | 19087 | 6.4.2024, 14:42 автор: Gor510 |
|
Бесплатный парсер бот в Телеграм - [Parser Pro] | 5 | Parser_Pro | 3349 | 27.1.2024, 16:12 автор: Parser_Pro |
|
WebArchiveMaster - парсер Вебархива Добыча контента из ВебАрхива |
16 | footashes | 12309 | 23.11.2022, 16:36 автор: kuz999 |
|
⚡ AvitoSmart - быстрый парсер новых объявлений на Авито на запросах Представляю парсер для [b]Zennoposter[/b]'a или [b]Zennobox[/b] |
0 | akcium | 1265 | 19.11.2022, 13:05 автор: akcium |
Текстовая версия | Сейчас: 19.4.2024, 11:06 |