X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

6 страниц V  < 1 2 3 4 5 6 >
Открыть тему
Тема закрыта
> WebArchive Extractor - многопоточный парсер WebArchive
Vilgelm
Vilgelm
сообщение 3.5.2015, 3:43; Ответить: Vilgelm
Сообщение #12


Напишу небольшой отзыв:
Софт хороший, но несколько сыроват. Сначала вставил ссылку с вебархива в том виде, в котором она была в адресной строке. Информация загрузилась, но при парсинге полезли ошибки и ничего не спарсилось. Оказалось, что https не поддерживается, нужен http. Ничего страшного, но хотелось бы получать какое-нибудь предупреждение.
Потом попробовал парсить через публичные прокси, получил большой и жирный, т.к. парсилось от силы процентов 20 страниц. При этом прокси прочеканые, но валилось куча 404 и 503 ошибок (очевидно потому что прокси говно). Однако программа такие ошибки не обрабатывает и не пытается загрузить страницу через другой прокси, т.е. ошибка и хрен с ней, идем дальше.
Без прокси что-то парсить тоже особо не выходит, т.к. даже в однопоточном режиме вебархив (?) достаточно быстро это дело пресекает ("err: Время ожидания операции истекло" после 5-50 страниц, хотя я не уверен, в чем проблема, по идее вебархив не должен за такое банить, канал тоже отличный), а возможности указать задержку между запросами нет.
Через прокси с awmproxy все заработало, но тарифы у них мама дорогая, через роботулс наверное и то дешевле выйдет.
Однако после того как спарсился весь сайт (или не весь) зачем-то парсинг пошел по второму кругу. А потом по третьему. Подождал до 7-го, надоело. Лог могу прислать в ЛС или куда-нибудь еще. Проявляется не на всех сайтах, у меня на двух из пяти.
В остальном все работает хорошо, цены тоже радуют.

Небольшие пожелания:
- при парсинге через прокси после получения 403, 404 и других ошибок пробовать загрузить страницу через другой прокси;
- исправить глюк с бесконечным парсингом.

Да, при оплате неплохо бы было добавить возможность оплачивать картами, а то сегодня на Webmoney не было, пришлось какими-то обходными путями (выбирать в oplata.info оплату через W1, после редиректа на Робокассу выбирать оплату через Промсвязь). В oplata.info, если я не ошибаюсь, такая возможность есть, нужно смотреть в настройках товара или аккаунта.

Кстати, заглушки вебархива по поводу редиректа тоже парсятся.
Такие вот
Развернуть/Свернуть
Loading...

/moscow.htm | 20:55:23 июл 28, 2007

Got an HTTP 302 response at crawl time

Redirecting to...

http://host5.km.ru/404.htm


В принципе, ничего страшного, но зачем?

Сообщение отредактировал Vilgelm - 3.5.2015, 3:47


--------------------


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
oxgen
oxgen
Topic Starter сообщение 4.5.2015, 16:46; Ответить: oxgen
Сообщение #13


Vilgelm, спасибо за отзыв!
Был в отъезде, в течении пары дней разберусь и поправлю. В личные сообщения пришлите, пожалуйста, сайты на которых идет по кругу (ссылку какую давали в программу), где-то видимо ошибка при обработке.


--------------------
Нет времени на рутинную работу? Нужен скрипт или программа? Закажи автоматизацию!
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
stefanboss
stefanboss
сообщение 21.5.2015, 22:11; Ответить: stefanboss
Сообщение #14


oxgen,

в Вебархиве куча мусора в коде.. Убивает ли прожка этот мусор или нужно ручками?
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
oxgen
oxgen
Topic Starter сообщение 21.5.2015, 23:09; Ответить: oxgen
Сообщение #15


Какой именно мусор имеется ввиду? Программа убивает всю лишнюю разметку архива и часть скриптов которые не получается восстановить.


--------------------
Нет времени на рутинную работу? Нужен скрипт или программа? Закажи автоматизацию!
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
stefanboss
stefanboss
сообщение 22.5.2015, 13:48; Ответить: stefanboss
Сообщение #16


было бы неплохо ключ на одни сутки что бы был в предложении покупки.. Думаю желающих бы много нашлось. Просто не всегда есть необходимость в программе на 3 дня.. Бывает возникает срочная надобность выкачать один сайт.

Сообщение отредактировал stefanboss - 22.5.2015, 13:48
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
oxgen
oxgen
Topic Starter сообщение 23.5.2015, 1:34; Ответить: oxgen
Сообщение #17


Суточные ключи есть в продаже на площадке плати.ру


--------------------
Нет времени на рутинную работу? Нужен скрипт или программа? Закажи автоматизацию!
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
stefanboss
stefanboss
сообщение 26.5.2015, 15:55; Ответить: stefanboss
Сообщение #18


oxgen

Я вот одного не могу понять, почему я обычным бесплатным скриптом скачиваю около 250 страниц без всяких там проксей и прочих сложностей, а с помощью вашей программы не могу с количеством 1 потока выкачать и 20 страниц? Нарываясь на какие то ERR.. ошибки
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
oxgen
oxgen
Topic Starter сообщение 26.5.2015, 20:38; Ответить: oxgen
Сообщение #19


Я сам лично выкачивал сайт на 3000 страниц меньше чем неделю назад, в 1н поток без прокси. Присылайте лог работы в личные сообщения или на почту, посмотрю.


--------------------
Нет времени на рутинную работу? Нужен скрипт или программа? Закажи автоматизацию!
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
zilonitiz
zilonitiz
сообщение 27.8.2015, 19:08; Ответить: zilonitiz
Сообщение #20


oxgen, импорт в популярные CMS возможен или все в планах?
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
bekett
bekett
сообщение 2.9.2015, 16:18; Ответить: bekett
Сообщение #21


oxgen, Суточные ключи есть в продаже на площадке плати.ру
ключей 1,3 дня нет
каспер беспощадно удаляет WebArchive.exe
https://www.virustotal.com/ru/file/54e67093...120d7/analysis/


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
6 страниц V  < 1 2 3 4 5 6 >
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыA-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парсеров.
353 Forbidden 279269 11.4.2024, 17:07
автор: AParser_Support
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыLinken Sphere - многопоточный браузер / антидетект / арбитраж трафика / мультиаккаунтинг
42 Gor510 19087 6.4.2024, 14:42
автор: Gor510
Открытая тема (нет новых ответов) Бесплатный парсер бот в Телеграм - [Parser Pro]
5 Parser_Pro 3349 27.1.2024, 16:12
автор: Parser_Pro
Открытая тема (нет новых ответов) WebArchiveMaster - парсер Вебархива
Добыча контента из ВебАрхива
16 footashes 12309 23.11.2022, 16:36
автор: kuz999
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлы⚡ AvitoSmart - быстрый парсер новых объявлений на Авито на запросах
Представляю парсер для [b]Zennoposter[/b]'a или [b]Zennobox[/b]
0 akcium 1265 19.11.2022, 13:05
автор: akcium


 



RSS Текстовая версия Сейчас: 19.4.2024, 11:06
Дизайн