X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

История благодарностей участнику Vilgelm. Поблагодарили: 6 раз(а)
Дата поста: В теме: За сообщение: Поблагодарили:
3.5.2015, 3:43 WebArchive Extractor - многопоточный парсер WebArchive
Напишу небольшой отзыв:
Софт хороший, но несколько сыроват. Сначала вставил ссылку с вебархива в том виде, в котором она была в адресной строке. Информация загрузилась, но при парсинге полезли ошибки и ничего не спарсилось. Оказалось, что https не поддерживается, нужен http. Ничего страшного, но хотелось бы получать какое-нибудь предупреждение.
Потом попробовал парсить через публичные прокси, получил большой и жирный, т.к. парсилось от силы процентов 20 страниц. При этом прокси прочеканые, но валилось куча 404 и 503 ошибок (очевидно потому что прокси говно). Однако программа такие ошибки не обрабатывает и не пытается загрузить страницу через другой прокси, т.е. ошибка и хрен с ней, идем дальше.
Без прокси что-то парсить тоже особо не выходит, т.к. даже в однопоточном режиме вебархив (?) достаточно быстро это дело пресекает ("err: Время ожидания операции истекло" после 5-50 страниц, хотя я не уверен, в чем проблема, по идее вебархив не должен за такое банить, канал тоже отличный), а возможности указать задержку между запросами нет.
Через прокси с awmproxy все заработало, но тарифы у них мама дорогая, через роботулс наверное и то дешевле выйдет.
Однако после того как спарсился весь сайт (или не весь) зачем-то парсинг пошел по второму кругу. А потом по третьему. Подождал до 7-го, надоело. Лог могу прислать в ЛС или куда-нибудь еще. Проявляется не на всех сайтах, у меня на двух из пяти.
В остальном все работает хорошо, цены тоже радуют.

Небольшие пожелания:
- при парсинге через прокси после получения 403, 404 и других ошибок пробовать загрузить страницу через другой прокси;
- исправить глюк с бесконечным парсингом.

Да, при оплате неплохо бы было добавить возможность оплачивать картами, а то сегодня на Webmoney не было, пришлось какими-то обходными путями (выбирать в oplata.info оплату через W1, после редиректа на Робокассу выбирать оплату через Промсвязь). В oplata.info, если я не ошибаюсь, такая возможность есть, нужно смотреть в настройках товара или аккаунта.

Кстати, заглушки вебархива по поводу редиректа тоже парсятся.
Такие вот
Развернуть/Свернуть
Loading...

/moscow.htm | 20:55:23 июл 28, 2007

Got an HTTP 302 response at crawl time

Redirecting to...

http://host5.km.ru/404.htm


В принципе, ничего страшного, но зачем?


Спасибо сказали: (1)
11.7.2013, 18:04 Кроссбраузерная | Валидная верстка
Заказывал у dididima шаблон на Wordpress, выполнил все согласно т3 и даже немного сверху. Рекомендую к сотрудничеству.


Спасибо сказали: (1)
2.3.2013, 15:45 У вас нет прав на просмотр этой темы
У вас нет прав на просмотр этого сообщения


Спасибо сказали: (1)
16.4.2012, 16:31 Продается Городской портал
Полностью готовый и рабочий городской портал.(без контента).
Купил у ТС сборку, все отлично, полностью соответствует описанию, сам ТС приятный в общении человек, если возникают какие-то вопросы - помогает.


Спасибо сказали: (1)
6.9.2011, 0:27 Ошибка в коде - wordpress
DayTrader, Видимо поэтому и ошибка. Поищите "неродные" файлы на хосте. Так же посмотрите картинку с таким именем, мало ли

PS Also у Вас ужасно ползет верстка, кошмар прямо какой-то. Opera 11.51, W7


Спасибо сказали: (1)
5.9.2011, 3:56 Изготовление сайтов - цены вас порадуют!
Уникальная CMS / Дизайн / Контент + Отзывы
Работал с ТС, очень приятный человек. Помог с установкой и настройкой, рекомендую


Спасибо сказали: (1)

RSS Текстовая версия Сейчас: 24.4.2024, 15:40
Дизайн