Помощник
Дата поста: | В теме: | За сообщение: | Поблагодарили: | ||
---|---|---|---|---|---|
3.5.2015, 3:43 |
WebArchive Extractor - многопоточный парсер WebArchive |
Напишу небольшой отзыв: Софт хороший, но несколько сыроват. Сначала вставил ссылку с вебархива в том виде, в котором она была в адресной строке. Информация загрузилась, но при парсинге полезли ошибки и ничего не спарсилось. Оказалось, что https не поддерживается, нужен http. Ничего страшного, но хотелось бы получать какое-нибудь предупреждение. Потом попробовал парсить через публичные прокси, получил большой и жирный, т.к. парсилось от силы процентов 20 страниц. При этом прокси прочеканые, но валилось куча 404 и 503 ошибок (очевидно потому что прокси говно). Однако программа такие ошибки не обрабатывает и не пытается загрузить страницу через другой прокси, т.е. ошибка и хрен с ней, идем дальше. Без прокси что-то парсить тоже особо не выходит, т.к. даже в однопоточном режиме вебархив (?) достаточно быстро это дело пресекает ("err: Время ожидания операции истекло" после 5-50 страниц, хотя я не уверен, в чем проблема, по идее вебархив не должен за такое банить, канал тоже отличный), а возможности указать задержку между запросами нет. Через прокси с awmproxy все заработало, но тарифы у них мама дорогая, через роботулс наверное и то дешевле выйдет. Однако после того как спарсился весь сайт (или не весь) зачем-то парсинг пошел по второму кругу. А потом по третьему. Подождал до 7-го, надоело. Лог могу прислать в ЛС или куда-нибудь еще. Проявляется не на всех сайтах, у меня на двух из пяти. В остальном все работает хорошо, цены тоже радуют. Небольшие пожелания: - при парсинге через прокси после получения 403, 404 и других ошибок пробовать загрузить страницу через другой прокси; - исправить глюк с бесконечным парсингом. Да, при оплате неплохо бы было добавить возможность оплачивать картами, а то сегодня на Webmoney не было, пришлось какими-то обходными путями (выбирать в oplata.info оплату через W1, после редиректа на Робокассу выбирать оплату через Промсвязь). В oplata.info, если я не ошибаюсь, такая возможность есть, нужно смотреть в настройках товара или аккаунта. Кстати, заглушки вебархива по поводу редиректа тоже парсятся. Такие вот Развернуть/Свернуть
Loading...
/moscow.htm | 20:55:23 июл 28, 2007 Got an HTTP 302 response at crawl time Redirecting to... http://host5.km.ru/404.htm В принципе, ничего страшного, но зачем? |
|||
11.7.2013, 18:04 |
Кроссбраузерная | Валидная верстка |
Заказывал у dididima шаблон на Wordpress, выполнил все согласно т3 и даже немного сверху. Рекомендую к сотрудничеству. |
|||
2.3.2013, 15:45 | У вас нет прав на просмотр этой темы | У вас нет прав на просмотр этого сообщения |
|||
16.4.2012, 16:31 |
Продается Городской портал Полностью готовый и рабочий городской портал.(без контента). |
Купил у ТС сборку, все отлично, полностью соответствует описанию, сам ТС приятный в общении человек, если возникают какие-то вопросы - помогает. |
|||
6.9.2011, 0:27 |
Ошибка в коде - wordpress |
DayTrader, Видимо поэтому и ошибка. Поищите "неродные" файлы на хосте. Так же посмотрите картинку с таким именем, мало ли PS Also у Вас ужасно ползет верстка, кошмар прямо какой-то. Opera 11.51, W7 |
|||
5.9.2011, 3:56 |
Изготовление сайтов - цены вас порадуют! Уникальная CMS / Дизайн / Контент + Отзывы |
Работал с ТС, очень приятный человек. Помог с установкой и настройкой, рекомендую |
|||
Текстовая версия | Сейчас: 24.4.2024, 15:40 |