X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

Открыть тему
Тема закрыта
> Как спарсить email'ы с определенных страниц?, однотипных
Biznessman
Biznessman
Topic Starter сообщение 25.1.2013, 13:50; Ответить: Biznessman
Сообщение #1


Завсегдатай
*****

Группа: Active User
Сообщений: 686
Регистрация: 22.7.2009
Из: Україна
Поблагодарили: 187 раз
Репутация:   49  


Есть ~4000 ссылок такого типа:
_http://xxxxxxxxx.ru/yyyyyy/1.html
_http://xxxxxxxxx.ru/yyyyyy/2.html
_http://xxxxxxxxx.ru/yyyyyy/3.html
.................
На каждой странице есть 1 эмейл. Мне нужно их собрать.
Я столкнулся с проблемой. Мой парсер после прохода 10-15 страниц прекращает работу, так как получает "Service Temporarily Unavailable. You have made too many requests per second."
Прокси - не помогают.

Как можно решить эту проблему? Или кто-то может помочь?
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
devuser
devuser
сообщение 25.1.2013, 14:16; Ответить: devuser
Сообщение #2


Все будет тип-топ
*****

Группа: Active User
Сообщений: 713
Регистрация: 5.12.2012
Из: Online
Поблагодарили: 342 раза
Репутация:   52  


За один запуск парсите страниц 10, пишите результат в базу.
И запустите этот скрипт в крон, каждую минуту-две. За день спарсит со всех страниц.

UPD
Я вот тут погуглил - ТС, удаленный сайт на битриксе?
У них есть модуль Веб-аналитика - https://dev.1c-bitrix.ru/learning/course/in...;LESSON_ID=2101

Там в настройках можно выставить ограничения ( по ссылке есть картинка ).

Подберите это число опытным путем и не превышайте, тогда все будет нормально, как я думаю


--------------------


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
caffeine666
caffeine666
сообщение 25.1.2013, 14:26; Ответить: caffeine666
Сообщение #3


Новичок
*


Группа: User
Сообщений: 37
Регистрация: 6.1.2013
Поблагодарили: 6 раз
Репутация:   2  


Biznessman, не катит паузу делать перед заходом на страницу?


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
kosmozoo
kosmozoo
сообщение 25.1.2013, 14:43; Ответить: kosmozoo
Сообщение #4


Новичок
*

Группа: User
Сообщений: 42
Регистрация: 15.1.2013
Поблагодарили: 3 раза
Репутация:   -1  


1) используйте сurl с подделкой User-agent и поддержкой куки (когда берете страницу, туда же и прокси прикрутите)
2) есть вариант брать страницы через гугл кеш (яндекс кеш , бинг кеш и тп) Если они в индексе.


--------------------


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Как повлиять на быстрые ссылки в гугле?
5 maxg5 1353 Сегодня, 1:14
автор: Ley
Открытая тема (нет новых ответов) как правильно написать альт и тайтл для изображений
0 galaker 313 Вчера, 22:50
автор: galaker
Открытая тема (нет новых ответов) Как установить источник заражения сайтов?
7 kelevra 594 Вчера, 16:40
автор: phoenix_kys
Открытая тема (нет новых ответов) Как действительно успешно внедрять привычки. И менять жизнь
seoandme.ru - SEO-блог Анны Ященко
13 AnnaYa 1250 Вчера, 16:23
автор: Zoya83
Открытая тема (нет новых ответов) Facebook палит прокси. Кто как решает эту проблему?
26 Twickbot 3416 Вчера, 15:02
автор: Mikki


 



RSS Текстовая версия Сейчас: 14.12.2017, 6:55
Дизайн