X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

Открыть тему
Тема закрыта
> Как спарсить email'ы с определенных страниц?, однотипных
Biznessman
Biznessman
Topic Starter сообщение 25.1.2013, 13:50; Ответить: Biznessman
Сообщение #1


Завсегдатай
*****

Группа: Active User
Сообщений: 688
Регистрация: 22.7.2009
Поблагодарили: 187 раз
Репутация:   49  


Есть ~4000 ссылок такого типа:
_http://xxxxxxxxx.ru/yyyyyy/1.html
_http://xxxxxxxxx.ru/yyyyyy/2.html
_http://xxxxxxxxx.ru/yyyyyy/3.html
.................
На каждой странице есть 1 эмейл. Мне нужно их собрать.
Я столкнулся с проблемой. Мой парсер после прохода 10-15 страниц прекращает работу, так как получает "Service Temporarily Unavailable. You have made too many requests per second."
Прокси - не помогают.

Как можно решить эту проблему? Или кто-то может помочь?
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
devuser
devuser
сообщение 25.1.2013, 14:16; Ответить: devuser
Сообщение #2


Все будет тип-топ
*****

Группа: Active User
Сообщений: 713
Регистрация: 5.12.2012
Из: Online
Поблагодарили: 342 раза
Репутация:   52  


За один запуск парсите страниц 10, пишите результат в базу.
И запустите этот скрипт в крон, каждую минуту-две. За день спарсит со всех страниц.

UPD
Я вот тут погуглил - ТС, удаленный сайт на битриксе?
У них есть модуль Веб-аналитика - https://dev.1c-bitrix.ru/learning/course/in...;LESSON_ID=2101

Там в настройках можно выставить ограничения ( по ссылке есть картинка ).

Подберите это число опытным путем и не превышайте, тогда все будет нормально, как я думаю


--------------------


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
caffeine666
caffeine666
сообщение 25.1.2013, 14:26; Ответить: caffeine666
Сообщение #3


Новичок
*


Группа: User
Сообщений: 37
Регистрация: 6.1.2013
Поблагодарили: 6 раз
Репутация:   2  


Biznessman, не катит паузу делать перед заходом на страницу?


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
kosmozoo
kosmozoo
сообщение 25.1.2013, 14:43; Ответить: kosmozoo
Сообщение #4


Новичок
*

Группа: User
Сообщений: 42
Регистрация: 15.1.2013
Поблагодарили: 3 раза
Репутация:   -1  


1) используйте сurl с подделкой User-agent и поддержкой куки (когда берете страницу, туда же и прокси прикрутите)
2) есть вариант брать страницы через гугл кеш (яндекс кеш , бинг кеш и тп) Если они в индексе.

Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.


--------------------


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Как защитить свои данные в общественном Wi-Fi?
6 unazekoff 265 Вчера, 23:51
автор: rty9000
Открытая тема (нет новых ответов) Как раскрутить городской портал с помощью вирусной рекламы?
9 Wolfhound 836 Вчера, 23:42
автор: mherter
Открытая тема (нет новых ответов) Как использовать показатель SERP impressions из Яндекс.Вебмастера для анализа изменений в ранжировании
alexeytrudov.com - персональный блог SEO-аналитика
0 Luden 290 Вчера, 21:39
автор: Luden
Открытая тема (нет новых ответов) Плагин Caldera Forms, как настроить?
4 Drayfer 311 Вчера, 15:01
автор: Drayfer
Открытая тема (нет новых ответов) РСЯ, директ и лендинг как увеличить конверсию
5 artstyle 1235 Вчера, 11:11
автор: про100та


 



RSS Текстовая версия Сейчас: 23.5.2018, 7:52
Дизайн