X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

2 страниц V   1 2 >
Открыть тему
Тема закрыта
> Массовая проверка на 40x ошибки, Приспичило!)
Пуховой
Пуховой
Topic Starter сообщение 16.2.2008, 8:11; Ответить: Пуховой
Сообщение #1


Господа.)
Есть у меня база на 400000 сайтов. При чем я в принципе знаю, что 300000 из них - нерабочие (404)
Как по вашему мнению лучше отфильтровать такое количество сайтов?
Была идея: allsubmitter. мой 4.9 оллсаб захлебнулся и повис, даже когда скажем по 10000 выбирать.
Еще идея: Писать самому программулину, для чтения ответа сервера, скажем так с использованием BDE например.
НО: это будет очень много по времени и трафика уйдет ойойой...

Ваши предложения?
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Frostik
Frostik
сообщение 16.2.2008, 10:17; Ответить: Frostik
Сообщение #2


(Пуховой @ 16.2.2008, 7:11) *
Господа.)
Есть у меня база на 400000 сайтов. При чем я в принципе знаю, что 300000 из них - нерабочие (404)
Как по вашему мнению лучше отфильтровать такое количество сайтов?
Была идея: allsubmitter. мой 4.9 оллсаб захлебнулся и повис, даже когда скажем по 10000 выбирать.
Еще идея: Писать самому программулину, для чтения ответа сервера, скажем так с использованием BDE например.
НО: это будет очень много по времени и трафика уйдет ойойой...

Ваши предложения?

Написать небольшой скрипт на PHP и выложить на каком-нибудь хостинге. За минуту-две он создаст вам текстовый файлик (или заполнит таблицу БД) с нерабочими сайтами. Кстати, а почему ошибка 404? Это же отстутствующая страница.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 16.2.2008, 10:26; Ответить: Пуховой
Сообщение #3


За минуту - две? четыреста тысяч сайтов? хм.
Если учитывать то, что одна страница в среднем 100-150 кило, при учете работоспособности всех сайтов 400000*0,15Мб - 60000 мб, = 60Гб. Я думаю тут парой минут не обойдешься)))))
Идем далее - ошибки не только 404, смысл в том чтобы оставить все страницы с кодм ответа 200.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Frostik
Frostik
сообщение 16.2.2008, 10:46; Ответить: Frostik
Сообщение #4


(Пуховой @ 16.2.2008, 9:26) *
За минуту - две? четыреста тысяч сайтов? хм.
Если учитывать то, что одна страница в среднем 100-150 кило, при учете работоспособности всех сайтов 400000*0,15Мб - 60000 мб, = 60Гб. Я думаю тут парой минут не обойдешься)))))
Идем далее - ошибки не только 404, смысл в том чтобы оставить все страницы с кодм ответа 200.

Вот и я про то же - вам нужно получить только код ответа, а это никак не 100 килобайт... Кстати, по спекам не только 200, но 200-299.

Давайте немного помогу, чтение списка, я думаю, сами сможете реализовать.
<?php
$url = 'http://www.your-site.ru';
$code = get_headers($url);

$pos = strpos($code[0], '200');
if ($pos === false) {
    echo "сайт не вернул код 200."; //не рабочий
} else {
    echo "сайт вернул код 200"; //рабочий
}
?>
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Frostik
Frostik
сообщение 16.2.2008, 10:47; Ответить: Frostik
Сообщение #5


Ну еще давайте предположим, что это займет много времени и разобьем список на 100 файлов, которые обработаем по очереди, это тоже домашнее задание smile.gif

Сообщение отредактировал Frostik - 16.2.2008, 10:48
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 16.2.2008, 10:48; Ответить: Пуховой
Сообщение #6


Я PHP знаю более менее, спасибо)
Я хотел узнать другое - есть ли такие онлайн сервисы? Я видел такое... Но не помню где(((
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Richard
Richard
сообщение 16.2.2008, 10:49; Ответить: Richard
Сообщение #7


Есть ЯндексАналитик но боюсь что от такого колличества он тоже глюканет...


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Frostik
Frostik
сообщение 16.2.2008, 10:54; Ответить: Frostik
Сообщение #8


(Пуховой @ 16.2.2008, 9:48) *
Я PHP знаю более менее, спасибо)
Я хотел узнать другое - есть ли такие онлайн сервисы? Я видел такое... Но не помню где(((

Да я вам уже все написал, осталось только чтение из списка доделать - там пять строчек, да запустить на хостинге! Хватит лениться, а?!
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 16.2.2008, 10:58; Ответить: Пуховой
Сообщение #9


я свой сервак мучать нибуду)
я ж грю - нужен именно сервис, не свой собственный.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Frostik
Frostik
сообщение 16.2.2008, 11:14; Ответить: Frostik
Сообщение #10


(Пуховой @ 16.2.2008, 9:58) *
я свой сервак мучать нибуду)
я ж грю - нужен именно сервис, не свой собственный.

Нда, я посчитал, получается что трафика будет около 130 метров, что не страшно. А вот 400000 запросов обработается примерно за 14 часов... Боюсь что готового сервиса такого вам никто не предоставит... В принципе, могу выделить вам площадку с таким сервисом, скажем за 2 тыр (вебмани, яндекс.деньги - не важно).
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
2 страниц V   1 2 >
Открыть тему
Тема закрыта
3 чел. читают эту тему (гостей: 3, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Проверка позиций сайтов в поисковых системах с помощью Positon.ru
Мониторинг продвижения сайтов
183 Positon 179470 12.4.2024, 8:32
автор: Positon
Открытая тема (нет новых ответов) ВКонтакте: полный комплекс услуг (массовая рассылка по стенам групп и в ЛС), парсинг, лайки, инвайты
Гарантия самой низкой цены
4 MaxChemist 1918 1.1.2023, 13:23
автор: MaxChemist
Открытая тема (нет новых ответов) Массовая рассылка в директ инстаграм, парсинг instagram, сервис директ рассылки
Массовая рассылка в директ инстаграм
2 olarma 1591 15.10.2020, 22:18
автор: olarma
Открытая тема (нет новых ответов) Исправлю HTML ошибки на страницах Вашего сайта
17 guruapps 17184 11.2.2020, 15:06
автор: guruapps
Открытая тема (нет новых ответов) Ошибки при выборе оффера!
0 leadkreditrf 1424 21.7.2019, 20:30
автор: -leadkreditrf-


 



RSS Текстовая версия Сейчас: 19.4.2024, 19:41
Дизайн