X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >
Открыть тему
Тема закрыта
> Массовая проверка на 40x ошибки, Приспичило!)
Пуховой
Пуховой
Topic Starter сообщение 16.2.2008, 8:11; Ответить: Пуховой
Сообщение #1


Топовый постер
*******


Группа: Active User
Сообщений: 3675
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


Господа.)
Есть у меня база на 400000 сайтов. При чем я в принципе знаю, что 300000 из них - нерабочие (404)
Как по вашему мнению лучше отфильтровать такое количество сайтов?
Была идея: allsubmitter. мой 4.9 оллсаб захлебнулся и повис, даже когда скажем по 10000 выбирать.
Еще идея: Писать самому программулину, для чтения ответа сервера, скажем так с использованием BDE например.
НО: это будет очень много по времени и трафика уйдет ойойой...

Ваши предложения?
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Frostik
Frostik
сообщение 16.2.2008, 10:17; Ответить: Frostik
Сообщение #2


Новичок
*

Группа: Viewer
Сообщений: 5
Регистрация: 16.2.2008
Поблагодарили: 0 раз
Репутация:   0  


(Пуховой @ 16.2.2008, 7:11) *
Господа.)
Есть у меня база на 400000 сайтов. При чем я в принципе знаю, что 300000 из них - нерабочие (404)
Как по вашему мнению лучше отфильтровать такое количество сайтов?
Была идея: allsubmitter. мой 4.9 оллсаб захлебнулся и повис, даже когда скажем по 10000 выбирать.
Еще идея: Писать самому программулину, для чтения ответа сервера, скажем так с использованием BDE например.
НО: это будет очень много по времени и трафика уйдет ойойой...

Ваши предложения?

Написать небольшой скрипт на PHP и выложить на каком-нибудь хостинге. За минуту-две он создаст вам текстовый файлик (или заполнит таблицу БД) с нерабочими сайтами. Кстати, а почему ошибка 404? Это же отстутствующая страница.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 16.2.2008, 10:26; Ответить: Пуховой
Сообщение #3


Топовый постер
*******


Группа: Active User
Сообщений: 3675
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


За минуту - две? четыреста тысяч сайтов? хм.
Если учитывать то, что одна страница в среднем 100-150 кило, при учете работоспособности всех сайтов 400000*0,15Мб - 60000 мб, = 60Гб. Я думаю тут парой минут не обойдешься)))))
Идем далее - ошибки не только 404, смысл в том чтобы оставить все страницы с кодм ответа 200.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Frostik
Frostik
сообщение 16.2.2008, 10:46; Ответить: Frostik
Сообщение #4


Новичок
*

Группа: Viewer
Сообщений: 5
Регистрация: 16.2.2008
Поблагодарили: 0 раз
Репутация:   0  


(Пуховой @ 16.2.2008, 9:26) *
За минуту - две? четыреста тысяч сайтов? хм.
Если учитывать то, что одна страница в среднем 100-150 кило, при учете работоспособности всех сайтов 400000*0,15Мб - 60000 мб, = 60Гб. Я думаю тут парой минут не обойдешься)))))
Идем далее - ошибки не только 404, смысл в том чтобы оставить все страницы с кодм ответа 200.

Вот и я про то же - вам нужно получить только код ответа, а это никак не 100 килобайт... Кстати, по спекам не только 200, но 200-299.

Давайте немного помогу, чтение списка, я думаю, сами сможете реализовать.
<?php
$url = 'http://www.your-site.ru';
$code = get_headers($url);

$pos = strpos($code[0], '200');
if ($pos === false) {
    echo "сайт не вернул код 200."; //не рабочий
} else {
    echo "сайт вернул код 200"; //рабочий
}
?>
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Frostik
Frostik
сообщение 16.2.2008, 10:47; Ответить: Frostik
Сообщение #5


Новичок
*

Группа: Viewer
Сообщений: 5
Регистрация: 16.2.2008
Поблагодарили: 0 раз
Репутация:   0  


Ну еще давайте предположим, что это займет много времени и разобьем список на 100 файлов, которые обработаем по очереди, это тоже домашнее задание smile.gif

Сообщение отредактировал Frostik - 16.2.2008, 10:48
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 16.2.2008, 10:48; Ответить: Пуховой
Сообщение #6


Топовый постер
*******


Группа: Active User
Сообщений: 3675
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


Я PHP знаю более менее, спасибо)
Я хотел узнать другое - есть ли такие онлайн сервисы? Я видел такое... Но не помню где(((
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Richard
Richard
сообщение 16.2.2008, 10:49; Ответить: Richard
Сообщение #7


Schriftsteller
*****

Группа: Active User
Сообщений: 611
Регистрация: 27.6.2007
Из: Самара
Поблагодарили: 27 раз
Репутация:   12  


Есть ЯндексАналитик но боюсь что от такого колличества он тоже глюканет...


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Frostik
Frostik
сообщение 16.2.2008, 10:54; Ответить: Frostik
Сообщение #8


Новичок
*

Группа: Viewer
Сообщений: 5
Регистрация: 16.2.2008
Поблагодарили: 0 раз
Репутация:   0  


(Пуховой @ 16.2.2008, 9:48) *
Я PHP знаю более менее, спасибо)
Я хотел узнать другое - есть ли такие онлайн сервисы? Я видел такое... Но не помню где(((

Да я вам уже все написал, осталось только чтение из списка доделать - там пять строчек, да запустить на хостинге! Хватит лениться, а?!
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 16.2.2008, 10:58; Ответить: Пуховой
Сообщение #9


Топовый постер
*******


Группа: Active User
Сообщений: 3675
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


я свой сервак мучать нибуду)
я ж грю - нужен именно сервис, не свой собственный.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Frostik
Frostik
сообщение 16.2.2008, 11:14; Ответить: Frostik
Сообщение #10


Новичок
*

Группа: Viewer
Сообщений: 5
Регистрация: 16.2.2008
Поблагодарили: 0 раз
Репутация:   0  


(Пуховой @ 16.2.2008, 9:58) *
я свой сервак мучать нибуду)
я ж грю - нужен именно сервис, не свой собственный.

Нда, я посчитал, получается что трафика будет около 130 метров, что не страшно. А вот 400000 запросов обработается примерно за 14 часов... Боюсь что готового сервиса такого вам никто не предоставит... В принципе, могу выделить вам площадку с таким сервисом, скажем за 2 тыр (вебмани, яндекс.деньги - не важно).
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
2 страниц V   1 2 >
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) проверка уникальности
140 galaker 15796 5.10.2018, 11:08
автор: iliasamostanov
Открытая тема (нет новых ответов) Массовая проверка ИКС: скрипт на PHP
a-panov.ru — Верный веб-путь
0 x64 1235 7.9.2018, 18:22
автор: x64
Горячая тема (нет новых ответов) Проверка позиций сайтов в поисковых системах с помощью Positon.ru
Мониторинг продвижения сайтов
120 Positon 97153 7.9.2018, 0:03
автор: Positon
Открытая тема (нет новых ответов) Проверка позиций, влетающих в топ100
10 Kiloan_Frost 1921 8.8.2018, 11:47
автор: Crowdpost
Открытая тема (нет новых ответов) В Google Docs появилась проверка грамматики с использованием технологий машинного обучения
Пеши граматна!
4 jack 1103 27.7.2018, 17:25
автор: psy_nick


 



RSS Текстовая версия Сейчас: 18.10.2018, 9:24
Дизайн