X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

Открыть тему
Тема закрыта
> Парсер NewsRu.Com
ParavoZ
ParavoZ
Topic Starter сообщение 3.8.2010, 17:11; Ответить: ParavoZ
Сообщение #1


G
*******

Группа: Active User
Сообщений: 2522
Регистрация: 5.1.2009
Поблагодарили: 1329 раз
Репутация:   167  


Запускаем на сервере, и все нормалян парсит.

<?php
$vip = file_get_contents("http://newsru.com/arch/02aug2010/sport/index.html"); // ставим ссылку, такого же вида как в примере 
$n = preg_match_all('!<td width="100%"><a href=(.*) class="headcolumn">!i', $vip, $result);
if($n)
{
for($a=0;$a<$n;$a++)
{
$page = file_get_contents("http://newsru.com".$result[1][$a]);

$regex = preg_match_all('!<h1 class="mainhead">(.*)</h1></td></tr>.*<div class="maintext">.*</a></div>.*<p>(.*)<p style="clear: both">!isU', $page, $itog);
if($regex)
{

echo $itog[1][0].'<br>';
$itog[2][0] = preg_replace("!<a.*>!sU", " " , $itog[2][0]);
$itog[2][0] = preg_replace("!</a>!sU", " " , $itog[2][0]);
echo $itog[2][0].'<br>';
};
};

};
?>





после парсинга все выделяем и вставляем в нашу текстовку

Можно парсить интересующие тематические разделы там

p.s. что хотите видеть далее?)




p.s. скоро будет кое что еще немного революшн.

Сообщение отредактировал ParavoZ - 3.8.2010, 17:12


Поблагодарили: (5)
4
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Fallup
Fallup
сообщение 3.8.2010, 17:45; Ответить: Fallup
Сообщение #2


Добрый пёс
******


Группа: Active User
Сообщений: 2372
Регистрация: 15.12.2009
Из: мамы
Поблагодарили: 1065 раз
Репутация:   119  


На наших глазах происходит роджение злобного пэхэпэ кодера. Причем схватки все чаще и чаще. Эко тебя увлекло smile.gif


--------------------


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ParavoZ
ParavoZ
Topic Starter сообщение 3.8.2010, 17:53; Ответить: ParavoZ
Сообщение #3


G
*******

Группа: Active User
Сообщений: 2522
Регистрация: 5.1.2009
Поблагодарили: 1329 раз
Репутация:   167  


На наших глазах происходит роджение злобного пэхэпэ кодера. Причем схватки все чаще и чаще. Эко тебя увлекло

Cобственно говоря я недавно начал, и меня трудно назвать кодером)
Но уже написал генератор MFS под одну CMS, и пишу дорген под нее же)

Сообщение отредактировал ParavoZ - 3.8.2010, 17:54
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
simpliex
simpliex
сообщение 3.8.2010, 18:08; Ответить: simpliex
Сообщение #4


Старожил
******

Группа: Active User
Сообщений: 1928
Регистрация: 11.4.2009
Из: Москва
Поблагодарили: 524 раза
Репутация:   101  


Пасиб за парсеры. Буду использовать, а можете кое какие доработки сделать, под меня smile.gif? Скину в ЛС их, если можно.


--------------------
Осторожно! Должник.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ParavoZ
ParavoZ
Topic Starter сообщение 3.8.2010, 18:20; Ответить: ParavoZ
Сообщение #5


G
*******

Группа: Active User
Сообщений: 2522
Регистрация: 5.1.2009
Поблагодарили: 1329 раз
Репутация:   167  


simpliex, пишите.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Tornado
Tornado
сообщение 3.8.2010, 18:31; Ответить: Tornado
Сообщение #6


Участник
***

Группа: User
Сообщений: 244
Регистрация: 27.11.2007
Из: Грузия
Поблагодарили: 52 раза
Репутация:   14  


Уважаемый ТС. Огромное спасибо за персер. стал разбирать код, только кое что не понял.... если не трудно обьясните функцию некоторых элементов_

!<td width="100%"><a href=(.*) class="headcolumn">!i Почему в конце и в начале чтоит восклицательный знак?

(.*)-Где можно прочитать про это ?

!sU- а что это выполняет...

Огромное спасибо заранее!

Сообщение отредактировал Tornado - 3.8.2010, 18:32


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ParavoZ
ParavoZ
Topic Starter сообщение 3.8.2010, 18:40; Ответить: ParavoZ
Сообщение #7


G
*******

Группа: Active User
Сообщений: 2522
Регистрация: 5.1.2009
Поблагодарили: 1329 раз
Репутация:   167  


Торнадо, я написал вам в Л.С. дабы не засорять топик, все таки топик не про пхп)

Сообщение отредактировал ParavoZ - 3.8.2010, 18:42
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Tornado
Tornado
сообщение 3.8.2010, 18:46; Ответить: Tornado
Сообщение #8


Участник
***

Группа: User
Сообщений: 244
Регистрация: 27.11.2007
Из: Грузия
Поблагодарили: 52 раза
Репутация:   14  


(ParavoZ @ 3.8.2010, 17:40) *
Торнадо, я написал вам в Л.С. дабы не засорять топик, все таки топик не про пхп)

Огромное спасибо за информацию.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Cttr
Cttr
сообщение 3.8.2010, 18:51; Ответить: Cttr
Сообщение #9


Завсегдатай
*****

Группа: Active User
Сообщений: 524
Регистрация: 13.5.2010
Из: Украина, Крым
Поблагодарили: 163 раза
Репутация:   23  


Паровоз, dry.gif с записью в файлы поработай, вообще цены не будет.


--------------------
Помогите спасти девочку
Продвижение неизбежно, когда такая высокая конкуренция
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
WebAction
WebAction
сообщение 3.8.2010, 19:29; Ответить: WebAction
Сообщение #10


Топовый постер
*******

Группа: Super Moderator
Сообщений: 3059
Регистрация: 18.11.2009
Поблагодарили: 2512 раз
Репутация:   249  


ParavoZ молоток. Как оказалось полезный, а главное рабочий код)

Еще можно сделать, что бы парсило все по выбранному разделу, но это уже посложнее wink.gif



Для создания отдельного файла для каждой новости:

<?php
set_time_limit(0);

$vip = file_get_contents("http://newsru.com/arch/02aug2010/sport/index.html"); // ставим ссылку, такого же вида как в примере
$n = preg_match_all('/<td width="100%"><a href=(.*) class="headcolumn">/i', $vip, $result);
if($n)
{
for($a = 0; $a < $n; $a++)
{
    $name = $result[1][$a];
    $arr = explode("/", $name);
    $l = strlen($arr[4]);
    $t = explode(".", $arr[4]);
    $title = $arr[3]."_".$t[0];
    
$f = fopen("$title.txt", "a");
$page = file_get_contents("http://newsru.com".$result[1][$a]);

$regex = preg_match_all('/<h1 class="mainhead">(.*)<\/h1><\/td><\/tr>.*<div class="maintext">.*<\/a><\/div>.*<p>(.*)<p style="clear: both">/isU', $page, $itog);
if($regex)
{

fwrite($f, $itog[1][0].'<br>');
$itog[2][0] = preg_replace("/<a.*>/sU", " " , $itog[2][0]);
$itog[2][0] = preg_replace("/<\/a>/sU", " " , $itog[2][0]);
fwrite($f, $itog[2][0].'<br>');
fclose($f);
}
}

}
?>



А для сохранения в один файл всех новостей:

<?php
set_time_limit(0);

$link = "http://newsru.com/arch/02aug2010/sport/index.html"; // ставим ссылку, такого же вида как в примере
$vip = file_get_contents($link);
$n = preg_match_all('/<td width="100%"><a href=(.*) class="headcolumn">/i', $vip, $result);
if($n)
{
    $arr = explode("/", $link);
    $title = $arr[4]."_".$arr[5];
    
$f = fopen("$title.txt", "a");
for($a = 0; $a < $n; $a++)
{    
$page = file_get_contents("http://newsru.com".$result[1][$a]);

$regex = preg_match_all('/<h1 class="mainhead">(.*)<\/h1><\/td><\/tr>.*<div class="maintext">.*<\/a><\/div>.*<p>(.*)<p style="clear: both">/isU', $page, $itog);
if($regex)
{

fwrite($f, $itog[1][0].'<br>');
$itog[2][0] = preg_replace("/<a.*>/sU", " " , $itog[2][0]);
$itog[2][0] = preg_replace("/<\/a>/sU", " " , $itog[2][0]);
fwrite($f, $itog[2][0].'<br>');
}
}
fclose($f);

}
?>


--------------------


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыA-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парсеров.
169 Forbidden 103490 Вчера, 14:32
автор: AParser_Support
Открытая тема (нет новых ответов) Нужен парсер контента
Уважаемые знатоки, требуется ваш совет или рекомендация.
4 m1h3y 1050 20.11.2017, 6:56
автор: Strellok
Горячая тема (нет новых ответов) Tubes Clip One - парсер тубов
32 xoopw 17498 29.10.2017, 3:02
автор: xoopw
Открытая тема (нет новых ответов) WebArchiveMaster - парсер Вебархива
Добыча контента из ВебАрхива
8 footashes 1213 25.10.2017, 22:02
автор: footashes
Открытая тема (нет новых ответов) Возможно ли создать парсер Кинопоиска по рецензиям?
1 MoreVi 423 24.10.2017, 21:47
автор: dimaprog


 



RSS Текстовая версия Сейчас: 16.12.2017, 13:12
Дизайн