X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

Открыть тему
Тема закрыта
> Парсер новостей
iNF
iNF
Topic Starter сообщение 23.11.2011, 2:35; Ответить: iNF
Сообщение #1


Частый гость
**

Группа: User
Сообщений: 58
Регистрация: 9.1.2011
Поблагодарили: 13 раз
Репутация:   2  


Подскажите, вот в сети нашел сайтик с новостями, я так понимаю они парсят новости + новости делятся по категориям.
подскажите как такое реализовать?! или может подскажите откуда можно парсить такие новости по определенному запросу.

ссылка если зайти в раздел в другие города, то там для каждого города своя подборка новостей
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
oroom
oroom
сообщение 23.11.2011, 4:16; Ответить: oroom
Сообщение #2


Бывалый
****

Группа: User
Сообщений: 274
Регистрация: 1.4.2011
Из: Минск
Поблагодарили: 71 раз
Репутация:   19  


Я писал подобный парсер для новостей. Реализуется просто - отбираешь нужные сайты для парсинга, для каждого пишешь свой парсер)), объединяешь все новости в одну ленту, при необходимости разбиваешь на категории. Ставишь парсеры на cron и все само обновляется каждые n минут/часов.
Учитывая, что в сабже парсятся только анонсы новостей и без картинок, то написание каждого парсера 5-60 минут. К примеру 100 источников это около недели нудной работы и огромное количество контента на выходе.


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
iNF
iNF
Topic Starter сообщение 23.11.2011, 11:50; Ответить: iNF
Сообщение #3


Частый гость
**

Группа: User
Сообщений: 58
Регистрация: 9.1.2011
Поблагодарили: 13 раз
Репутация:   2  


спасибо ... а можно пример кода увидеть))

Сообщение отредактировал lostprophet - 23.11.2011, 12:54
Причина редактирования: избыточное цитирование
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
oroom
oroom
сообщение 23.11.2011, 12:20; Ответить: oroom
Сообщение #4


Бывалый
****

Группа: User
Сообщений: 274
Регистрация: 1.4.2011
Из: Минск
Поблагодарили: 71 раз
Репутация:   19  


Нет, код писался на заказ, такие коды не храню у себя и не показываю. Для парсинга использовал самую простую библиотеку для этого дела PHP Simple HTML DOM Parser. Работает с селекторами в стиле jquery, парсер получается что-то вроде.
$newslist = html->find('div.news',1)->('div.item');
foreach ($newslist as $item){
$text[]=$item->innertext();
}

Я, конечно немного утрирую, но парсинг простых по структуре анонсов новостей занимает 10-30 строк кода (выделение даты публикации, заголовка, ссылки на полную новость, извлечение текста анонса и очистка от инлайновых стилей и лишних тегов).

Для подключения к страницам можно использовать curl, а если страниц немного, то и встроенную функцию парсера
$html = file_get_html('http://www.examle.com/');


Поблагодарили: (3)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Bacifer
Bacifer
сообщение 23.11.2011, 12:28; Ответить: Bacifer
Сообщение #5


Бывалый
****

Группа: User
Сообщений: 261
Регистрация: 2.5.2009
Из: Екат
Поблагодарили: 64 раза
Репутация:   6  


(iNF @ 23.11.2011, 13:50) *
пример кода увидеть


Почитайте про регулярные выражения, многое станет понятно. Там вся HTML страничка получается в виде строки, и из строки Вам нужно будет выбрать необходимое.


--------------------
Сноуборд это не просто доска, но и 2-3 кубика адреналина! Не хватает снега? Маунтинборд твой спорт!
Мои кролики породы вислоухий баран :)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
x64
x64
сообщение 23.11.2011, 12:48; Ответить: x64
Сообщение #6


F.A.L.L.O.U.T.
*******

Группа: Super Moderator
Сообщений: 3427
Регистрация: 30.6.2011
Из: Железнодорожный (Балашиха)
Поблагодарили: 2749 раз
Репутация:   289  


(iNF @ 23.11.2011, 2:35) *
подскажите как такое реализовать?!

можно парсить страницы сайта, либо rss (многие новостники такое предоставляют, например, lenta.ru/rss/ но как правило, текст идёт с 1-2 параграфами). если непонятно слово «парсить», можно его заменить словом «тырить» (как полу-синонимом). в сети есть бесплатные скрипты (по ленте точно встречал) как раз на Вашу тему. но если хотите, чтобы работало с Вашими сайтами, скорее всего придётся у кого-то заказывать. ну и тут есть минус: как только на любом из сайтов меняется вёрстка вывода новостей, соответствующий парсер становится неработоспособным (в лучшем случае, будет забирать больше информации, чем содержится в новости), и его необходимо пилить под новую выдачу.


зы: регулярные выражения не особо подходят для создания парсеров:
<a rel="nofollow" href="#">раз</a>
<a rel='nofollow' href="#">два</a>
<a rel=nofollow href="#">три</a>
<a href="#" rel="nofollow">четыре</a>
<a href="#" rel="archives nofollow">пять</a>
и т. д.

oroom прав чуть более, чем полностью smile.gif


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
oroom
oroom
сообщение 24.11.2011, 1:21; Ответить: oroom
Сообщение #7


Бывалый
****

Группа: User
Сообщений: 274
Регистрация: 1.4.2011
Из: Минск
Поблагодарили: 71 раз
Репутация:   19  


Регулярными выражениями удобно парсить короткую специфическую информацию (телефоны, емейлы, ссылки), а для парсинга больших структурированных объемов информации более удобны DOM парсеры.

Тема оказалось малость пророческой.Только что получил на почту задачу на парсинг полных новостей и их анонсов со 100 сайтов wacko.gif
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Ozim
Ozim
сообщение 26.11.2011, 23:26; Ответить: Ozim
Сообщение #8


Частый гость
**

Группа: User
Сообщений: 85
Регистрация: 23.10.2011
Поблагодарили: 12 раз
Репутация:   4  


невозможно написать парсер, который будет парсить любые сайты. Только индивидуально под каждый сайт.


--------------------
Пишу скрипты PHP+MySQL+JQuery
ICQ больше не использую, пишите на jabber или в скайп
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
epol
epol
сообщение 27.11.2011, 16:19; Ответить: epol
Сообщение #9


Частый гость
**


Группа: User
Сообщений: 92
Регистрация: 16.9.2011
Из: EU conglomerate
Поблагодарили: 11 раз
Репутация:   1  


(iNF @ 23.11.2011, 1:35) *
Подскажите, вот в сети нашел сайтик с новостями, я так понимаю они парсят новости + новости делятся по категориям. подскажите как такое реализовать?!


Программа для парсинга любого вида контента и самостоятельной публикации (доступно в бесплатной версии) и публикации на любых сайтах на автомате (в платной) - Ночной дозор (Ночной бдун), разобраться просто, работает отлично, там же смотрим видео как пользоваться как парсить и как публиковать

(iNF @ 23.11.2011, 1:35) *
или может подскажите откуда можно парсить такие новости по определенному запросу.


Ваш запрос G/Y выбираете с каких сайтов забираем новости, парсим, настраиваем экспорт, публикуем, далее все ставим на автомат или в ручную

Сообщение отредактировал epol - 27.11.2011, 16:21
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыA-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парсеров.
169 Forbidden 103484 Вчера, 14:32
автор: AParser_Support
Открытая тема (нет новых ответов) Нужен рерайтер новостей на постоянную работу
3 FUTP 411 10.12.2017, 0:29
автор: contentos
Горячая тема (нет новых ответов) Услуги по сбору новостей .txt для ваших сайтов, любые тематики + Отзывы
Импорт в DLE, WP (Xml, SQL) с отложенной публикацией под заказ
135 Akira 47497 28.11.2017, 1:05
автор: Akira
Открытая тема (нет новых ответов) Размещение Ваших статей и новостей в СМИ (RU, EN)
несколько своих площадок
25 forinnov 5798 21.11.2017, 12:55
автор: forinnov
Открытая тема (нет новых ответов) Нужен парсер контента
Уважаемые знатоки, требуется ваш совет или рекомендация.
4 m1h3y 1049 20.11.2017, 6:56
автор: Strellok


 



RSS Текстовая версия Сейчас: 16.12.2017, 5:53
Дизайн