X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

Открыть тему
Тема закрыта
> Парсер новостей
iNF
iNF
Topic Starter сообщение 23.11.2011, 2:35; Ответить: iNF
Сообщение #1


Подскажите, вот в сети нашел сайтик с новостями, я так понимаю они парсят новости + новости делятся по категориям.
подскажите как такое реализовать?! или может подскажите откуда можно парсить такие новости по определенному запросу.

ссылка если зайти в раздел в другие города, то там для каждого города своя подборка новостей
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
oroom
oroom
сообщение 23.11.2011, 4:16; Ответить: oroom
Сообщение #2


Я писал подобный парсер для новостей. Реализуется просто - отбираешь нужные сайты для парсинга, для каждого пишешь свой парсер)), объединяешь все новости в одну ленту, при необходимости разбиваешь на категории. Ставишь парсеры на cron и все само обновляется каждые n минут/часов.
Учитывая, что в сабже парсятся только анонсы новостей и без картинок, то написание каждого парсера 5-60 минут. К примеру 100 источников это около недели нудной работы и огромное количество контента на выходе.


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
iNF
iNF
Topic Starter сообщение 23.11.2011, 11:50; Ответить: iNF
Сообщение #3


спасибо ... а можно пример кода увидеть))

Сообщение отредактировал lostprophet - 23.11.2011, 12:54
Причина редактирования: избыточное цитирование
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
oroom
oroom
сообщение 23.11.2011, 12:20; Ответить: oroom
Сообщение #4


Нет, код писался на заказ, такие коды не храню у себя и не показываю. Для парсинга использовал самую простую библиотеку для этого дела PHP Simple HTML DOM Parser. Работает с селекторами в стиле jquery, парсер получается что-то вроде.
$newslist = html->find('div.news',1)->('div.item');
foreach ($newslist as $item){
$text[]=$item->innertext();
}

Я, конечно немного утрирую, но парсинг простых по структуре анонсов новостей занимает 10-30 строк кода (выделение даты публикации, заголовка, ссылки на полную новость, извлечение текста анонса и очистка от инлайновых стилей и лишних тегов).

Для подключения к страницам можно использовать curl, а если страниц немного, то и встроенную функцию парсера
$html = file_get_html('http://www.examle.com/');


Поблагодарили: (3)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Bacifer
Bacifer
сообщение 23.11.2011, 12:28; Ответить: Bacifer
Сообщение #5


(iNF @ 23.11.2011, 13:50) *
пример кода увидеть


Почитайте про регулярные выражения, многое станет понятно. Там вся HTML страничка получается в виде строки, и из строки Вам нужно будет выбрать необходимое.


--------------------
Сноуборд это не просто доска, но и 2-3 кубика адреналина! Не хватает снега? Маунтинборд твой спорт!
Мои кролики породы вислоухий баран :)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
x64
x64
сообщение 23.11.2011, 12:48; Ответить: x64
Сообщение #6


(iNF @ 23.11.2011, 2:35) *
подскажите как такое реализовать?!

можно парсить страницы сайта, либо rss (многие новостники такое предоставляют, например, lenta.ru/rss/ но как правило, текст идёт с 1-2 параграфами). если непонятно слово «парсить», можно его заменить словом «тырить» (как полу-синонимом). в сети есть бесплатные скрипты (по ленте точно встречал) как раз на Вашу тему. но если хотите, чтобы работало с Вашими сайтами, скорее всего придётся у кого-то заказывать. ну и тут есть минус: как только на любом из сайтов меняется вёрстка вывода новостей, соответствующий парсер становится неработоспособным (в лучшем случае, будет забирать больше информации, чем содержится в новости), и его необходимо пилить под новую выдачу.


зы: регулярные выражения не особо подходят для создания парсеров:
<a rel="nofollow" href="#">раз</a>
<a rel='nofollow' href="#">два</a>
<a rel=nofollow href="#">три</a>
<a href="#" rel="nofollow">четыре</a>
<a href="#" rel="archives nofollow">пять</a>
и т. д.

oroom прав чуть более, чем полностью smile.gif
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
oroom
oroom
сообщение 24.11.2011, 1:21; Ответить: oroom
Сообщение #7


Регулярными выражениями удобно парсить короткую специфическую информацию (телефоны, емейлы, ссылки), а для парсинга больших структурированных объемов информации более удобны DOM парсеры.

Тема оказалось малость пророческой.Только что получил на почту задачу на парсинг полных новостей и их анонсов со 100 сайтов wacko.gif
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Ozim
Ozim
сообщение 26.11.2011, 23:26; Ответить: Ozim
Сообщение #8


невозможно написать парсер, который будет парсить любые сайты. Только индивидуально под каждый сайт.


--------------------
Пишу скрипты PHP+MySQL+JQuery
ICQ больше не использую, пишите на jabber или в скайп
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
epol
epol
сообщение 27.11.2011, 16:19; Ответить: epol
Сообщение #9


(iNF @ 23.11.2011, 1:35) *
Подскажите, вот в сети нашел сайтик с новостями, я так понимаю они парсят новости + новости делятся по категориям. подскажите как такое реализовать?!


Программа для парсинга любого вида контента и самостоятельной публикации (доступно в бесплатной версии) и публикации на любых сайтах на автомате (в платной) - Ночной дозор (Ночной бдун), разобраться просто, работает отлично, там же смотрим видео как пользоваться как парсить и как публиковать

(iNF @ 23.11.2011, 1:35) *
или может подскажите откуда можно парсить такие новости по определенному запросу.


Ваш запрос G/Y выбираете с каких сайтов забираем новости, парсим, настраиваем экспорт, публикуем, далее все ставим на автомат или в ручную

Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.


Сообщение отредактировал epol - 27.11.2011, 16:21
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыA-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парсеров.
353 Forbidden 279275 11.4.2024, 17:07
автор: AParser_Support
Открытая тема (нет новых ответов) Бесплатный парсер бот в Телеграм - [Parser Pro]
5 Parser_Pro 3349 27.1.2024, 16:12
автор: Parser_Pro
Открытая тема (нет новых ответов) Посоветуйте новостные CPA смарт-витрины новостей
10 Boymaster 2438 21.8.2023, 17:25
автор: Boymaster
Открытая тема (нет новых ответов) WebArchiveMaster - парсер Вебархива
Добыча контента из ВебАрхива
16 footashes 12309 23.11.2022, 16:36
автор: kuz999
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлы⚡ AvitoSmart - быстрый парсер новых объявлений на Авито на запросах
Представляю парсер для [b]Zennoposter[/b]'a или [b]Zennobox[/b]
0 akcium 1265 19.11.2022, 13:05
автор: akcium


 



RSS Текстовая версия Сейчас: 19.4.2024, 23:47
Дизайн