Помощник
|
Парсер новостей |
iNF
|
Сообщение
#1
|
||
|
|
||
|
|||
oroom |
23.11.2011, 4:16;
Ответить: oroom
Сообщение
#2
|
|
Я писал подобный парсер для новостей. Реализуется просто - отбираешь нужные сайты для парсинга, для каждого пишешь свой парсер)), объединяешь все новости в одну ленту, при необходимости разбиваешь на категории. Ставишь парсеры на cron и все само обновляется каждые n минут/часов.
Учитывая, что в сабже парсятся только анонсы новостей и без картинок, то написание каждого парсера 5-60 минут. К примеру 100 источников это около недели нудной работы и огромное количество контента на выходе. |
|
|
iNF
|
Сообщение
#3
|
|
спасибо ... а можно пример кода увидеть))
Сообщение отредактировал lostprophet - 23.11.2011, 12:54
Причина редактирования: избыточное цитирование
|
|
|
oroom |
23.11.2011, 12:20;
Ответить: oroom
Сообщение
#4
|
|
Нет, код писался на заказ, такие коды не храню у себя и не показываю. Для парсинга использовал самую простую библиотеку для этого дела PHP Simple HTML DOM Parser. Работает с селекторами в стиле jquery, парсер получается что-то вроде.
$newslist = html->find('div.news',1)->('div.item'); foreach ($newslist as $item){ $text[]=$item->innertext(); } Я, конечно немного утрирую, но парсинг простых по структуре анонсов новостей занимает 10-30 строк кода (выделение даты публикации, заголовка, ссылки на полную новость, извлечение текста анонса и очистка от инлайновых стилей и лишних тегов). Для подключения к страницам можно использовать curl, а если страниц немного, то и встроенную функцию парсера $html = file_get_html('http://www.examle.com/');
|
|
|
Bacifer |
23.11.2011, 12:28;
Ответить: Bacifer
Сообщение
#5
|
|
пример кода увидеть Почитайте про регулярные выражения, многое станет понятно. Там вся HTML страничка получается в виде строки, и из строки Вам нужно будет выбрать необходимое. -------------------- Мои кролики породы вислоухий баран :) |
|
|
x64 |
23.11.2011, 12:48;
Ответить: x64
Сообщение
#6
|
|
подскажите как такое реализовать?! можно парсить страницы сайта, либо rss (многие новостники такое предоставляют, например, lenta.ru/rss/ но как правило, текст идёт с 1-2 параграфами). если непонятно слово «парсить», можно его заменить словом «тырить» (как полу-синонимом). в сети есть бесплатные скрипты (по ленте точно встречал) как раз на Вашу тему. но если хотите, чтобы работало с Вашими сайтами, скорее всего придётся у кого-то заказывать. ну и тут есть минус: как только на любом из сайтов меняется вёрстка вывода новостей, соответствующий парсер становится неработоспособным (в лучшем случае, будет забирать больше информации, чем содержится в новости), и его необходимо пилить под новую выдачу. зы: регулярные выражения не особо подходят для создания парсеров: <a rel="nofollow" href="#">раз</a> <a rel='nofollow' href="#">два</a> <a rel=nofollow href="#">три</a> <a href="#" rel="nofollow">четыре</a> <a href="#" rel="archives nofollow">пять</a> и т. д. oroom прав чуть более, чем полностью |
|
|
oroom |
24.11.2011, 1:21;
Ответить: oroom
Сообщение
#7
|
|
Регулярными выражениями удобно парсить короткую специфическую информацию (телефоны, емейлы, ссылки), а для парсинга больших структурированных объемов информации более удобны DOM парсеры.
Тема оказалось малость пророческой.Только что получил на почту задачу на парсинг полных новостей и их анонсов со 100 сайтов |
|
|
Ozim |
26.11.2011, 23:26;
Ответить: Ozim
Сообщение
#8
|
|
невозможно написать парсер, который будет парсить любые сайты. Только индивидуально под каждый сайт.
-------------------- ICQ больше не использую, пишите на jabber или в скайп |
|
|
epol |
27.11.2011, 16:19;
Ответить: epol
Сообщение
#9
|
|
|
Подскажите, вот в сети нашел сайтик с новостями, я так понимаю они парсят новости + новости делятся по категориям. подскажите как такое реализовать?! Программа для парсинга любого вида контента и самостоятельной публикации (доступно в бесплатной версии) и публикации на любых сайтах на автомате (в платной) - Ночной дозор (Ночной бдун), разобраться просто, работает отлично, там же смотрим видео как пользоваться как парсить и как публиковать или может подскажите откуда можно парсить такие новости по определенному запросу. Ваш запрос G/Y выбираете с каких сайтов забираем новости, парсим, настраиваем экспорт, публикуем, далее все ставим на автомат или в ручную
Сообщение отредактировал epol - 27.11.2011, 16:21 |
|
|
||
|
Похожие темы
Тема | Ответов | Автор | Просмотров | Последний ответ | |
---|---|---|---|---|---|
A-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парсеров. | 353 | Forbidden | 279275 | 11.4.2024, 17:07 автор: AParser_Support |
|
Бесплатный парсер бот в Телеграм - [Parser Pro] | 5 | Parser_Pro | 3349 | 27.1.2024, 16:12 автор: Parser_Pro |
|
Посоветуйте новостные CPA смарт-витрины новостей | 10 | Boymaster | 2438 | 21.8.2023, 17:25 автор: Boymaster |
|
WebArchiveMaster - парсер Вебархива Добыча контента из ВебАрхива |
16 | footashes | 12309 | 23.11.2022, 16:36 автор: kuz999 |
|
⚡ AvitoSmart - быстрый парсер новых объявлений на Авито на запросах Представляю парсер для [b]Zennoposter[/b]'a или [b]Zennobox[/b] |
0 | akcium | 1265 | 19.11.2022, 13:05 автор: akcium |
Текстовая версия | Сейчас: 19.4.2024, 23:47 |