X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

Открыть тему
Тема закрыта
> Парсер контента Google News
Grimich
Grimich
Topic Starter сообщение 2.4.2010, 14:40; Ответить: Grimich
Сообщение #1


Частый гость
**

Группа: User
Сообщений: 54
Регистрация: 18.3.2010
Поблагодарили: 4 раза
Репутация:   1  


Доброго времени суток!

Есть простой самописный парсер контента из google news по указанному кею.

Что он делает:
  • собирает текст с сайтов из выдачи гугл news
  • чистит полученный текст от посторонних тэгов
  • аккуратно складывает напарсеный текст в файл


В силу уникальности разметки каждого новостного сайта, скрипт правильно определяет текст новости лишь в большинстве случаев. Конечно, хотелось бы довести этот показатель до 100%, но увы, пока это не представляется возможным.

Пример текста тут:
http://keichecker.isgreat.org/cars.txt
(Собран с первой страницы выдачи, по ключевику "cars")

Цена: 10 wmz;
http://www.oplata.info/asp/pay_wm.asp?id_d=938045
Купить!



Рассмотрю варианты доработки/модификации скрипта.
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
sashka
sashka
сообщение 2.4.2010, 14:57; Ответить: sashka
Сообщение #2


Новичок
*

Группа: Viewer
Сообщений: 4
Регистрация: 28.3.2010
Из: Россия =)
Поблагодарили: 2 раза
Репутация:   0  


можно по подробней что он парсит ?
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Grimich
Grimich
Topic Starter сообщение 2.4.2010, 15:51; Ответить: Grimich
Сообщение #3


Частый гость
**

Группа: User
Сообщений: 54
Регистрация: 18.3.2010
Поблагодарили: 4 раза
Репутация:   1  


Заходит на http://news.google.com/
вводит заданное слово
из выдачи выдергивает адреса статей
ходит по сайтам и собирает тексты статей
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Продажа аккаунтов - Gmail.com I Google+
аккаунты, Gmail Google+, не дорого
26 KYBERGURU73 9350 Вчера, 19:58
автор: KYBERGURU73
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыA-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парсеров.
169 Forbidden 103490 Вчера, 14:32
автор: AParser_Support
Открытая тема (нет новых ответов) Google назвал главные темы и тренды 2017 года
1 MissContent 330 14.12.2017, 15:59
автор: wertu
Открытая тема (нет новых ответов) 10 бесплатных сервисов Google для бизнеса, о которых мало кто слышал
18 jack 5949 14.12.2017, 12:29
автор: Akeeloq
Открытая тема (нет новых ответов) Google запустил инструмент для переноса кампаний из Директа в AdWords
7 jack 1631 14.12.2017, 0:19
автор: Ley


 



RSS Текстовая версия Сейчас: 16.12.2017, 11:55
Дизайн