X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

Открыть тему
Тема закрыта
> Парсер контента Google News
Grimich
Grimich
Topic Starter сообщение 2.4.2010, 14:40; Ответить: Grimich
Сообщение #1


Доброго времени суток!

Есть простой самописный парсер контента из google news по указанному кею.

Что он делает:
  • собирает текст с сайтов из выдачи гугл news
  • чистит полученный текст от посторонних тэгов
  • аккуратно складывает напарсеный текст в файл


В силу уникальности разметки каждого новостного сайта, скрипт правильно определяет текст новости лишь в большинстве случаев. Конечно, хотелось бы довести этот показатель до 100%, но увы, пока это не представляется возможным.

Пример текста тут:
http://keichecker.isgreat.org/cars.txt
(Собран с первой страницы выдачи, по ключевику "cars")

Цена: 10 wmz;
http://www.oplata.info/asp/pay_wm.asp?id_d=938045
Купить!



Рассмотрю варианты доработки/модификации скрипта.
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
sashka
sashka
сообщение 2.4.2010, 14:57; Ответить: sashka
Сообщение #2


можно по подробней что он парсит ?
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Grimich
Grimich
Topic Starter сообщение 2.4.2010, 15:51; Ответить: Grimich
Сообщение #3


Заходит на http://news.google.com/
вводит заданное слово
из выдачи выдергивает адреса статей
ходит по сайтам и собирает тексты статей

Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Продажа аккаунтов - Gmail.com I Google+
аккаунты, Gmail Google+, не дорого
64 KYBERGURU73 51499 Сегодня, 22:52
автор: KYBERGURU73
Открытая тема (нет новых ответов) ⭐⭐⭐ Google Voice | Gmail - OLD аккаунты "SMS и звонки" ⭐⭐⭐
15 Chekon 4444 Вчера, 12:00
автор: Chekon
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыA-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парсеров.
353 Forbidden 279275 11.4.2024, 17:07
автор: AParser_Support
Открытая тема (нет новых ответов) Если статья не в индексе Google - она уникальна или нет?
5 uahomka 1435 3.4.2024, 23:56
автор: Liudmila
Горячая тема (нет новых ответов) Google запускает новый браузер элементами искусственного интеллекта
38 arendator 13469 21.3.2024, 18:10
автор: Rebex


 



RSS Текстовая версия Сейчас: 19.4.2024, 23:56
Дизайн