X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

Открыть тему
Тема закрыта
> парсинг текстовки яндекс.весны
ParavoZ
ParavoZ
Topic Starter сообщение 31.7.2010, 1:00; Ответить: ParavoZ
Сообщение #1


Так скажем, тренеруюсь/обучаюсь кодингу.

Вот если кому нужно - получайте парсинг текстовки яндекс.рефератов.

Можно выбрать сколько грабить рефератов.

Говорят, что яндекс в этих рефератах заменяет русские буквы, на аналогичные западные. Проблема решена

<?php
$skoko = 10; //сколько рефератов граббить
for ($s = 0; $s < $skoko; $s++)
                {
$vip = file_get_contents("http://referats.yandex.ru/geography.xml"); // ссылочка откуда грабить я.рефератики.Категория

$n = preg_match_all('!<h1 style="color:black; margin-left:0;">(.*)</h1>(.*)</div></td>!is', $vip, $result);
$to = "асе";
$from = "ace";
$result[2][0] = strtr($result[2][0],$to,$from);


        echo $result[1][0];
        echo "<br>";
        echo  $result[2][0];
        }
    ?>




текстовка прямо скажем не очень, однако мб кому понадобиться)
з.ы. на досуге попытаюсь написать какие-нибудь парсеры, напишите какие бы вы хотели - попробуем(только не сложные в стиле под мини движок и т.д.)

Сообщение отредактировал ParavoZ - 31.7.2010, 1:03


Поблагодарили: (3)
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
medved112
medved112
сообщение 31.7.2010, 1:13; Ответить: medved112
Сообщение #2


ParavoZ, я не знаю насколько это сложно, сам в кодинге полный ноль, но очень бы не помешал парсер ЖЖ или блогспота. Чтобы парсились посты следующим образом: каждый пост в отдельный txt файл, заголовой поста шел первой строчкой в файле, текст шел начиная со второй строки. Теги, ссылки и т.п. желательно исключать, но это не столь принципиально.

ЗЫ: Возможно не правильно понял фразу
только не сложные в стиле под мини движок и т.д.

Но если нет, то сорри


--------------------
фыр фыр


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ParavoZ
ParavoZ
Topic Starter сообщение 31.7.2010, 1:19; Ответить: ParavoZ
Сообщение #3


medved112 это на днях сделаем) т.е. тебе как нужно? даешь блог - с него парсятся посты(назвнание и пост),и в отдельный файлик каждый, так?
На завтра моя задача написать парсер качественного копипаста - http://lenta.ru/news/2010/07/30/ с этих страниц по всем ссылкам) Надеюсь это дорвейщикам пригодиться)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
medved112
medved112
сообщение 31.7.2010, 1:24; Ответить: medved112
Сообщение #4


ParavoZ, ну вообще желательно ,чтобы сразу пачку блогов загрузил, например в папку со скриптом txt файл с ссылками на блоги, а на выходе да, каждый пост в отдельный txt файл разбросался, только чтобы название поста шло не в название файла, а в первую строку. Какую из платформ парсить мне не принципиально, только чтобы английские блоги были.

ЗЫ: О, про ленту тоже пригодиться wink.gif

Сообщение отредактировал medved112 - 31.7.2010, 1:25


--------------------
фыр фыр
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
kraken
kraken
сообщение 31.7.2010, 6:30; Ответить: kraken
Сообщение #5


ParavoZ если как ты говоришь что начинающий если возникнут проблемы/вопросы то пиши в асю могу помочь =) АСЯ 757-834


--------------------
Блог уфимского студента
Найди множество текстов песен у меня на сайте
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Romanuk
Romanuk
сообщение 31.7.2010, 10:59; Ответить: Romanuk
Сообщение #6


(ParavoZ @ 31.7.2010, 0:19) *
...написать парсер качественного копипаста lenta.ru/news/2010/07/30...

Хорошая идея для парсера. Воспользовался бы таким.

(medved112 @ 31.7.2010, 0:13) *
...очень бы не помешал парсер ЖЖ или блогспота...

+1 голос за такой парсер.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
hizgil
hizgil
сообщение 21.8.2010, 0:02; Ответить: hizgil
Сообщение #7


Вряд ли понадобится, но спасибо!
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
poolk
poolk
сообщение 21.8.2010, 15:02; Ответить: poolk
Сообщение #8


(medved112 @ 31.7.2010, 1:13) *
ParavoZ, я не знаю насколько это сложно, сам в кодинге полный ноль, но очень бы не помешал парсер ЖЖ или блогспота. Чтобы парсились посты следующим образом: каждый пост в отдельный txt файл, заголовой поста шел первой строчкой в файле, текст шел начиная со второй строки. Теги, ссылки и т.п. желательно исключать, но это не столь принципиально.

ЗЫ: Возможно не правильно понял фразу

Но если нет, то сорри

под зеброид?)

Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлыНастройка яндекс директ рекламы БЕЗ РАСХОДОВ БЮДЖЕТА
Количество продаж будет ОГРАНИЧЕННО!
22 ITstaf 4418 23.4.2024, 21:00
автор: 100ftd
Открытая тема (нет новых ответов) Аналоги Яндекс Директ
4 kuz999 1850 23.4.2024, 18:55
автор: xramoviy
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлыТрафик в Телеграм (рассылка, инвайт, парсинг)
9 gelt 2857 8.4.2024, 15:28
автор: gelt
Открытая тема (нет новых ответов) Atlantic 2.0 - для безлимитного решения кликами Recaptcha и кликовой капчи Яндекс
3 waterworld 1631 14.3.2024, 12:29
автор: waterworld
Открытая тема (нет новых ответов) Где дешевле клики в Яндекс.Директ или Таргет ВК?
2 rownong27 1007 18.2.2024, 9:49
автор: rownong27


 



RSS Текстовая версия Сейчас: 25.4.2024, 4:15
Дизайн