X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

Открыть тему
Тема закрыта
> парсинг текстовки яндекс.весны
ParavoZ
ParavoZ
Topic Starter сообщение 31.7.2010, 1:00; Ответить: ParavoZ
Сообщение #1


Так скажем, тренеруюсь/обучаюсь кодингу.

Вот если кому нужно - получайте парсинг текстовки яндекс.рефератов.

Можно выбрать сколько грабить рефератов.

Говорят, что яндекс в этих рефератах заменяет русские буквы, на аналогичные западные. Проблема решена

<?php
$skoko = 10; //сколько рефератов граббить
for ($s = 0; $s < $skoko; $s++)
                {
$vip = file_get_contents("http://referats.yandex.ru/geography.xml"); // ссылочка откуда грабить я.рефератики.Категория

$n = preg_match_all('!<h1 style="color:black; margin-left:0;">(.*)</h1>(.*)</div></td>!is', $vip, $result);
$to = "асе";
$from = "ace";
$result[2][0] = strtr($result[2][0],$to,$from);


        echo $result[1][0];
        echo "<br>";
        echo  $result[2][0];
        }
    ?>




текстовка прямо скажем не очень, однако мб кому понадобиться)
з.ы. на досуге попытаюсь написать какие-нибудь парсеры, напишите какие бы вы хотели - попробуем(только не сложные в стиле под мини движок и т.д.)

Сообщение отредактировал ParavoZ - 31.7.2010, 1:03


Поблагодарили: (3)
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
medved112
medved112
сообщение 31.7.2010, 1:13; Ответить: medved112
Сообщение #2


ParavoZ, я не знаю насколько это сложно, сам в кодинге полный ноль, но очень бы не помешал парсер ЖЖ или блогспота. Чтобы парсились посты следующим образом: каждый пост в отдельный txt файл, заголовой поста шел первой строчкой в файле, текст шел начиная со второй строки. Теги, ссылки и т.п. желательно исключать, но это не столь принципиально.

ЗЫ: Возможно не правильно понял фразу
только не сложные в стиле под мини движок и т.д.

Но если нет, то сорри


--------------------
фыр фыр


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ParavoZ
ParavoZ
Topic Starter сообщение 31.7.2010, 1:19; Ответить: ParavoZ
Сообщение #3


medved112 это на днях сделаем) т.е. тебе как нужно? даешь блог - с него парсятся посты(назвнание и пост),и в отдельный файлик каждый, так?
На завтра моя задача написать парсер качественного копипаста - http://lenta.ru/news/2010/07/30/ с этих страниц по всем ссылкам) Надеюсь это дорвейщикам пригодиться)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
medved112
medved112
сообщение 31.7.2010, 1:24; Ответить: medved112
Сообщение #4


ParavoZ, ну вообще желательно ,чтобы сразу пачку блогов загрузил, например в папку со скриптом txt файл с ссылками на блоги, а на выходе да, каждый пост в отдельный txt файл разбросался, только чтобы название поста шло не в название файла, а в первую строку. Какую из платформ парсить мне не принципиально, только чтобы английские блоги были.

ЗЫ: О, про ленту тоже пригодиться wink.gif

Сообщение отредактировал medved112 - 31.7.2010, 1:25


--------------------
фыр фыр
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
kraken
kraken
сообщение 31.7.2010, 6:30; Ответить: kraken
Сообщение #5


ParavoZ если как ты говоришь что начинающий если возникнут проблемы/вопросы то пиши в асю могу помочь =) АСЯ 757-834


--------------------
Блог уфимского студента
Найди множество текстов песен у меня на сайте
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Romanuk
Romanuk
сообщение 31.7.2010, 10:59; Ответить: Romanuk
Сообщение #6


(ParavoZ @ 31.7.2010, 0:19) *
...написать парсер качественного копипаста lenta.ru/news/2010/07/30...

Хорошая идея для парсера. Воспользовался бы таким.

(medved112 @ 31.7.2010, 0:13) *
...очень бы не помешал парсер ЖЖ или блогспота...

+1 голос за такой парсер.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
hizgil
hizgil
сообщение 21.8.2010, 0:02; Ответить: hizgil
Сообщение #7


Вряд ли понадобится, но спасибо!
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
poolk
poolk
сообщение 21.8.2010, 15:02; Ответить: poolk
Сообщение #8


(medved112 @ 31.7.2010, 1:13) *
ParavoZ, я не знаю насколько это сложно, сам в кодинге полный ноль, но очень бы не помешал парсер ЖЖ или блогспота. Чтобы парсились посты следующим образом: каждый пост в отдельный txt файл, заголовой поста шел первой строчкой в файле, текст шел начиная со второй строки. Теги, ссылки и т.п. желательно исключать, но это не столь принципиально.

ЗЫ: Возможно не правильно понял фразу

Но если нет, то сорри

под зеброид?)

Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлыТрафик в Телеграм (рассылка, инвайт, парсинг)
10 gelt 2955 Сегодня, 19:33
автор: gelt
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлыНастройка яндекс директ рекламы БЕЗ РАСХОДОВ БЮДЖЕТА
Количество продаж будет ОГРАНИЧЕННО!
22 ITstaf 4425 23.4.2024, 21:00
автор: 100ftd
Открытая тема (нет новых ответов) Аналоги Яндекс Директ
4 kuz999 1865 23.4.2024, 18:55
автор: xramoviy
Открытая тема (нет новых ответов) Atlantic 2.0 - для безлимитного решения кликами Recaptcha и кликовой капчи Яндекс
3 waterworld 1635 14.3.2024, 12:29
автор: waterworld
Открытая тема (нет новых ответов) Где дешевле клики в Яндекс.Директ или Таргет ВК?
2 rownong27 1009 18.2.2024, 9:49
автор: rownong27


 



RSS Текстовая версия Сейчас: 25.4.2024, 21:35
Дизайн