Помощник
|
Парсер Lenta.Ru, основанный на регулярных выражениях. |
ParavoZ
|
Сообщение
#1
|
||
|
|
||
|
|||
simpliex |
1.8.2010, 0:41;
Ответить: simpliex
Сообщение
#2
|
|
А куда и в каком формате он сохраняет?
-------------------- |
|
|
ParavoZ
|
Сообщение
#3
|
|
simpliex, прямо в браузер.
Сохрани в файл пхп и врубай на хостинге |
|
|
valeros |
1.8.2010, 0:50;
Ответить: valeros
Сообщение
#4
|
|
Просто при больших объемах,не удобно копипастить,вот если бы сразу в txt файл - другое дело.
-------------------- |
|
|
Cttr |
1.8.2010, 2:06;
Ответить: Cttr
Сообщение
#5
|
|
Прикрутил бы лучше импорт урлов и экспорт исходной статьи + почистить от ссылок - в общем разгон есть куда брать
Кстати у ленты есть XML канал, с ним лучше дружить. Поддержу немного ТС: - снят лимит, ибо 30 сек не хватает - добавлена форма для ввода url - добавлена запись в файл Пользуйтесь на здоровье, друзья. <?php
ini_set ('max_execution_time', 0); if (! $_POST) { echo '<form method="post">URL: <input type="text" name="url" style="width: 200px"> <input type="submit" values="парсить"></form>'; } else { $vip = file_get_contents ($_POST['url']); $n = preg_match_all ('!<span class=title><a href=(.*)>.*</a></span></p>!i', $vip, $result); if ($n) { for($a=0; $a < $n; $a++) { $page = file_get_contents ("http://lenta.ru". $result[1][$a]); $page = preg_replace ("!<a.*>!sU", ' ', $page); $page = str_replace ('</a>', ' ', $page); $regex = preg_match_all ('!<H2>(.*)</H2>.*</TABLE>(.*)<P class=links>!isU', $page, $itog, PREG_SET_ORDER); if ($regex) { $file = fopen ('text_' .$a. '.txt', 'a'); fwrite ($file, $itog[0][1] ."\n". str_replace ('<p>', '', $itog[0][2])); } } } } ?> Сообщение отредактировал Cttr - 1.8.2010, 2:15 |
|
|
burusha |
1.8.2010, 9:36;
Ответить: burusha
Сообщение
#6
|
|
На сколько я знаю, php процессы ограничены по времени, поэтому и нужен лимит. Зачем же его тогда снимать?
Или я ошибаюсь? -------------------- |
|
|
Cttr |
1.8.2010, 21:06;
Ответить: Cttr
Сообщение
#7
|
|
Или я ошибаюсь? Дефолтный лимит 30 секунд. Скрипт, если не успел завершить операцию, отработал 30 секунд и вылетает с фаталом. Мой канал интернета лично не позволяет за 30 сек спарсить 120 новостей, к примеру. Вот и все обьяснение Сообщение отредактировал Cttr - 1.8.2010, 21:14 |
|
|
Gad3000 |
2.8.2010, 23:24;
Ответить: Gad3000
Сообщение
#8
|
|
А откуда потом брать файл со спарсенным?
-------------------- |
|
|
Cttr |
3.8.2010, 3:39;
Ответить: Cttr
Сообщение
#9
|
|
|
|
|
centurion |
3.8.2010, 9:44;
Ответить: centurion
Сообщение
#10
|
|
А потестировать ни-ни? Кстати там не один файл, а на каждую новость свой файл. Создает в ту же папку где и лежит скрипт. Кинул 222.php в корень. Ни чего не парсит. И из папки не парсит. |
|
|
|
Похожие темы
Тема | Ответов | Автор | Просмотров | Последний ответ | |
---|---|---|---|---|---|
A-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парсеров. | 352 | Forbidden | 278222 | 21.3.2024, 14:38 автор: AParser_Support |
|
Бесплатный парсер бот в Телеграм - [Parser Pro] | 5 | Parser_Pro | 3310 | 27.1.2024, 16:12 автор: Parser_Pro |
|
WebArchiveMaster - парсер Вебархива Добыча контента из ВебАрхива |
16 | footashes | 12241 | 23.11.2022, 16:36 автор: kuz999 |
|
⚡ AvitoSmart - быстрый парсер новых объявлений на Авито на запросах Представляю парсер для [b]Zennoposter[/b]'a или [b]Zennobox[/b] |
0 | akcium | 1250 | 19.11.2022, 13:05 автор: akcium |
|
Tubes Clip One - парсер тубов | 21 | xoopw | 20775 | 16.4.2021, 17:30 автор: xoopw |
Текстовая версия | Сейчас: 29.3.2024, 3:17 |