X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >
Открыть тему
Тема закрыта
> Парсинг внутренних ссылок
FLASH92
FLASH92
Topic Starter сообщение 4.1.2011, 17:23; Ответить: FLASH92
Сообщение #1


Участник
***

Группа: User
Сообщений: 203
Регистрация: 3.6.2008
Поблагодарили: 2 раза
Репутация:   0  


Всем привет, возникла необходимость отпарсить все внутренние ссылки сайта и + заголовок. Собственно может кто видел такой бесплатный софт, или ктото сможет отпарсить через свою прогу?


--------------------
Балатируюсь в президенты
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
digwnews
digwnews
сообщение 4.1.2011, 20:20; Ответить: digwnews
Сообщение #2


Частый гость
**

Группа: User
Сообщений: 63
Регистрация: 1.7.2010
Поблагодарили: 11 раз
Репутация:   4  


То есть нужно только получить внутренние урлы и заголовки на этих страницах?
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
WebAction
WebAction
сообщение 4.1.2011, 20:23; Ответить: WebAction
Сообщение #3


Топовый постер
*******

Группа: Super Moderator
Сообщений: 3059
Регистрация: 18.11.2009
Поблагодарили: 2510 раз
Репутация:   249  


Xenu's Link Sleuth. Ссылку думаю найдете сами.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
FLASH92
FLASH92
Topic Starter сообщение 4.1.2011, 20:27; Ответить: FLASH92
Сообщение #4


Участник
***

Группа: User
Сообщений: 203
Регистрация: 3.6.2008
Поблагодарили: 2 раза
Репутация:   0  


(digwnews @ 5.1.2011, 1:20) *
То есть нужно только получить внутренние урлы и заголовки на этих страницах?

Да нужно получить все внутренние ссылки + заголовок, ну чтобы картинвную ссылку составила прога с анкором. Например < a href="ya.ru">Поисковая система яндекс</a> и вот все ссылки которые есть у яндекса таким образом собирал, но это коречно не для яндекса надо а для моего сайта.


--------------------
Балатируюсь в президенты
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
FjuZ
FjuZ
сообщение 4.1.2011, 23:01; Ответить: FjuZ
Сообщение #5


6931fb
******

Группа: Active User
Сообщений: 1551
Регистрация: 3.2.2009
Из: UA
Поблагодарили: 595 раз
Репутация:   79  


preg_match_all('%<a .*?href="/.*".*?>.*</a>%', $text, $matches);


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
FLASH92
FLASH92
Topic Starter сообщение 5.1.2011, 4:20; Ответить: FLASH92
Сообщение #6


Участник
***

Группа: User
Сообщений: 203
Регистрация: 3.6.2008
Поблагодарили: 2 раза
Репутация:   0  


(FjuZ @ 5.1.2011, 4:01) *
preg_match_all('%<a .*?href="/.*".*?>.*</a>%', $text, $matches);

Я в пхп нуб, но...вот этот код обойдет все страницы моего сайта? и сделает урл с анкором?


--------------------
Балатируюсь в президенты
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
FjuZ
FjuZ
сообщение 5.1.2011, 4:33; Ответить: FjuZ
Сообщение #7


6931fb
******

Группа: Active User
Сообщений: 1551
Регистрация: 3.2.2009
Из: UA
Поблагодарили: 595 раз
Репутация:   79  


$url="http://site.ru/";
$text=file_get_contents($url);
preg_match_all('%<a .*?href="/.*".*?>.*</a>%', $text, $matches);
print_r($matches)

вот этот обойдет

ах, нет, не все страницы. только страница которая в переменной. можеш создать массив со страницами с которых нужно парсить и пропустить регулярку по нему.

Сообщение отредактировал FjuZ - 5.1.2011, 4:34


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Добрый_Тролль
Добрый_Тролль
сообщение 5.1.2011, 4:37; Ответить: Добрый_Тролль
Сообщение #8


Новичок
*

Группа: User
Сообщений: 30
Регистрация: 29.10.2010
Поблагодарили: 16 раз
Репутация:   4  


Тебе нужен урл и ТАЙТЛ внутренних страниц?
Скинь в ЛС. Попробую спарсить.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
dan1
dan1
сообщение 5.1.2011, 13:41; Ответить: dan1
Сообщение #9


Участник
***

Группа: User
Сообщений: 195
Регистрация: 12.8.2010
Из: Тагила
Поблагодарили: 74 раза
Репутация:   25  


Fluz спасибо за регулярку, теперь ведь можно сделать рекурсивную функцию, которая будет принимать найденный на странице урл, вот и получится парсинг всех внутренних ссылок.
Для определения тайтлов, можно использовать эту регулярку:
if (preg_match('|<title.*?>(.*)</title>|sei', $str, $arr)) $title = $arr[1];
   else $title='';


Сообщение отредактировал dan1 - 5.1.2011, 13:45
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
FLASH92
FLASH92
Topic Starter сообщение 5.1.2011, 15:10; Ответить: FLASH92
Сообщение #10


Участник
***

Группа: User
Сообщений: 203
Регистрация: 3.6.2008
Поблагодарили: 2 раза
Репутация:   0  


А может ктонить составит из этого лего целый код? чтобы дал домен скрипту, он обходит все страницы сайта и вытаскивает внутренняки с тайтлом в активную ссылку?

Сообщение отредактировал FLASH92 - 5.1.2011, 15:10


--------------------
Балатируюсь в президенты
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
2 страниц V   1 2 >
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Переносится ли вес и тИЦ от входящих ссылок при 301 редиректе
11 Bel_Ami 2875 Вчера, 20:50
автор: alexandrrr
Горячая тема (нет новых ответов) Оптимизация сайтов, продвижение, наращивание ссылок
Большой опыт работы, отзывы
179 tario777 61388 Вчера, 14:49
автор: tario777
Открытая тема (нет новых ответов) 12 Отборных Тематических ссылок с трастовых сайтов + Бонус
0 dimapwt 281 Вчера, 12:33
автор: dimapwt
Открытая тема (нет новых ответов) 12 Жирных вечных ссылок с медицинских сайтов.
4 dimapwt 735 9.12.2017, 13:20
автор: dimapwt
Открытая тема (нет новых ответов) Кто продвигает сайт в яндексе массовой закупкой ссылок?
13 aleggator 1805 8.12.2017, 4:19
автор: KvadroJ


 



RSS Текстовая версия Сейчас: 12.12.2017, 16:37
Дизайн