Как извлекать ссылки, используя их часть как признак?

Сообщение сайта

(Сообщение закроется через 3 секунды)

Здравствуйте, гость (

| Вход | Регистрация )

SEO форум MaulTalk.com > Веб-строительство > Программная часть

2 страниц

1 2 >

Как извлекать ссылки, используя их часть как признак?

Опции

slava34 Topic Starter slava34Topic Starter 16.2.2012, 12:12; Сообщений: 4 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	Topic Starter 16.2.2012, 12:12; Ответить: slava34 Сообщение #1
0 Группа: User Сообщений: 4 Регистрация: 14.2.2012 Поблагодарили: 0 раз Репутация: 0	Через регулярку, но надо, что бы она была универсальная т.е. подставил признак - получил первый url содержащий этот признак.

Witu Witu 16.2.2012, 14:17; Сообщений: 0 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	16.2.2012, 14:17; Ответить: Witu Сообщение #2
0 Группа: User Сообщений: 0 Регистрация: 15.4.2009 Поблагодарили: 0 раз Репутация: 0	http://php.net/manual/ru/function.preg-match.php http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%...%BD%D0%B8%D1%8F думаю поможет

pavelsc pavelsc 16.2.2012, 15:06; Сообщений: 745 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	16.2.2012, 15:06; Ответить: pavelsc Сообщение #3
0 Группа: User Сообщений: 745 Регистрация: 1.8.2010 Поблагодарили: 0 раз Репутация: 0	(HTMLandPHP @ 14.2.2012, 18:36) через регулярные выражения Вы издеваетесь? Ну-ну парсить html регекспами. Для вас даже тема в инете есть что так не надо делать. html agility pack если под visual studio, или phpQuery если под пхп надо.

slava34 Topic Starter slava34Topic Starter 28.2.2012, 12:45; Сообщений: 4 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	Topic Starter 28.2.2012, 12:45; Ответить: slava34 Сообщение #4
0 Группа: User Сообщений: 4 Регистрация: 14.2.2012 Поблагодарили: 0 раз Репутация: 0	(HTMLandPHP @ 16.2.2012, 17:17) http://php.net/manual/ru/function.preg-match.php http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%...%BD%D0%B8%D1%8F думаю поможет Возьметесь написать вышеуказанный скриптик? Если да то примерно за сколько?

ZhukV ZhukV 29.2.2012, 0:25; Сообщений: 1837 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	29.2.2012, 0:25; Ответить: ZhukV Сообщение #5
0 Группа: User Сообщений: 1837 Регистрация: 19.12.2009 Поблагодарили: 0 раз Репутация: 0	(pavelsc @ 16.2.2012, 18:06) Вы издеваетесь? Ну-ну парсить html регекспами. Для вас даже тема в инете есть что так не надо делать. html agility pack если под visual studio, или phpQuery если под пхп надо. Ну вообще то здесь вопрос задали, и не нужно сразу так похамливать.... slava34, есть несколько вариантов. Как для новичка, можете попробовать регулярки, они все же проще но со глюками. Если же нормально делать, я бы взял DOMDocument & DOMXpath Предположем, что у $dom у вас загружен корректно документ (о глюках и их исправлениях - http://api.drupal.org/api/drupal/modules%2...lter_dom_load/7) Знайте, что лучше кидать UTF-8 А делее через XPath обращаемся к тем данным которые нужно: [PHP] $xpath = new DOMXPath($dom); $links = $xpath->query('//a'); $now = 0; while ($link = $links->item($now)) { $now++; print $link->getAttribute('href'); } [/PHP] или же на чистом доме [PHP]$links = $dom->getElementsByTagName('a'); foreach ($links as $link) { print $link->getAttribute('href'); }[/PHP] Лучше всего использовать XPath, так как у него очень сильный функционал. Писал код с фанаря, могут быть очепятки.

Witu Witu 29.2.2012, 7:59; Сообщений: 0 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	29.2.2012, 7:59; Ответить: Witu Сообщение #6
0 Группа: User Сообщений: 0 Регистрация: 15.4.2009 Поблагодарили: 0 раз Репутация: 0	pavelsc, вот допустим есть много ссылок на странице примерно такого вида http://google.com/web/projects/{уникальный_id} http://google.com/web/projects/show/changelog http://google.com/web/projects/{уникальный_id}/changelog и мы хотим вытащить все ссылки в которых есть /projects/{уникальный_id}/changelog как вы это сделаете без регулярки? может быть через for от 0 до 999999999 и проверят strpos'ом?

slava34 Topic Starter slava34Topic Starter 2.3.2012, 9:40; Сообщений: 4 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	Topic Starter 2.3.2012, 9:40; Ответить: slava34 Сообщение #7
0 Группа: User Сообщений: 4 Регистрация: 14.2.2012 Поблагодарили: 0 раз Репутация: 0	(ZhukV @ 29.2.2012, 03:25) Ну вообще то здесь вопрос задали, и не нужно сразу так похамливать.... slava34, есть несколько вариантов. Как для новичка, можете попробовать регулярки, они все же проще но со глюками. Если же нормально делать, я бы взял DOMDocument & DOMXpath Большое спасибо, для меня больше подходят регулярки, так как работаю с Xedant Human Emulator, он их хорошо понимает.

Den1xxx Den1xxx 2.3.2012, 12:01; Сообщений: 2503 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	2.3.2012, 12:01; Ответить: Den1xxx Сообщение #8
0 Группа: User Сообщений: 2503 Регистрация: 24.5.2011 Поблагодарили: 0 раз Репутация: 0	(pavelsc @ 16.2.2012, 18:06) Для вас даже тема в инете есть что так не надо делать. С каких пор то, что неизвестно кто написал в интернете, стало автоматически аксиомой? Разбирайте лучше конкретный случай: допустим, в этом случае лучше не писать регулярки. И почему. А то вот мне например непонятно почему — он ведь пытается анализироватьтеги a имеющие определенные признаки допустим href Их можно парсить регуляркой, имхо. Поисковики и браузеры же как-то парсят. А то скатываесь до безосновательных холиваров: «Только Виндовсом нужно пользоваться!» или «Блочная верстка должна использоваться в любом случае!». Смешно. Зы. По ссылке pavelsc нашлась замечательная фраза: Every time you attempt to parse HTML with regular expressions, the unholy child weeps the blood of virgins, and Russian hackers pwn your webapp. Ха-ха. Как они оказывается боятся русских хакеров. Вообще судя по тому что написано ниже, человек просто болен. Психически. Ну или косит под больного.

alexdrob alexdrob 2.3.2012, 12:26; Сообщений: 6488 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	2.3.2012, 12:26; Ответить: alexdrob Сообщение #9
0 Группа: User Сообщений: 6488 Регистрация: 8.9.2009 Поблагодарили: 0 раз Репутация: 0	(Den1xxx @ 2.3.2012, 15:01) С каких пор то, что неизвестно кто написал в интернете, стало автоматически аксиомой? То есть вы должны официально признать высказывание что бы оно стало аксиомой? И при чём тут вообще аксиома? (pavelsc @ 16.2.2012, 18:06) что так не надо делать. Это не аксиома а совет. (Den1xxx @ 2.3.2012, 15:01) Разбирайте лучше конкретный случай: допустим, в этом случае лучше не писать регулярки. А он не то же самое сказал? (Den1xxx @ 2.3.2012, 15:01) А то скатываесь до безосновательных холиваров: «Только Виндовсом нужно пользоваться!» или «Блочная верстка должна использоваться в любом случае!». Странно, если я делаю сервер игры - я выбираю линукс, если дома для просмотра фильмов и что бы можно было поиграть - я ставлю виндовс. Теперь смотрим данную тему: если нужно получить значение атрибута - то используем DOM. Где тут утверждение что вообще не нужно использовать регулярки в других случаях?

Den1xxx Den1xxx 2.3.2012, 12:34; Сообщений: 2503 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	2.3.2012, 12:34; Ответить: Den1xxx Сообщение #10
0 Группа: User Сообщений: 2503 Регистрация: 24.5.2011 Поблагодарили: 0 раз Репутация: 0	alexdrob, перечитайте еще раз, а то пишете абы что. [B]pavelsc [/B]сказал, что html вообще нельзя парсить регуляркой , потому что вот здесь есть ссылка. Так вот, это неправда. Html можно парсить регуляркой.

« Предыдущая тема · Программная часть · Следующая тема »

2 страниц

1 2 >

1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)

Пользователей: 0

Похожие темы

Тема	Ответов	Автор	Просмотров	Последний ответ
Как в пушсетках покупают по 100-200 тысяч кликов за день?	2	Boymaster	597	Сегодня, 17:52 автор: Boymaster
Жирные бурж ссылки под крипту Размещаем статьи на популярных международных сайтах	0	umexa	378	Вчера, 23:23 автор: umexa
Жирные бурж ссылки под крипту Размещаем статьи на популярных международных сайтах	0	umexa	318	Вчера, 23:23 автор: umexa
SEO Линк Билдинг под Бурж \| Вечные ссылки США, Европа и Мир с Гарантией	21	Needmylink1	7176	Вчера, 21:16 автор: Needmylink1
Как вы отдыхаете от работы за компом	151	adw-kupon.ru	19835	Вчера, 13:52 автор: Vmir

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Текстовая версия

Сейчас: 24.4.2024, 18:32

Дизайн