X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

Открыть тему
Тема закрыта
> Нужен парсер
psknnn
psknnn
Topic Starter сообщение 27.11.2008, 12:45; Ответить: psknnn
Сообщение #1


Нужен на следующей неделе, предложения в ветку или асю.
Парсер:
Структура на входе :
1) Таблица из базы данных мускула:
- 1. Адрес сайта
- 2. Маска адресов сайта (например «index.php?item={Х}» где {X} меняется например от 0 до 10)
- 3. Регулярное выражение, обозначающее начало блока
- 4. Регулярное выражение, обозначающее конец блока
- 5. Кол-во не учитываемых блоков в начале страницы
- 6. Кол-во не учитываемых блоков в конце страницы
- 7. Регулярное выражение, обозначающее начало даты в блоке (необязательный параметр)
- 8. Регулярное выражение, обозначающее конец даты в блоке (необязательный параметр)
- 9. Регулярное выражение, обозначающее начало текста в блоке (необязательный параметр)
- 10. Регулярное выражение, обозначающее конец текста в блоке (необязательный параметр)

2) Таблица из базы данных мускула (нужные слова):
- 1. id
- 2. Ключевые слова (или если метка первым символом то рег. выражение)
- 3. … (служебная инфа)

3) Таблица из базы данных мускула (запрещенные слова):
- 1. Id
- 2. Ключевые слова (или если метка первым символом то рег. выражение)
- 3. … (служебная инфа)
Эти параметры задаю я, и парсер их должен учитывать.
Выходная таблица
1) id
2) Дата (если получилось извлечь из блока)
3) Текст (если получилось извлечь из блока)
4) Тело блока
5) Адрес родительской страницы (откуда взято)
6) Дата внесения
Алгоритм обработки страницы:
1) После открытия страницы, разбиение ее на блоки в соответствии с ограничениями 1.3 и 1.4
2) С учетом ограничения 1.5 и 1.6 просмотр блоков и поиск любого из «нужных» ключевых слов и там же поиск «запрещенных» ключевых слов.
3) Найденные блоки перед сохранением в БД, проверить есть они в БД или нет.
4) Сохранить найденное в БД, если есть «нужные» и нет «запрещенных» с меткой типа «флаг1», а если есть и «нужные» и «запрещенные» то с меткой типа «флаг2»
И последнее программный код должен быть нормально читаемый, чтоб в случае необходимости фиксов их делать без бубна…
PS: Вообще парсер не сложный, вложенных запросов нет, тупо текст сравнивать и засовывать в базу, просто времени нет его писать. Кто и почем возьмется его написать? Или может есть коммерческие(не сильно дорогие)/бесплатные/варезные скажите плиз.
PPS: Вообще не хочется пользовать сторонние, желательно найти писателя php )
АСЯ - 5ЧЗЗЧ9.


--------------------
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
psknnn
psknnn
Topic Starter сообщение 28.11.2008, 13:27; Ответить: psknnn
Сообщение #2


Что никто не возьмется?


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Xan
Xan
сообщение 28.11.2008, 13:33; Ответить: Xan
Сообщение #3


отписался в асю и лс. жду ответа


--------------------


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
psknnn
psknnn
Topic Starter сообщение 28.11.2008, 13:37; Ответить: psknnn
Сообщение #4


Ну хоть один нашелся smile.gif
Будем сотрудничать.
Обещал сделать в течении недели, посмотрим smile.gif


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыA-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парсеров.
352 Forbidden 278230 21.3.2024, 14:38
автор: AParser_Support
Открытая тема (нет новых ответов) Нужен сайт с автонаполнением по XML
1 REGNET 1132 7.3.2024, 15:08
автор: REGNET
Открытая тема (нет новых ответов) Нужен райтер на постоянку
13 Kiloan_Frost 3306 6.3.2024, 22:24
автор: vitaliraduga
Открытая тема (нет новых ответов) Нужен постинг в твиттер
3 uahomka 1703 20.2.2024, 1:00
автор: robot_yaga2
Открытая тема (нет новых ответов) Нужен исполнитель на постоянную основу для набора небольших текстов
19 Думающий 8794 9.2.2024, 16:04
автор: Думающий


 



RSS Текстовая версия Сейчас: 29.3.2024, 6:25
Дизайн