X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

2 страниц V  < 1 2
Открыть тему
Добавить ответ в эту тему
> Сбор товаров и баз данных с интернет-магазинов, досок объявлений, соц сетей (парсинг). Автоматизированное наполнение сайтов от 10$.
ContentPars
ContentPars
Topic Starter сообщение 27.11.2015, 20:30; Ответить: ContentPars
Сообщение #12


Сбор данных с сайта vashdom.ru
Задача

Собрать все статьи и картинки с сайта vashdom.ru
Каждая статья в отдельном файле .txt
Структура файла .txt
  1. Заголовок статьи;
  2. Текст статьи без кода, с переносами строк;
  3. Адреса и названия картинок, содержащихся в статье.




Особенности

  1. Разный формат картинок .jpg, .jpeg, .gif
  2. Разные коды картинок
    • src="/адрес картинки.jpg"
    • src="адрес картинки.jpg"
    • src=/адрес картинки.jpg
    • src="адрес картинки.jpg
    • src="/адрес картинки.jpg
  3. Сочетание на одной странице разных форматов картинок с не стандартными кодами картинок




В итоге клиент получил

  1. Более 4000 файлов со статьями;
  2. 3458 папок с картинками для статей (не у всех статей были картинки)



При выполнении данного парсинга использовалась программа Content Downloader.
Окончательный отчет клиент получил спустя 2 дня после заказа.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ContentPars
ContentPars
Topic Starter сообщение 14.12.2015, 15:44; Ответить: ContentPars
Сообщение #13


Задача

Собрать объявления с сайта avito.ru из категории “Водный транспорт” и постепенно размещать их на сайте заказчика.

Необходимые поля для сбора:
1) Заголовок;
2) Все картинки товара;
3) Описание товара;
4) Номер телефона владельца товара;
5) Контактное лицо.

Товар в списке выдачи Avito.ru -


Страница товара -


Необходимые для заполнения поля:


1) Рубрика;
2) Категория;
3) Заголовок (из объявления с Авито);
4) Текст объявления(из объявления с Авито);
5) Изображения (из объявления с Авито);
6) Цена (из объявления с Авито);
7) Период размещения (выставить 6 мес.);
8) Имя (из объявления с Авито);
9) e-mail (ввести специально созданную почту)
10) Телефон (из объявления с Авито)


В итоге клиент получил.

Регулярное обновление своего сайта более 1000 объявлений в день (количество обговаривалось с Клиентом, все объявления можно было добавить за 1 день).


В конечном итоге на сайте клиента будет размещено более 50000 объявлений.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ContentPars
ContentPars
Topic Starter сообщение 9.3.2016, 13:20; Ответить: ContentPars
Сообщение #14


Еще один пример моей работы

Задача


Собрать телефонные номера, полные имена владельцев и их адреса с сайта tel.search.ch со следующими условиями:
1) Указывать город “Zurich”;
2) Поочередно вводить каждое из 104 предоставленных имен;



3) Конечные данные должны иметь вид .txt или .csv файла с данными
"41434998955","Gabler Anna","Streulistrasse 71 8032 Zurich"
"41447615776","Gantert Anna","Munchhaldenstrasse 6 8008 Zurich"
"41442722482","Gastl Anna-Marie","Rontgenstrasse 87/173 8005 Zurich"



Итог

Отчет был предоставлен на следующий день в формате .csv.
Все телефонные номера были приведены к общему виду и уникализированы.



В итоге клиент получил 11095 уникальных телефонных номеров с именами и адресами владельцев.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
admin
admin
сообщение 12.7.2016, 17:21; Ответить: admin
Сообщение #15


Открыто по просьбе ТС.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ContentPars
ContentPars
Topic Starter сообщение 12.7.2016, 17:45; Ответить: ContentPars
Сообщение #16


Очередной пример парсинга.
Задача.

Собрать все товары с сайта msk.metro-cc.ru по региону
“Москва, 1-я Дубровская 13,а”



Что собирать.

1. Заголовок товара
2. Описание товара
3. Характеристики товара (если есть)
4. Изображение товара
5. Стоимость
6. Валюта
7. Раздел товара
8. Уникальный идентификатор (выдавать самому)
9. Артикул товара



Подробнее про сбор

3) Характеристики товара - собирать из вкладки “Характеристики”, каждое название и значение характеристики собирать в отдельные ячейки таблицы.
(Хар-ка | Знач. хар-ки | Хар-ка | Знач. хар-ки).

4) Все картинки качать в отдельную папку, названия картинок делать такими-же как уникальный идентификатор.

5) Стоимость - Увеличивать собранную стоимость на 15%.

6) Валюта - Проставлять для всех товаров валюту RUB.



Собранные данные должны сохраняться в отдельную таблицу с названием в виде раздела, в котором находится товар в латинице.



Что было сделано.

Для сбора товаров была использована программа Content Downloader. Настроенная на сбор в 5-ти потоках.
Процесс парсинга проходил в 4 этапа:

Настройка сканера сайтов;
Сбор ссылок при помощи сканера сайтов;
Настройка сбора и сохранения данных с собранных ссылок на страницы;
Сбор и сохранение данных и последующая их ручная проверка.

Итог. Что получил клиент.

В итоге Клиент получил более 20 000 товаров в удобном для загрузки на сайт формате.
Отчет был получен на следующий день после обсуждения заказа.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
2 страниц V  < 1 2
Открыть тему
Добавить ответ в эту тему
Быстрый ответ
2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Betatransfer.net - прием платежей для HIGH RISK проектов, интернет эквайринг и мерчант онлайн оплат
54 arendator 34832 15.4.2024, 15:16
автор: arendator
Открытая тема (нет новых ответов) Англоязычный SEO-копирайтинг от $3/100 слов от NeedmyLink | Первая статья бесплатно
4 Needmylink1 1323 12.4.2024, 23:43
автор: Needmylink1
Горячая тема (нет новых ответов) Проверка позиций сайтов в поисковых системах с помощью Positon.ru
Мониторинг продвижения сайтов
183 Positon 179469 12.4.2024, 8:32
автор: Positon
Открытая тема (нет новых ответов) Интеграция спортивных данных API. Коэффициенты БК, Live результаты
15 yaroslav89 6838 8.4.2024, 17:17
автор: spoyer_ru
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлыТрафик в Телеграм (рассылка, инвайт, парсинг)
9 gelt 2846 8.4.2024, 15:28
автор: gelt


 



RSS Текстовая версия Сейчас: 19.4.2024, 5:27
Дизайн