X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

2 страниц V   1 2 >
Открыть тему
Тема закрыта
> Как скопировать адреса сайтов из лайвинтернет?
Sonic_md
Sonic_md
Topic Starter сообщение 21.1.2016, 11:44; Ответить: Sonic_md
Сообщение #1


Всем добрый день.

По ссылке http://www.liveinternet.ru/rating/
представлены 523 тысячи адресов сайтов.

Как можно скопировать АДРЕСА этих сайтов?

Т.е. получить список вида:
вк.ком
ок.ру
Майл.ру
авито.ру
и т.д. все 523 тысячи?
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
nonamez
nonamez
сообщение 21.1.2016, 12:01; Ответить: nonamez
Сообщение #2


Хитро там сделано. Оно с JS подгружает в TSV формате http://www.liveinternet.ru/rating///today.tsv?page=1
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Jordanutto
Jordanutto
сообщение 21.1.2016, 12:02; Ответить: Jordanutto
Сообщение #3


Content Downloader так сможет сделать, а точнее тот, у кого он есть. Думаю за 3$ исполители найдутся.


--------------------
Накрутка подписчиков в Medium, Steemit.
Парсинг любой информации с Авито, Drom, Cian, Юла, Эльдорадо, Мвидео.
Писать в ЛС
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
nonamez
nonamez
сообщение 21.1.2016, 12:49; Ответить: nonamez
Сообщение #4


За что тут платить? 2 строки кода:

Код
$last_page = 14119;

for ($i = 1; $i < ($last_page + 1); $i++) {
    $data = file_get_contents('http://www.liveinternet.ru/rating///today.tsv?page=' . $i);

    $data = preg_replace('/^.+\n/', '', $data);

    file_put_contents('out.tsv', $data, FILE_APPEND);
}


На выходе получаем файл формата tsv, который прекрасно читается екселем и ему подобными

Прикрепленный файл  Selection_038.png ( 259,75 килобайт ) Кол-во скачиваний: 9


если не нравится tsv, то вот csv:

Код
$last_page = 14119;

for ($i = 1; $i < ($last_page + 1); $i++) {
    $out_csv = fopen('out.csv', 'a');
    
    if (($handle = fopen('http://www.liveinternet.ru/rating///today.tsv?page=' . $i, "r")) !== FALSE) {
        while (($data = fgetcsv($handle, 1000, "\t")) !== FALSE) {
            if ($data[0] !== 'всего') {
                fputcsv($out_csv, $data);
            }
        }

        fclose($out_csv);
        fclose($handle);
    }
}


Сообщение отредактировал nonamez - 21.1.2016, 12:49


Поблагодарили: (3)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Sonic_md
Sonic_md
Topic Starter сообщение 21.1.2016, 13:18; Ответить: Sonic_md
Сообщение #5


nonamez,

Спасибо. А куда и как этот код (первый или второй код(для эксель)) вставлять, чтобы получить файл с адресами сайтов?
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
nonamez
nonamez
сообщение 21.1.2016, 13:29; Ответить: nonamez
Сообщение #6


Sonic_md, это PHP
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Sonic_md
Sonic_md
Topic Starter сообщение 21.1.2016, 15:57; Ответить: Sonic_md
Сообщение #7


nonamez,

Может моя просьба окажется неприличной. Но если это не займет много времени и ресурсов ПК, можете скинуть сюда итоговый txt файл(или xls-файл, если тхт нельзя) с адресами сайтов, т.к. нужны только адреса (названия сайтов или другая статистика не нужна)?

nonamez,
Со скриптами дело не имел.
Погуглил.
Подскажите правильно ли делаю
Часть 1.
1. Скачал-установил Denwer
2. Запустил Денвер
2: Зашел на новый виртуальный диск Z.
3: Зашел в папку home.
4: Создал свой папку: test
5: Зашел в эту папку и создал в ней папку с именем www.
6: В папке www создал файл index.php в котором записал этот код, который вы прислали
7: Перезапустил Denwer
8: В браузере открыл ссылку: http://test/index.php

жму Enter и в этой вкладке вижу просто текст:
$last_page = 14119; for ($i = 1; $i < ($last_page + 1); $i++) { $data = file_get_contents('http://www.liveinternet.ru/rating///today.tsv?page=' . $i); $data = preg_replace('/^.+\n/', '', $data); file_put_contents('out.tsv', $data, FILE_APPEND); }

и ничего не происходит


Или не так делаю?
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
nonamez
nonamez
сообщение 21.1.2016, 16:34; Ответить: nonamez
Сообщение #8


Цитата(Sonic_md @ 21.1.2016, 15:57) *
и ничего не происходит


Или не так делаю?

Делаешь правильно, молодец, но есть определённые нюансы - лень объяснять...

Вот список Прикрепленный файл  links_uniq.zip ( 1,81 мегабайт ) Кол-во скачиваний: 6
(Убраны повторы)

Сообщение отредактировал nonamez - 21.1.2016, 16:35


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Sonic_md
Sonic_md
Topic Starter сообщение 21.1.2016, 16:47; Ответить: Sonic_md
Сообщение #9


nonamez,

А какие повторы? не заметил
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
nonamez
nonamez
сообщение 21.1.2016, 16:51; Ответить: nonamez
Сообщение #10


Sonic_md, я не знаю, прогнал просто список на дубликаты на всякий случай и всё. Возможно повторы там из-за того, что стата лайв и при переходе по страницам некоторые сайты прыгают.

Сообщение отредактировал nonamez - 21.1.2016, 16:52
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
2 страниц V   1 2 >
Открыть тему
Тема закрыта
2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлыПродам базу сайтов Wordpress в 16 миллионов доменов! Свежая сборка.
18 Boymaster 11046 Сегодня, 12:04
автор: Omaxis
Открытая тема (нет новых ответов) Арбитражники, как ведете учет расходов и доходов?
11 Boymaster 1805 17.4.2024, 23:35
автор: Boymaster
Горячая тема (нет новых ответов) Как вывести деньги в Украине с заблокированного Юмани ?
29 freeax 4811 17.4.2024, 1:19
автор: sergio11
Горячая тема (нет новых ответов) Проверка позиций сайтов в поисковых системах с помощью Positon.ru
Мониторинг продвижения сайтов
183 Positon 179470 12.4.2024, 8:32
автор: Positon
Горячая тема (нет новых ответов) Как вы отдыхаете от работы за компом
148 adw-kupon.ru 19709 8.4.2024, 10:37
автор: Skyworker


 



RSS Текстовая версия Сейчас: 19.4.2024, 19:45
Дизайн