Предлагается вниманию свежая база русских поисковых запросов.
В базе 88 миллионов уникальных почищенных кеев со статой, собранных с открытых статистик сервиса
LiveInternet.ru.
Актуальность:декабрь 2009г.
Исходные данные:обработано сайтов: 162 589 (сайты с ненулевой статой)
собрано ключевых слов: 133 714 170 (сто тридцать три млн)
вес исходников: ~7Gb (в UTF-8)
Было выкошено:1. 1 889 061 запросов, состоящих или содержавших в себе url:
272 tld домена, в том числе с ошибками и игрой с раскладкой. Нестандартный пример:
абакан.ru
www/r02/nalog/ru
ццц/тыл54/сщь
ццюдутефюкг
2. 251 394 запросов с арабской вязью, иероглифами, битой кодировкой и псевдографикой (более 4 тысяч различных символов):
çılgın kızlar
اموزش زبان روسي
עיניים נישאות לשמיים
νυχια σχεδια
õèìè åñêèé ýëåìåíò æåëåçà
3. 17 804 запросов с поисковыми операторами (вообще их больше, часть попала под другие фильтры):
авто inurl:cat
inurl:axis-cgi
rhost ru.narod
новый год filetype:gif
Кроме этого:Отдельно отобрано 3 023 689 запросов, включающих в себя символы
украинского алфавита:
леся українка дитячі вірші
фабріка зірок на майдані
що таке націоналізм
я не можу ввійти в контакти
После наложения всех фильтров осталось 109 миллионов кеев, которые были залиты в базу и агрегированы. В итоге получена 88 миллионная база уникальных поисковых запросов + месячная (не относительная, а полная!) статистика за декабрь.
Так, например, в базе более 3 миллионов запросов, со статистикой >100 в месяц. 80% базы - запросы, состоящие из 2-5 слов. Полная картина выглядит так:
1 слово = 1 997 791 результатов
2 слова = 11 113 004 результатов
3 слова = 19 863 278 результатов
4 слова = 19 652 967 результатов
5 слов = 14 618 155 результатов
6 слов = 9 160 811 результатов
7 слов = 5 212 190 результатов
8 слов = 2 828 075 результатов
9 слов = 1 522 880 результатов
10 слов = 831 954 результатов
11 слов = 464 091 результатов
12 слов = 269 422 результатов
13 слов = 164 668 результатов
14 слов = 106 121 результатов
15 слов = 72 483 результатов
16 слов = 52 131 результатов
17 слов = 38 257 результатов
18 слов = 29 176 результатов
19 слов = 22 174 результатов
Запросы от 20 слов чуть более чем полностью состояли из мусора и были выкошены (всего 72 732 запроса).
Для того, чтобы определить сезонный/новостной запрос от стабильного в третьей колонке находится статистика за ноябрь. Пара примеров:
козий грипп - 137 948 за декабрь - 0 за ноябрь
хромая лошадь - 86 203 за декабрь - 11 за ноябрь
avatar wallpapers - 27 701 за декабрь - 0 за ноябрь
как завести машину в мороз - 11 080 за декабрь - 69 за ноябрь
И обратный вариант:
россия-словения - 180 за декабрь - 9 115 за ноябрь
чума в украине - 159 за декабрь - 6 237 за ноябрь
как сшить марлевую повязку - 340 за декабрь - 4 204 за ноябрь
Формат:Формат файлов - txt (
csv), кодировка win-1251. В распакованном виде база занимает порядка 3Gb. Для удобства ключи разбиты на 9 файлов, примерно по 10 млн запросов в каждом. Отдельный файл с суффиксом
ua содержит >2 миллионов запросов на
української мови.
База выгодно отличается от других источников (например, «вордстата» или «прямого эфира») полным отсутствием цензуры. В ней содержатся запросы из самых разных ниш, которые будут интересны как дорвейщикам, так и оптимизаторам.
Пример выборки по запросу «собчак» (9 640 результатов):
ksusha (этеншен! ненормативная лексика).
Стоимость:На данный момент стоимость базы равна
90 wmz. После оплаты вы получаете ссылку и самостоятельно скачиваете архив (~450Mb).
Индивидуально можно обсудить создание различных выборок в произвольном формате. На цену, конечно, влияет.
Контакты:icq: 335 - 803
sabotage.name
Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.
|