X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

2 страниц V   1 2 >
Открыть тему
Тема закрыта
> Яндекс запустил поиск в реальном времени, Orangeирование
Alexsey
Alexsey
Topic Starter сообщение 9.7.2010, 21:15; Ответить: Alexsey
Сообщение #1


Яндекс всегда хотел быть зеркалом интернета. На 100% это невозможно, и мы хотим сделать вид, что мы — зеркало для тех, кто на нас смотрит. Мим за пустой рамкой несуществующего зеркала должен быть внимательным и иметь хорошую реакцию, чтобы создать иллюзию, что он — отражение. Мы в Яндексе работаем над технологиями «свежести», чтобы сделать отличия поискового индекса от интернета незаметными для людей.

Веб-мастера рунета знают, что последние несколько лет в Яндексе существовал так называемый «быстрый робот». В его задачу входила быстрая индексация и выкладывание на поиск наиболее ценных свежепоявившихся документов. Быстрый робот неплохо решал эту задачу, однако имел определенные ограничения.

Как и «большой робот», быстрый был построен по «пакетному» принципу: какое-то время готовил версию индекса с новыми документами, потом выкладывал ее на поиск. Это вносило задержку на время обработки, которую можно было сократить с помощью разных ухищрений для части документов до 20 минут, но нельзя было устранить полностью.

С момента запуска быстрого робота мир изменился. В интернете стало много людей, интересы которых далеки от технических проблем поиска, и у них вызывает крайнее изумление ситуация, когда страница на сайте есть, а в поиске ее нет. Именно поэтому правилом хорошего тона в ближайшие годы станет индексация нового за секунды.

Чтобы окончательно сделать из поискового индекса отражение, мы создали и запустили новые технологии — робот «Orange Crawler» и «Real-Time поиск». Основная разработка была сделана калифорнийским отделением Яндекса — Yandex Labs в сотрудничестве с программистами московского офиса.

Новый апельсиновый робот не прокачивает все страницы интернета, а извлекает из него свежий и сочный контент. Количество страниц в интернете бесконечно, поэтому важно их обходить в определенном порядке, чтобы в первую очередь были скачаны страницы с ценной информацией.

Веб — это не набор отдельных страниц, которые можно рассматривать независимо. Страницы сильно связаны друг с другом, данные о ссылках очень интенсивно используются в ранжировании и в отборе из всего бесконечного интернета страниц, интересных человеку.

Люди обычно попадают на новые урлы через первые страницы любимых сайтов или по ссылкам с других новых сообщений. Поисковый робот должен находить эти же ссылки, часто освежая старые страницы, и ходить по ссылкам из новых уже скачанных документов. Именно поэтому для получения качественных свежих данных робот просто обязан работать не только с новыми документами, а со всем вебом, зная его структуру.

Orange познает ссылочную структуру интернета. Для этого ему достаточно скачивать и переобходить только часть «старых» страниц — хоть и достаточно большую. Полученные знания позволяют Orange обнаруживать почти все новые страницы, выбирать из огромного их количества все хоть сколько-нибудь интересные и мгновенно рассчитывать для них ссылочные факторы ранжирования. Вслед за роботом Orange документы обрабатывает Real-Time поиск — он подхватывает выбранные документы, индексирует их и за секунды выкладывает на поиск.

С помощью Orange мы достигли значительного улучшения свежести базы. В будущем мы сделаем его еще более агрессивным: Orange будет использовать все доступные источники информации об изменениях в интернете и реагировать на эти изменения мгновенно.

Кластер Orange Crawler реализован как распределенная вычислительная система: на каждой машине одновременно выполняются сотни небольших задач, результаты их работы в виде маленьких асинхронных сообщений отправляются на другие машины. На всем кластере сегодня обрабатывается более 100 тысяч сообщений в секунду. Подобная архитектура позволяет исключить задержки при обработке Real-Time информации, очень надежна и дает неограниченные возможности к масштабированию кластера.

Свежесть — еще одна составляющая в поиске, где простой эффект достигается сложными средствами. Хорошо, когда смотрящий в зеркало видит не особенности зеркала, а только то, что в нем отражается.

http://clubs.ya.ru/company/

Федор Романенко и Екатерина Вебер, операторы сетевой соковыжималки


--------------------
клоновод


Поблагодарили: (1)
-2
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
seobomjru
seobomjru
сообщение 9.7.2010, 21:17; Ответить: seobomjru
Сообщение #2


баян, было уже сегодня
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
micakult
micakult
сообщение 9.7.2010, 21:24; Ответить: micakult
Сообщение #3


Хорошую новость не грех и два раза запостить wink.gif


--------------------
Я клон maximiliano83, anderson и bookjoy
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Vibos
Vibos
сообщение 9.7.2010, 21:32; Ответить: Vibos
Сообщение #4


Чувствую, пришло время новых глюков яши.
Хотя, может хоть в этот раз они все сделали нормально... Посмотрим, что с этого получится.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Alexsey
Alexsey
Topic Starter сообщение 9.7.2010, 21:32; Ответить: Alexsey
Сообщение #5


Ну есть повод обсудить тем кто спал ахх сорри


--------------------
клоновод
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ARsHi
ARsHi
сообщение 9.7.2010, 23:18; Ответить: ARsHi
Сообщение #6


спасибо автору! я бы не увидел первую тему
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Nikson
Nikson
сообщение 9.7.2010, 23:31; Ответить: Nikson
Сообщение #7


Спасибо!


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Xela51
Xela51
сообщение 10.7.2010, 0:31; Ответить: Xela51
Сообщение #8


Как будет какое нибудь неожиданное крупное событие. Проверим быстрый поиск в реальном времени!


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
kurara
kurara
сообщение 10.7.2010, 17:24; Ответить: kurara
Сообщение #9


Спасибо за статью... с удовольствием почитала, пошла применять)


--------------------
Дрессировка собак в Челябинске - форум о дрессировке.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Sergeev
Sergeev
сообщение 10.7.2010, 17:44; Ответить: Sergeev
Сообщение #10


У меня сегодня около 20 страниц влетело без апа. ДУмаю начинает проявляться, хотя скорее всего быстробот, но кто знает! ph34r.gif


--------------------
Забанен за негативное отношение к форуму и его администрации.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
2 страниц V   1 2 >
Открыть тему
Тема закрыта
2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Аналоги Яндекс Директ
3 kuz999 1717 26.3.2024, 14:12
автор: knezevolk
Открытая тема (нет новых ответов) Atlantic 2.0 - для безлимитного решения кликами Recaptcha и кликовой капчи Яндекс
3 waterworld 1613 14.3.2024, 12:29
автор: waterworld
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыСколько времени нужно для раскачки нового сайта?
29 metvekot 7984 8.3.2024, 15:41
автор: malamut
Открытая тема (нет новых ответов) Где дешевле клики в Яндекс.Директ или Таргет ВК?
2 rownong27 997 18.2.2024, 9:49
автор: rownong27
Открытая тема (нет новых ответов) Как в Яндекс.Директ задать для компании дневное ограничение бюджета?
0 rownong27 1002 16.2.2024, 16:18
автор: rownong27


 



RSS Текстовая версия Сейчас: 16.4.2024, 11:44
Дизайн