X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

7 страниц V  < 1 2 3 4 5 6 7 >
Открыть тему
Тема закрыта
> Как сделать поисковик? =)
antonauslander
antonauslander
сообщение 22.7.2013, 5:08; Ответить: antonauslander
Сообщение #22


Wandex, я полностью согласен с утверждениями выше, но в тоже время в любом проекте должна быть итерационная этапность, так как обычные сайты закаляются в бизнесс-процессе, а такого рода идеи должны закаляться в практике. Кто мешает начать с малого? Начать с title и h1 и вхожденями по контенту, который вне перечисленных тэгов, потом докрутить head, потом докрутить robots.txt, а после уже sitemap.xml. Загон данных в БД может быть разными пауками: Си, Руби, Питон, ПХП, Эрланг... Тут речь идёт о том, чтоб начать, а начать можно с простого, то есть не конкурирующего в реализации продукта.

В таком варианте появится огромное количество метрик, которые подскажут куда двигаться и что делать, как это делать и когда это делать.

Главное начать, а там уже корректировать продакшен план и дополнять его полученными данными. Если замахнуться на реализацию ранжирования без учёта ссылок, то можно получить или полный шлак или в конечном счёте внести новые принципы в ПС и реализацию ПС.

Основной проблемой вижу то, что нет моделей, которые обкатываются, а самое революционное что появилось за 20 или сколько там лет - поведенческие факторы.

Практика даст свои плоды, надо просто начать.


--------------------


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
windnordru
windnordru
сообщение 22.7.2013, 12:05; Ответить: windnordru
Сообщение #23


Дешевле будет купить Яндекс...
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Wandex
Wandex
сообщение 22.7.2013, 12:48; Ответить: Wandex
Сообщение #24


Практика даст свои плоды, надо просто начать.



antonauslander, поведенческие факторы далеко не самое революционное, за 20 лет пожалуй революцию совершило активное внедрение обучения ранжированию.
"Если замахнуться на реализацию ранжирования без учёта ссылок, то можно получить или полный шлак" - вы переоцениваете значимость ссылок, даже без ссылочного ранжирования, поиск основанный на статистических метриках даёт неплохие результаты.
Немало проблем составляет спам, индексация страниц поиска, нецелесообразное использование robots.txt и дубликаты. Из-за легкомыслия админов при составлении robots, происходит неверная индексация, пользователи теряют много уникальной и полезной информации.
Загон данных в БД может быть разными пауками: Си, Руби, Питон, ПХП, Эрланг... Тут речь идёт о том, чтоб начать, а начать можно с простого, то есть не конкурирующего в реализации продукта.

Все верно, также можно использовать тех. ресурсы добровольцев для индексации.
Практика безусловно даст плоды и огромный опыт smile.gif

Сообщение отредактировал Wandex - 22.7.2013, 12:49


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ostrov
ostrov
сообщение 22.7.2013, 19:40; Ответить: ostrov
Сообщение #25


Зачем вообще изобретать велосипед?


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
dutchakdev
dutchakdev
сообщение 23.7.2013, 15:57; Ответить: dutchakdev
Сообщение #26


На моей практике приходилось делать кравлер достаточного крупного обьема данных, на выходе что-то похожее на поисковик вышло, но немного узко специализировано.

Что нужно?
Много времени
Деньги на сервера
Программист (в моем случае я)
Задать вопрос, тебе это точно нужно?
Много времени

Мини мат часть
Поисковик это не просто поиск по словам в базе, это сложный, алгоритмированый механизм поиска данных,
с правилами, блекджеком и шлюхами исключениями и приоритетами
возможно использующий свою базу данных (самописную), со специализированой структурой.

Если делать что-то типа аля Яндекс и Гугл, то лучше использовать уже описаны алгоритмы, фильтры если таки есть,
кроме того должны быть какие-то опенсорс проекты. Вообще в этом деле главная проблема и есть - правильный алгоритм ранжирования, выдачи результатов и иднексации.

Пару ссылок
http://sourceforge.net/projects/openwebspider/
http://scrapy.org/
https://code.google.com/p/crawler4j/
http://java-source.net/open-source/crawlers


Wandex, зачем приводить пример горшка для цветов если говорили за велосипеды и о их колесах?
Человек спросил за поисковую систему, а не сколько у фрилансера стоит парсер для сайта...


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Wandex
Wandex
сообщение 23.7.2013, 18:24; Ответить: Wandex
Сообщение #27


dutchakdev, читайте внимательнее, суть вопроса раскрыл в #4 посте. #10 - это ответ на другоее сообщение
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
dutchakdev
dutchakdev
сообщение 23.7.2013, 18:52; Ответить: dutchakdev
Сообщение #28


Wandex, извините, все понятно теперь


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
antonauslander
antonauslander
сообщение 24.7.2013, 17:16; Ответить: antonauslander
Сообщение #29


Ребята, если среди тех, кто подписан на тред есть люди, которые смыслят в работе ПС ныне работающих (G и Y), то будет интересно пообщаться, так как я и мой товарищ решили сделать некий аналог ПС, точнее сказать прототип, который покажет все практические узкие места в данном вопросе: БД, размер БД, скорость работы, индексация, ранжирование и вообще отработка таких вещей как микроразметка и прочие плюшки.

Если подробней: Нужен человек, который расскажет про ПС со стороны оптимизатора, что сейчас приоритет в работе по продвижению и какие слабые места есть и какие нелогичные моменты и прочее...


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Wandex
Wandex
сообщение 24.7.2013, 18:37; Ответить: Wandex
Сообщение #30


antonauslander, могу подсказать, как разработчик. Сейчас скину инвайт в лс, посмотрите наработки, возможно смотивирует вас smile.gif

Сообщение отредактировал Wandex - 24.7.2013, 18:40
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
GoGetTop
GoGetTop
сообщение 31.7.2013, 22:15; Ответить: GoGetTop
Сообщение #31


А что мешает спарсить выдачу и по перекрестным запросам вычислить сайты нужно тематики?


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
7 страниц V  < 1 2 3 4 5 6 7 >
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Sape доноры - чем и как проверять?
9 DUbiev 514 Сегодня, 0:10
автор: jartalk
Горячая тема (нет новых ответов) Как перестать толстеть?
230 DocAnton64 17440 Вчера, 12:52
автор: EvilGomel
Открытая тема (нет новых ответов) Как YM и GA считают клики по ссылкам?
1 artstyle 115 26.2.2021, 19:13
автор: DUbiev
Открытая тема (нет новых ответов) Как набрать 10 000 минут просмотра в Яндекс Дзене и начать зарабатывать от 50 000 рублей
i-marketing.kz - Разбираем детально Яндекс Дзен на примере кейса
3 r0mZet 243 26.2.2021, 10:27
автор: Zhezkazganetcs
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыMail.ru как поисковик
скорее жив?
83 Osipec 17895 26.2.2021, 0:44
автор: Coffee


 



RSS Текстовая версия Сейчас: 1.3.2021, 1:00
Дизайн