Помощник
|
Как сделать поисковик? =) |
antonauslander |
22.7.2013, 5:08;
Ответить: antonauslander
Сообщение
#22
|
|
Wandex, я полностью согласен с утверждениями выше, но в тоже время в любом проекте должна быть итерационная этапность, так как обычные сайты закаляются в бизнесс-процессе, а такого рода идеи должны закаляться в практике. Кто мешает начать с малого? Начать с title и h1 и вхожденями по контенту, который вне перечисленных тэгов, потом докрутить head, потом докрутить robots.txt, а после уже sitemap.xml. Загон данных в БД может быть разными пауками: Си, Руби, Питон, ПХП, Эрланг... Тут речь идёт о том, чтоб начать, а начать можно с простого, то есть не конкурирующего в реализации продукта.
В таком варианте появится огромное количество метрик, которые подскажут куда двигаться и что делать, как это делать и когда это делать. Главное начать, а там уже корректировать продакшен план и дополнять его полученными данными. Если замахнуться на реализацию ранжирования без учёта ссылок, то можно получить или полный шлак или в конечном счёте внести новые принципы в ПС и реализацию ПС. Основной проблемой вижу то, что нет моделей, которые обкатываются, а самое революционное что появилось за 20 или сколько там лет - поведенческие факторы. Практика даст свои плоды, надо просто начать. -------------------- |
|
|
windnordru |
22.7.2013, 12:05;
Ответить: windnordru
Сообщение
#23
|
|
Дешевле будет купить Яндекс...
|
|
|
Wandex |
22.7.2013, 12:48;
Ответить: Wandex
Сообщение
#24
|
|
Практика даст свои плоды, надо просто начать. antonauslander, поведенческие факторы далеко не самое революционное, за 20 лет пожалуй революцию совершило активное внедрение обучения ранжированию. "Если замахнуться на реализацию ранжирования без учёта ссылок, то можно получить или полный шлак" - вы переоцениваете значимость ссылок, даже без ссылочного ранжирования, поиск основанный на статистических метриках даёт неплохие результаты. Немало проблем составляет спам, индексация страниц поиска, нецелесообразное использование robots.txt и дубликаты. Из-за легкомыслия админов при составлении robots, происходит неверная индексация, пользователи теряют много уникальной и полезной информации. Загон данных в БД может быть разными пауками: Си, Руби, Питон, ПХП, Эрланг... Тут речь идёт о том, чтоб начать, а начать можно с простого, то есть не конкурирующего в реализации продукта. Все верно, также можно использовать тех. ресурсы добровольцев для индексации. Практика безусловно даст плоды и огромный опыт Сообщение отредактировал Wandex - 22.7.2013, 12:49 |
|
|
ostrov |
22.7.2013, 19:40;
Ответить: ostrov
Сообщение
#25
|
|
Зачем вообще изобретать велосипед?
-------------------- |
|
|
dutchakdev |
23.7.2013, 15:57;
Ответить: dutchakdev
Сообщение
#26
|
|
На моей практике приходилось делать кравлер достаточного крупного обьема данных, на выходе что-то похожее на поисковик вышло, но немного узко специализировано.
Что нужно? Много времени Деньги на сервера Программист (в моем случае я) Задать вопрос, тебе это точно нужно? Много времени Мини мат часть Поисковик это не просто поиск по словам в базе, это сложный, алгоритмированый механизм поиска данных, с правилами, возможно использующий свою базу данных (самописную), со специализированой структурой. Если делать что-то типа аля Яндекс и Гугл, то лучше использовать уже описаны алгоритмы, фильтры если таки есть, кроме того должны быть какие-то опенсорс проекты. Вообще в этом деле главная проблема и есть - правильный алгоритм ранжирования, выдачи результатов и иднексации. Пару ссылок http://sourceforge.net/projects/openwebspider/ http://scrapy.org/ https://code.google.com/p/crawler4j/ http://java-source.net/open-source/crawlers Wandex, зачем приводить пример горшка для цветов если говорили за велосипеды и о их колесах? Человек спросил за поисковую систему, а не сколько у фрилансера стоит парсер для сайта... -------------------- |
|
|
Wandex |
23.7.2013, 18:24;
Ответить: Wandex
Сообщение
#27
|
|
dutchakdev, читайте внимательнее, суть вопроса раскрыл в #4 посте. #10 - это ответ на другоее сообщение
|
|
|
dutchakdev |
23.7.2013, 18:52;
Ответить: dutchakdev
Сообщение
#28
|
|
Wandex, извините, все понятно теперь
-------------------- |
|
|
antonauslander |
24.7.2013, 17:16;
Ответить: antonauslander
Сообщение
#29
|
|
Ребята, если среди тех, кто подписан на тред есть люди, которые смыслят в работе ПС ныне работающих (G и Y), то будет интересно пообщаться, так как я и мой товарищ решили сделать некий аналог ПС, точнее сказать прототип, который покажет все практические узкие места в данном вопросе: БД, размер БД, скорость работы, индексация, ранжирование и вообще отработка таких вещей как микроразметка и прочие плюшки.
Если подробней: Нужен человек, который расскажет про ПС со стороны оптимизатора, что сейчас приоритет в работе по продвижению и какие слабые места есть и какие нелогичные моменты и прочее... -------------------- |
|
|
Wandex |
24.7.2013, 18:37;
Ответить: Wandex
Сообщение
#30
|
|
antonauslander, могу подсказать, как разработчик. Сейчас скину инвайт в лс, посмотрите наработки, возможно смотивирует вас
Сообщение отредактировал Wandex - 24.7.2013, 18:40 |
|
|
GoGetTop |
31.7.2013, 22:15;
Ответить: GoGetTop
Сообщение
#31
|
|
А что мешает спарсить выдачу и по перекрестным запросам вычислить сайты нужно тематики?
-------------------- |
|
|
|
Похожие темы
Тема | Ответов | Автор | Просмотров | Последний ответ | |
---|---|---|---|---|---|
Арбитражники, как ведете учет расходов и доходов? | 12 | Boymaster | 1925 | Вчера, 21:03 автор: MisterBit |
|
Как вывести деньги в Украине с заблокированного Юмани ? | 29 | freeax | 4817 | 17.4.2024, 1:19 автор: sergio11 |
|
Как вы отдыхаете от работы за компом | 148 | adw-kupon.ru | 19715 | 8.4.2024, 10:37 автор: Skyworker |
|
Как вы бросили работу и перешли на заработок с сайтов? | 18 | uahomka | 3109 | 5.4.2024, 5:53 автор: Skyworker |
|
Как бездомные хранят деньги? | 81 | metvekot | 13660 | 31.3.2024, 12:44 автор: Boymaster |
Текстовая версия | Сейчас: 20.4.2024, 8:04 |