X   Сообщение сайта
(Сообщение закроется через 3 секунды)


 

Здравствуйте, гость ( Вход | Регистрация )

7 страниц V  < 1 2 3 4 5 6 7 >
Открыть тему
Тема закрыта
> Как сделать поисковик? =)
santis
santis
сообщение 21.7.2013, 23:13; Ответить: santis
Сообщение #12


Wandex, ага, спарсил все сайты, а что делать с ними, потом разберешьсяsmile.gif


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Wandex
Wandex
сообщение 21.7.2013, 23:17; Ответить: Wandex
Сообщение #13


santis, в смысле? Вы вводите запрос, коча подключается к Google, парсит результаты и выводит. Ничего сложного.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
rjksdfhe
rjksdfhe
сообщение 22.7.2013, 0:04; Ответить: rjksdfhe
Сообщение #14


Да я не против, попробуйте.

цены на фрилансеров или местные, или предполагемые, очень дешево.

(Wandex @ 21.7.2013, 23:17) *
santis, в смысле? Вы вводите запрос, коча подключается к Google, парсит результаты и выводит. Ничего сложного.

Если не брать в расчёт ограничения по запросам.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Wandex
Wandex
сообщение 22.7.2013, 0:07; Ответить: Wandex
Сообщение #15


rjksdfhe, это минималка. Там парсер+прокси, ничего сложного, 2 часа дел. Плюс оформление, у них цены сильно разнятся, нужно по сути 2 страницы: выдачи и поиска.
Однако смысл? Какой смысл в очередном поисковике с результатами от Google?

rjksdfhe, даже с десятком тысяч IP никто парсить Google в лоб не будет wink.gif
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
x64
x64
сообщение 22.7.2013, 0:30; Ответить: x64
Сообщение #16


(Wandex @ 22.7.2013, 0:07) *
даже с десятком тысяч IP никто парсить Google в лоб не будет

и это автоматически делает лажей утверждение:
(Wandex @ 21.7.2013, 23:09) *
програмная часть выйдет 100-150$ у среднего фрилансера

уж определитесь, либо 100$ и парсить в лоб, либо вести историю, сохранять результаты, на их основе формировать что-то своё и, как следствие, на несколько порядков более высокая цена.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Wandex
Wandex
сообщение 22.7.2013, 0:51; Ответить: Wandex
Сообщение #17


x64,
на их основе формировать что-то своё
- тут зависит от того, какая именно планируется работа с результатами. На коче не вижу никакой разницы с гуглом
Кешировать результаты - 10 минут времени
100$ и парсить в лоб
- немного упростил, для восприятия, но на сложность это не влияет. Реализация банальна - прокси + search.aol.net (например).
Учите, что там брал минимальные значения цен, без учета всяких плюшек.

Коча - красивая обертка над Google, но никак не полноценная поисковая машина. Если автору нужен поисковик, то в сторону кочи смотреть не стоит.

Сообщение отредактировал Wandex - 22.7.2013, 1:01
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
antonauslander
antonauslander
сообщение 22.7.2013, 2:34; Ответить: antonauslander
Сообщение #18


Имхо, парсить резхультаты любой из существующих ПС не будет рациональным по одной простой причине: Частые изминения и зависимость от третей стороны. Я представляю себе инфраструктуру и реализацию с максимальной эффективностью следующим образом:
Берём делаем паука на Python или Ruby и запускаем это на 5-6 VPS, так как наши пауки будут просто индексировать контент, то есть тупо пихать изминения и даты проверок в Redis или MongoDB, после всё это пишем в PostgreSQL БД, которая имеет репликацию Master/Slave, чтоб ускорить работу: Один сервер для чтения и ранжирования, а другой для записи, но с одинаковым контентом. Чтоб не мучаться вести учёт title, h1, a href и на этом строить ранжирование по алгоритмам, которые все имеются, а именно Sphinx как пример, который умеет работать с БД на прямую, то есть индексировать именно БД. После ещё было бы полезно иметь какой-то кэширующий элемент на key/value принципу хранения и работать с этой прослойкой на двухсторонней основе, то есть это тоже данные и по ним можно сделать ранжирование.

Относительно бюджетов тут сложно что либо говорить, так как изначально нужно проектировать всё с максимальной возможностью масштабирования... Как-то так в общих чертах, но думаю что можно развить эту тему.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Wandex
Wandex
сообщение 22.7.2013, 3:44; Ответить: Wandex
Сообщение #19


antonauslander,
Берём делаем паука на Python или Ruby

Из соображений производительности Си лучше подходит для этих целей
пауки будут просто индексировать контент, то есть тупо пихать изминения и даты проверок

Наивно. Забыли о ссылках, служебной информации и множестве других мелочей.
Sphinx как пример, который умеет работать с БД на прямую, то есть индексировать именно БД

В масштабах сети sphinx не подходит, однако это вы поймете, когда упретесь в кучу нюансов, про качество выдачи я молчу.
Спам фильтры, борьба с дубликатами, сжатие всего этого дела, низкая скорость вставки в Postgresql, особенно при репликации. проблемы с ранжированием.
Это все будет всплывать и всплывать...
Строить ПС в масштабах интернета на VDS'ках используя sphinx+postgesql+mongo/redis с ботами на python глупо. Без знаний теоретической части информационного поиска, дата маининга у вас навряд ли что-то получится.
Получите очень низкую скорость индексации, ужасное качество выдачи и полную неконкурентоспособность

Сообщение отредактировал Wandex - 22.7.2013, 3:47
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
antonauslander
antonauslander
сообщение 22.7.2013, 3:47; Ответить: antonauslander
Сообщение #20


Wandex, я предполагаю такой момент в своём ответе: Солюшена на жанный момент нет, а значит всё это надо будет пробивать собственным опытом, а как следствие я исходил из своих знаний и умений.

Относительно средств, которые я предполагаю использовать всё на том же уровне знаний и умений.

Если с чего-то начать, то быстрее будет появляться конкретика под которую можно будет адаптироваться, верно? (:


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Wandex
Wandex
сообщение 22.7.2013, 4:30; Ответить: Wandex
Сообщение #21


antonauslander,
Если с чего-то начать, то быстрее будет появляться конкретика под которую можно будет адаптироваться, верно? (:

Именно. Тут нужно с чего-то начать, но самая большая сложность не в этом. На определенном этапе становится ясно, что проект сложнее, чем ожидалось. Вы думаете, что завершите за месяц, но проходит год. Информации по теме очень мало, приходится переводить её с других языков, активно изучать отечественные публикации (тот же РОМИП).
У меня все затянулось на 5 лет, если не больше и каждый раз я думал "уже скоро". Процесс еще продолжается. О старте поисковой системы обьявленно, но уже год длится процесс отладки.
Основная трудность не в масштабировании, не в скорости поиска, а в качестве и идеях. Без постоянного притока идей, интерес утихнет за пару месяцев и произойдет то, что случилось с Cuil.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
7 страниц V  < 1 2 3 4 5 6 7 >
Открыть тему
Тема закрыта
12 чел. читают эту тему (гостей: 12, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Sape доноры - чем и как проверять?
9 DUbiev 524 Сегодня, 0:10
автор: jartalk
Горячая тема (нет новых ответов) Как перестать толстеть?
230 DocAnton64 17465 Вчера, 12:52
автор: EvilGomel
Открытая тема (нет новых ответов) Как YM и GA считают клики по ссылкам?
1 artstyle 119 26.2.2021, 19:13
автор: DUbiev
Открытая тема (нет новых ответов) Как набрать 10 000 минут просмотра в Яндекс Дзене и начать зарабатывать от 50 000 рублей
i-marketing.kz - Разбираем детально Яндекс Дзен на примере кейса
3 r0mZet 251 26.2.2021, 10:27
автор: Zhezkazganetcs
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыMail.ru как поисковик
скорее жив?
83 Osipec 17909 26.2.2021, 0:44
автор: Coffee


 



RSS Текстовая версия Сейчас: 1.3.2021, 2:40
Дизайн