Помощник
|
Как сделать поисковик? =) |
santis |
21.7.2013, 23:13;
Ответить: santis
Сообщение
#12
|
|
Wandex, ага, спарсил все сайты, а что делать с ними, потом разберешься
-------------------- |
|
|
Wandex |
21.7.2013, 23:17;
Ответить: Wandex
Сообщение
#13
|
|
santis, в смысле? Вы вводите запрос, коча подключается к Google, парсит результаты и выводит. Ничего сложного.
|
|
|
rjksdfhe |
22.7.2013, 0:04;
Ответить: rjksdfhe
Сообщение
#14
|
|
|
|
|
Wandex |
22.7.2013, 0:07;
Ответить: Wandex
Сообщение
#15
|
|
rjksdfhe, это минималка. Там парсер+прокси, ничего сложного, 2 часа дел. Плюс оформление, у них цены сильно разнятся, нужно по сути 2 страницы: выдачи и поиска.
Однако смысл? Какой смысл в очередном поисковике с результатами от Google? rjksdfhe, даже с десятком тысяч IP никто парсить Google в лоб не будет |
|
|
x64 |
22.7.2013, 0:30;
Ответить: x64
Сообщение
#16
|
|
даже с десятком тысяч IP никто парсить Google в лоб не будет и это автоматически делает лажей утверждение: програмная часть выйдет 100-150$ у среднего фрилансера уж определитесь, либо 100$ и парсить в лоб, либо вести историю, сохранять результаты, на их основе формировать что-то своё и, как следствие, на несколько порядков более высокая цена. |
|
|
Wandex |
22.7.2013, 0:51;
Ответить: Wandex
Сообщение
#17
|
|
x64,
на их основе формировать что-то своё - тут зависит от того, какая именно планируется работа с результатами. На коче не вижу никакой разницы с гугломКешировать результаты - 10 минут времени 100$ и парсить в лоб - немного упростил, для восприятия, но на сложность это не влияет. Реализация банальна - прокси + search.aol.net (например). Учите, что там брал минимальные значения цен, без учета всяких плюшек. Коча - красивая обертка над Google, но никак не полноценная поисковая машина. Если автору нужен поисковик, то в сторону кочи смотреть не стоит. Сообщение отредактировал Wandex - 22.7.2013, 1:01 |
|
|
antonauslander |
22.7.2013, 2:34;
Ответить: antonauslander
Сообщение
#18
|
|
Имхо, парсить резхультаты любой из существующих ПС не будет рациональным по одной простой причине: Частые изминения и зависимость от третей стороны. Я представляю себе инфраструктуру и реализацию с максимальной эффективностью следующим образом:
Берём делаем паука на Python или Ruby и запускаем это на 5-6 VPS, так как наши пауки будут просто индексировать контент, то есть тупо пихать изминения и даты проверок в Redis или MongoDB, после всё это пишем в PostgreSQL БД, которая имеет репликацию Master/Slave, чтоб ускорить работу: Один сервер для чтения и ранжирования, а другой для записи, но с одинаковым контентом. Чтоб не мучаться вести учёт title, h1, a href и на этом строить ранжирование по алгоритмам, которые все имеются, а именно Sphinx как пример, который умеет работать с БД на прямую, то есть индексировать именно БД. После ещё было бы полезно иметь какой-то кэширующий элемент на key/value принципу хранения и работать с этой прослойкой на двухсторонней основе, то есть это тоже данные и по ним можно сделать ранжирование. Относительно бюджетов тут сложно что либо говорить, так как изначально нужно проектировать всё с максимальной возможностью масштабирования... Как-то так в общих чертах, но думаю что можно развить эту тему. -------------------- |
|
|
Wandex |
22.7.2013, 3:44;
Ответить: Wandex
Сообщение
#19
|
|
antonauslander,
Берём делаем паука на Python или Ruby Из соображений производительности Си лучше подходит для этих целей пауки будут просто индексировать контент, то есть тупо пихать изминения и даты проверок Наивно. Забыли о ссылках, служебной информации и множестве других мелочей. Sphinx как пример, который умеет работать с БД на прямую, то есть индексировать именно БД В масштабах сети sphinx не подходит, однако это вы поймете, когда упретесь в кучу нюансов, про качество выдачи я молчу. Спам фильтры, борьба с дубликатами, сжатие всего этого дела, низкая скорость вставки в Postgresql, особенно при репликации. проблемы с ранжированием. Это все будет всплывать и всплывать... Строить ПС в масштабах интернета на VDS'ках используя sphinx+postgesql+mongo/redis с ботами на python глупо. Без знаний теоретической части информационного поиска, дата маининга у вас навряд ли что-то получится. Получите очень низкую скорость индексации, ужасное качество выдачи и полную неконкурентоспособность Сообщение отредактировал Wandex - 22.7.2013, 3:47 |
|
|
antonauslander |
22.7.2013, 3:47;
Ответить: antonauslander
Сообщение
#20
|
|
Wandex, я предполагаю такой момент в своём ответе: Солюшена на жанный момент нет, а значит всё это надо будет пробивать собственным опытом, а как следствие я исходил из своих знаний и умений.
Относительно средств, которые я предполагаю использовать всё на том же уровне знаний и умений. Если с чего-то начать, то быстрее будет появляться конкретика под которую можно будет адаптироваться, верно? (: -------------------- |
|
|
Wandex |
22.7.2013, 4:30;
Ответить: Wandex
Сообщение
#21
|
|
antonauslander,
Если с чего-то начать, то быстрее будет появляться конкретика под которую можно будет адаптироваться, верно? (: Именно. Тут нужно с чего-то начать, но самая большая сложность не в этом. На определенном этапе становится ясно, что проект сложнее, чем ожидалось. Вы думаете, что завершите за месяц, но проходит год. Информации по теме очень мало, приходится переводить её с других языков, активно изучать отечественные публикации (тот же РОМИП). У меня все затянулось на 5 лет, если не больше и каждый раз я думал "уже скоро". Процесс еще продолжается. О старте поисковой системы обьявленно, но уже год длится процесс отладки. Основная трудность не в масштабировании, не в скорости поиска, а в качестве и идеях. Без постоянного притока идей, интерес утихнет за пару месяцев и произойдет то, что случилось с Cuil. |
|
|
|
Похожие темы
Тема | Ответов | Автор | Просмотров | Последний ответ | |
---|---|---|---|---|---|
Как вы отдыхаете от работы за компом | 151 | adw-kupon.ru | 19809 | Сегодня, 13:52 автор: Vmir |
|
Как вы бросили работу и перешли на заработок с сайтов? | 20 | uahomka | 3441 | Сегодня, 11:54 автор: Skyworker |
|
Как в пушсетках покупают по 100-200 тысяч кликов за день? | 1 | Boymaster | 510 | Сегодня, 11:45 автор: Skyworker |
|
Как вывести деньги в Украине с заблокированного Юмани ? | 30 | freeax | 5005 | 20.4.2024, 16:49 автор: Liudmila |
|
Арбитражники, как ведете учет расходов и доходов? | 13 | Boymaster | 2017 | 20.4.2024, 15:06 автор: Boymaster |
Текстовая версия | Сейчас: 23.4.2024, 21:05 |