X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

7 страниц V  < 1 2 3 4 5 6 7 >
Открыть тему
Тема закрыта
> Как сделать поисковик? =)
santis
santis
сообщение 21.7.2013, 23:13; Ответить: santis
Сообщение #12


Wandex, ага, спарсил все сайты, а что делать с ними, потом разберешьсяsmile.gif


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Wandex
Wandex
сообщение 21.7.2013, 23:17; Ответить: Wandex
Сообщение #13


santis, в смысле? Вы вводите запрос, коча подключается к Google, парсит результаты и выводит. Ничего сложного.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
rjksdfhe
rjksdfhe
сообщение 22.7.2013, 0:04; Ответить: rjksdfhe
Сообщение #14


Да я не против, попробуйте.

цены на фрилансеров или местные, или предполагемые, очень дешево.

(Wandex @ 21.7.2013, 23:17) *
santis, в смысле? Вы вводите запрос, коча подключается к Google, парсит результаты и выводит. Ничего сложного.

Если не брать в расчёт ограничения по запросам.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Wandex
Wandex
сообщение 22.7.2013, 0:07; Ответить: Wandex
Сообщение #15


rjksdfhe, это минималка. Там парсер+прокси, ничего сложного, 2 часа дел. Плюс оформление, у них цены сильно разнятся, нужно по сути 2 страницы: выдачи и поиска.
Однако смысл? Какой смысл в очередном поисковике с результатами от Google?

rjksdfhe, даже с десятком тысяч IP никто парсить Google в лоб не будет wink.gif
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
x64
x64
сообщение 22.7.2013, 0:30; Ответить: x64
Сообщение #16


(Wandex @ 22.7.2013, 0:07) *
даже с десятком тысяч IP никто парсить Google в лоб не будет

и это автоматически делает лажей утверждение:
(Wandex @ 21.7.2013, 23:09) *
програмная часть выйдет 100-150$ у среднего фрилансера

уж определитесь, либо 100$ и парсить в лоб, либо вести историю, сохранять результаты, на их основе формировать что-то своё и, как следствие, на несколько порядков более высокая цена.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Wandex
Wandex
сообщение 22.7.2013, 0:51; Ответить: Wandex
Сообщение #17


x64,
на их основе формировать что-то своё
- тут зависит от того, какая именно планируется работа с результатами. На коче не вижу никакой разницы с гуглом
Кешировать результаты - 10 минут времени
100$ и парсить в лоб
- немного упростил, для восприятия, но на сложность это не влияет. Реализация банальна - прокси + search.aol.net (например).
Учите, что там брал минимальные значения цен, без учета всяких плюшек.

Коча - красивая обертка над Google, но никак не полноценная поисковая машина. Если автору нужен поисковик, то в сторону кочи смотреть не стоит.

Сообщение отредактировал Wandex - 22.7.2013, 1:01
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
antonauslander
antonauslander
сообщение 22.7.2013, 2:34; Ответить: antonauslander
Сообщение #18


Имхо, парсить резхультаты любой из существующих ПС не будет рациональным по одной простой причине: Частые изминения и зависимость от третей стороны. Я представляю себе инфраструктуру и реализацию с максимальной эффективностью следующим образом:
Берём делаем паука на Python или Ruby и запускаем это на 5-6 VPS, так как наши пауки будут просто индексировать контент, то есть тупо пихать изминения и даты проверок в Redis или MongoDB, после всё это пишем в PostgreSQL БД, которая имеет репликацию Master/Slave, чтоб ускорить работу: Один сервер для чтения и ранжирования, а другой для записи, но с одинаковым контентом. Чтоб не мучаться вести учёт title, h1, a href и на этом строить ранжирование по алгоритмам, которые все имеются, а именно Sphinx как пример, который умеет работать с БД на прямую, то есть индексировать именно БД. После ещё было бы полезно иметь какой-то кэширующий элемент на key/value принципу хранения и работать с этой прослойкой на двухсторонней основе, то есть это тоже данные и по ним можно сделать ранжирование.

Относительно бюджетов тут сложно что либо говорить, так как изначально нужно проектировать всё с максимальной возможностью масштабирования... Как-то так в общих чертах, но думаю что можно развить эту тему.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Wandex
Wandex
сообщение 22.7.2013, 3:44; Ответить: Wandex
Сообщение #19


antonauslander,
Берём делаем паука на Python или Ruby

Из соображений производительности Си лучше подходит для этих целей
пауки будут просто индексировать контент, то есть тупо пихать изминения и даты проверок

Наивно. Забыли о ссылках, служебной информации и множестве других мелочей.
Sphinx как пример, который умеет работать с БД на прямую, то есть индексировать именно БД

В масштабах сети sphinx не подходит, однако это вы поймете, когда упретесь в кучу нюансов, про качество выдачи я молчу.
Спам фильтры, борьба с дубликатами, сжатие всего этого дела, низкая скорость вставки в Postgresql, особенно при репликации. проблемы с ранжированием.
Это все будет всплывать и всплывать...
Строить ПС в масштабах интернета на VDS'ках используя sphinx+postgesql+mongo/redis с ботами на python глупо. Без знаний теоретической части информационного поиска, дата маининга у вас навряд ли что-то получится.
Получите очень низкую скорость индексации, ужасное качество выдачи и полную неконкурентоспособность

Сообщение отредактировал Wandex - 22.7.2013, 3:47
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
antonauslander
antonauslander
сообщение 22.7.2013, 3:47; Ответить: antonauslander
Сообщение #20


Wandex, я предполагаю такой момент в своём ответе: Солюшена на жанный момент нет, а значит всё это надо будет пробивать собственным опытом, а как следствие я исходил из своих знаний и умений.

Относительно средств, которые я предполагаю использовать всё на том же уровне знаний и умений.

Если с чего-то начать, то быстрее будет появляться конкретика под которую можно будет адаптироваться, верно? (:


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Wandex
Wandex
сообщение 22.7.2013, 4:30; Ответить: Wandex
Сообщение #21


antonauslander,
Если с чего-то начать, то быстрее будет появляться конкретика под которую можно будет адаптироваться, верно? (:

Именно. Тут нужно с чего-то начать, но самая большая сложность не в этом. На определенном этапе становится ясно, что проект сложнее, чем ожидалось. Вы думаете, что завершите за месяц, но проходит год. Информации по теме очень мало, приходится переводить её с других языков, активно изучать отечественные публикации (тот же РОМИП).
У меня все затянулось на 5 лет, если не больше и каждый раз я думал "уже скоро". Процесс еще продолжается. О старте поисковой системы обьявленно, но уже год длится процесс отладки.
Основная трудность не в масштабировании, не в скорости поиска, а в качестве и идеях. Без постоянного притока идей, интерес утихнет за пару месяцев и произойдет то, что случилось с Cuil.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
7 страниц V  < 1 2 3 4 5 6 7 >
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Как вы отдыхаете от работы за компом
151 adw-kupon.ru 19809 Сегодня, 13:52
автор: Vmir
Открытая тема (нет новых ответов) Как вы бросили работу и перешли на заработок с сайтов?
20 uahomka 3441 Сегодня, 11:54
автор: Skyworker
Открытая тема (нет новых ответов) Как в пушсетках покупают по 100-200 тысяч кликов за день?
1 Boymaster 510 Сегодня, 11:45
автор: Skyworker
Горячая тема (нет новых ответов) Как вывести деньги в Украине с заблокированного Юмани ?
30 freeax 5005 20.4.2024, 16:49
автор: Liudmila
Открытая тема (нет новых ответов) Арбитражники, как ведете учет расходов и доходов?
13 Boymaster 2017 20.4.2024, 15:06
автор: Boymaster


 



RSS Текстовая версия Сейчас: 23.4.2024, 21:05
Дизайн