ПоискПочтаКалендарьДеньгиМой КругФоткиНародОткрытки
Войти
Чтобы комментировать записи и дружить с другими пользователями, нужна своя страница на Я.ру.
Если у вас уже есть страница на Я.ру, введите логин и пароль. Если страницы ещё нет — создайте!
Добавить в друзья

Сегодня на highload рассказывал про поиск

25 сентября 2007 года, 01:14
Сегодня на highload читал доклад про поиск. Вообщем, что могу сказать, если честно никогда не понимал, что я НА СТОЛЬКО быстро говорю. Трындец, какой-то. Плюс, очень много всяких мусорных слов. Нужно над собой работать. Верней над дикцией.



В начала очень волновался, потому как прямо передо мной в первом ряду сидел человек который постоянно морщился. Смотря на него, думал что НИКОМУ нифига не понятно. Успокоился где-то после 1/3 презентации. Вопросы показали, что большая часть людей много что поняли, и спрашивали интересные вещи.

Но в принципе вроде не отвратительно получилось - могло быть хуже.

После презентации ходили бухать в Последнюю Каплю, в основном пили с Рамблером. Mail.ru на конференции совсем не было, не отпустили что ли.

upd: Вот тут комментарии про то, по поводу чего народ угорал. Только по этому комментарию понял что смешного в фразе "большие циски", совершенно без задней мысли написал :)

upd2: слайды нифига не видно - вот здесь презентация - для удобства я в ней расцензорил запрещенный слайд. В комментариях я там написал для себя тезисы - и напечатал их на бумажке - но реально на них не смотрел - невозможно было этого делать. Можете посмотреть где были заготовленные фразы, а где нет.
 
 
 
48 ответов
  • Был Горнал, это ж главное :)
  • :) Молодец! Все предельно понятно. Если бы презентацию вел бы Себрант - он только все бы запутал. Если не употреблять словоформы "фигня", "фиговый" и "офигенный", слов-паразитов никто и не заметит ;)

    С Днем Рождения!!! :0)
  • userpic

    sottovoce

    03:35 ссылка
    Видел уже как минимум два отзыва, где твое выступление отдельно выделили как очень интересное на общем фоне остального малоинтересного.
    Так что прочь самобичевание. :-)
  • userpic

    Hrundik

    12:00 ссылка
    молодец, все по-честному, без показухи :)
    А я и не заметил, что ты быстро говоришь :)

    во время пьянок ты разговариваешь абсолютно так же :)
  • userpic

    virtan

    13:15 ссылка
    Самое главное - контент интереснейший. И подан с правильным развитием. Очень интересно было слушать. А дикция - дело поправимое...
  • userpic

    saidnavy

    13:32 ссылка
    Действительно слушать очень тяжело доклад. Работать надо над выступлением и речью. Я бы, видимо, не дослушал доклад до конца. Во всяком случае смотреть запись долго не смог. А так тема и сам доклад интересный практически ничего лишнего и все по теме.

    Удачных дальнейших выступлений ;)
  • userpic

    RSBeerman

    14:28 ссылка
    Ужоснах!
    Мдя... :о(
  • userpic

    Алексей Поляков

    26 сентября, 00:29 ссылка
    Очень любопытно, и изложено доступно.
    Только некоторые вопросы из зала не слышны.

    Я вот не понял, (если в ваших терминах), откуда утверждение что нельзя индекс раскладывать так, чтобы на разных машинах лежали куски, про которые известно, какую они информацию содержат?
    Вроде же Гугль всю дорогу так и раскладывает - там куски инвертированного индекса, соответствующие разным словам, живут в разных местах, да?
    • userpic

      Anatolix

      26 сентября, 02:40 ссылка
      Вот смотри - у меня есть слово А - оно в одном индексе, и если слово Б в другом. Оба слова высоко-частотные и встречаются на миллионах документов. Мне что и правда при запросе "А Б" потащить миллион документов с одной машины на другую, чтобы определить пересечение, или есть способы проще?
      • userpic

        Бстлкв.Отвчщ.Рбт.

        26 сентября, 11:30 ссылка
        хмм, а хранить для высокчастостных слов еще и индексы пересечений?
        по-другому спросшу - назвать слово "А Б" отдельным словом, и построить для него индекс.
        • userpic

          Anatolix

          26 сентября, 12:27 ссылка
          И так для всех комбинаций слов?
          • userpic

            Бстлкв.Отвчщ.Рбт.

            26 сентября, 12:40 ссылка
            чет мне подсказывает, что чем больше "составное слово", тем меньше будет для него индекс :))

            Но зачем же для всех?  Только для тех, кому нужен boost.
            - а если всёравно куда попасть?
            - то значит всёравно куда идти...

            :))



            • userpic

              Anatolix

              26 сентября, 13:39 ссылка
              Да. Только по факту здесь то же самое что и считать интеграл до бесконечности от уменьшающейся функции. Для 1/x конечный или нет?

              Так же и со словами. То, что оно уменьшается для каждого отдельно не значит, что оно не увелививает объем данных.

              На вскидку из 100 популярных слов можно составить столько вариантов, что атомов во вселенной не хватит их кишки записать. Тем не менее любой такой запрос будет выполнен быстро.

              • userpic

                Бстлкв.Отвчщ.Рбт.

                26 сентября, 13:49 ссылка
                значит нужно брать данные в руки, да прикидывать (если нужно, конечно) более конкретно.

                я бы "из 100 популярных" не составлял "столько вариантов".  Зачем?  Это же простая суперпозиция.  Из 100 популярных, будет всего 10000 сочетаний по два.

                Размер 100 индексов известен, размер 10000 пересечений - нужно прикинуть (в крайнем случае, один раз подсчитать).

                Дальше, я бы прикинул, насколько часто эти популярные сочетаются по два, и попытался расчитать, насколько наличие "сочетательных индексов" будет заметно в сокращении накладных расходов.  В сравнении с тем, что есть сейчас.

                Конечно вся эта возня может не иметь практической выгоды, но ведь может и иметь.
                перефразируя Жванецкого - "Вы же специлалисты!" /Монолог подрывника/
                • userpic

                  Anatolix

                  26 сентября, 14:46 ссылка
                  Ну и соотвественно 100*10000 по три(добавить третье слово). 100M по 4 и так далее(взять 2 кишки по 2 и пересечь). продолжить до офигения. Вспомнить что слопслов больше чем 10 - поэтому количество документов почти не уменьшается
                  (в гугле запрос "and the is in on or i am are a") дает чуть меньше 1 миллиарда документов, т.е. ни одна из попарных кишок не меньше по длине.

                  P.S. Чтобы окончательно всё запутать вспомни, что документы уже давно не ищутся просто по наличию всех слов. Там есть поиск по кворуму, поиск по близкорасположенным словам и поиск по точной фразе, и подумай как их реализовывать в предложенной модели.

                  P.P.S. В поиске над практической выгодой все думали - но никто не использует. Кишки по 2 словам бывают - но индекс так не режут. Тем не менее я придумал как из этого извлечь другую практическую пользу: не хочешь прийти к нам в гости в Яндекс и обсудить животрепещущую тему поисковых потрохов. Мы тебя напоим кофеем и чаем, а ближе к вечеру возможно и коньяком. Тематика технических разговоров примерно перечислена здесь
                  • userpic

                    Бстлкв.Отвчщ.Рбт.

                    26 сентября, 15:14 ссылка
                    по моим ощущениям, "до офигения" продолжать практического смысла нет.

                    на данном уровне абстракции, любой критерий поиска, можно назвать "словом", и оценочные расчеты модели делать сходя из этого.
                    Разумеется, прийдётся где-то провести границу, что "вот эти виды запросов", мы будем раскладывать по-другим индексам.

                    Ыыыы...  Спроси у Бобука, сколько времени я уже "хочу прийти попить кофе" :)) Как-то, всё не складывается.  Навскидку, в новом офисе еще ни разу не был ;(

                    Но серьезные разговоры со мной вот так сходу говорить сложно, я ооочень давно совершенно в другой теме ;(
                    • userpic

                      Anatolix

                      26 сентября, 15:40 ссылка
                      Нет уж выбирай - либо ты "продолжаешь до офигения" и у тебя все запросы работают быстро но не хватаем место под базу. Либо ты не продолжаешь и те запросы с которыми ты не продолжил работают медленно и таскают гигабайты данных. Либо поступить по принципу "если твоя лошадь сдохла - слезь с нее", и сделать поиск как принято.

                      Если хочется удешевить отдельны запросы их нужно закэшировать, т.е. положить первые 100 страниц уже готовых ответов а не кишку в 1G документов.
      • userpic

        Алексей Поляков

        26 сентября, 12:04 ссылка
        Если действительно нужно полное пересечение - то видимо тащить (ну и кешировать особо вредоносные куски на каждой машине).
        Ведь в случае если просто запрос "А" - встречается на миллионах документов - то те же миллионы будут притащены на метапоисковый сервер, то есть объем прокачки по сети тот же, и в принципе подобная операция уже считается в системе допустимой? :)
        • userpic

          Anatolix

          26 сентября, 12:31 ссылка
          на метапоисковый сервер никогда не таскается больше нескольких тысяч документов.
          Всегда берется не больше 10 самых релевантных документов от каждого базового поиска.
      • userpic

        Алексей Поляков

        26 сентября, 12:09 ссылка
        И кстати, текущая система - крайне медленно работает как раз для запросов "А Б", где А и Б высокочастотные, разве не так?
        • userpic

          Anatolix

          26 сентября, 12:35 ссылка
          угу. Разве вы не замечали что в гугле слово the встречается 5 миллиардов раз, слово and  8 миллиадов, а "and the" получается с помощью вытаскивания 100Gb данных(the) на машину(and) и занимает несколько часов.  
          • userpic

            Алексей Поляков

            26 сентября, 16:27 ссылка
            Так я о чем и говорю - в гугле оно работает быстро, и при таком запросе пишет справа вверху - 0,12 сек. например. Если взять аналогичный пример для Яндекса - запрос "+и +а" занял (судя по комменту в конце кода страницы) - .

Логин или имя пользователя

Найдены:

 

Что получается:    изменить 
Подписаться на комментарии к записи

Получать уведомления о всех ответах в этом обсуждении.

 
Отписаться от комментарев к записи

Получать уведомления только о тех ответах в этом обсуждении, которые адресованы лично вам.

 
Вы следите за этой записьюя в курсе
Вы прекратили следить за этой записьюя в курсе
К сожалению, комментарий не удалось отправить. Попробуйте ещё раз.я в курсе