Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет alamar ([info]alamar)
@ 2014-09-30 03:53:00

Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Квадрат
Меня на фоне гнева так попёрло, что мне в голову пришло аж две идеи.

Первая идея алгоритмическая. Допустим, у нас есть тупой алгоритм O(N), работающий по очень большой (не влезающей в память) базе документов, под очень большой нагрузкой (много запросов за единицу времени). Например, поиск текста по нетривиальному (но не очень вычислительно сложному) условию.

Мы сейчас в таком случае изобретаем сложносинхронизированные иерархические модели разноуровневых кешей, которые потом годами подкручиваем, а они у нас разъезжаются. Чтобы получить заветные O(logN)

Я понял, что надо делать вообще по-другому. А именно, сделать цикл, проходящий по всем N документам последовательно. И по кругу. И в каждом шаге этого цикла проверять соответствие n-ного документа сразу многим - всем заданным на данный момент - запросам.

Таким образом, если у нас за время обхода всех N документов приходит M запросов, то вычислительная сложность алгоритма будет O(N)/M. Если M сравнимо с ln(N) - начинается хороший добрый профит.

Казалось бы, предельная латентность такого алгоритма будет два полных прохода по документам - но нет. Когда приходит новый запрос, а мы в это время обходим n-ный документ, мы сразу начинаем проверять все следующие документы на соответствие этому запросу - продолжаем, когда пошли на следующий виток - и отвечаем на запрос, как только дошли до n-1-го документа на следующем круге.

Казалось бы, увеличение работы на каждом шаге равноценно увеличению числа шагов. Но любой программист поймёт, что это не так - у нас одни и те же данные в обработке, проверку условий на которых мы можем сколь угодно хорошо распараллелить. Поставим двадцать логических ядрышек, или сто - это менее, чем линейный рост площади кремния и потребляемой энергии.

Очевидно, документы в рабочую базу можно добавлять и удалять в любой момент, не боясь рассинхронизации иерархических кешей за их полным отсутствием.

А ещё такой алгоритм можно распиливать хоть поперёк (поставить две машины на M запросов каждая), хоть вдоль (на одной машине прогонять запросы по первой половине документов, на второй - те же запросы по другой половине), хоть по вертикали (сделать две подбазы документов по выделяемому признаку, классифицировать запросы, отправлять разные категории в разные машины с разными базами документов).

И главное - очень предсказуемая производительность и очень равномерное замедление при повышении нагрузки. А не как сейчас, "летим и вдруг стена".

Хотя наверняка это баян и все давно так делают. Если нет - можете звать эту конь струкцию "квадратом Казначеева".

Это была, кстати, стрёмная идея, а вторая вообще гениальная. "Они рассказали нам главную сказку - мне не страшно теперь."


(Читать комментарии)

Добавить комментарий:

Как:
(комментарий будет скрыт)
Identity URL: 
имя пользователя:    
Вы должны предварительно войти в LiveJournal.com
 
E-mail для ответов: 
Вы сможете оставлять комментарии, даже если не введете e-mail.
Но вы не сможете получать уведомления об ответах на ваши комментарии!
Внимание: на указанный адрес будет выслано подтверждение.
Имя пользователя:
Пароль:
Тема:
HTML нельзя использовать в теме сообщения
Сообщение: