Re: backup restore

Качановский Дмитрий Fri, 12 Sep 2008 02:32:56 -0700

могу показаться назойливым, но, как я уже писал (да и не только я), твояглавная проблема - операции с диском, соответственно надо думать в двухнаправлениях1. ускорить дисковую подсистему (тут уже по этому поводу рекомендациидавали) - это даст определеный выйгрышь, но полностью не решит задачу затебя2. уменьшить количество дисковых операций и разнести их более равномерно вовремени (если у тебя 24х7 система, то абсолютно нелогично делать ночныеплановые операции по сборке мусора).

при таком подходе к разработке самым лучшим решением для тебя будетиспользовать плоские файлы - таким образом достигнешь максимальной скорости(за счет предельного уменьшения количества дисковых операций). Разбей,например, все данные по часам (насколько я помню тебе надо только 7 дней), утебя получится 168 файлов и накапливай там инфу по револьверному принципу.Файлы добавляются с каждым часом, перевалил через неделю - удалилсоответствующий файл, потом следующий и т.д. Как только приходит запроспросмотреть состояние датчиков, выбираешь интересующий час, закачиваешьклиенту файл, там парсишь (данные можно хранить в максимально подготовленномк этой операции виде) и строишь тренд.

Это будет самый быстрый способ. Но если все-таки хочешь в работеиспользовать СУБД, то необходимо понять и принять, что СУБД, для управленияданными, выполняет ряд дополнительных операций, объем которых зачастуюпревышает объем "полезных" операций. Соответственно базу необходимопроектировать, а не просто создать одну единственную таблицу и надеятся, чтосервер все сделает за тебя.

Например, на вопрос за какой промежуток времени могут понадобиться данные тыпишешь "обычно все пляшет вокруг пары часов, в худших случаях - до дней". Тыприкидывал сколько записей тебе придется прокачать на клиента? Миллионы...сколько времени на это уйдет???? товарищь будет не рад что задал такойвопрос "какой же там тренд за сутки?". Куда логичнее иметь в базе таблицегде бы данные были уже подготовлены к просмотру с необходимой точностью.Условно говоря усредненные значения по датчикам за сутки, 2 часа, 15 минут(т.е. 3 таблицы). Соответственно отдавть клиенту подготовленные данные стакой же точностью. Если надо оценить общую ситуацию за неделю - значитберем данные из таблицы по дням, если за последние пару часов - из таблицы с15-и минутным интервалом, просмотреть сотояние датчиков - исходные данные.

Заполнение таблиц с подготовленными отчетами можно конечно поставить порасписанию, если периоды анализа небольшие - это в принципе допустимо, ноесли ты попытаешься это сделать за сутки, можешь всерьез и надолго поставитьсистему раком. Мое мнение в этом плане - лучше заполнять эти таблицыон-лайн, т.е. так только появляется новая информация по датчику, сразу жеидет пересчет (update) в таблицах с отчетами. Это конечно же добавит версий,но поскольку операции во ремении более равномерно распределяются, серверубудет куда проще все это проглотить (и не поперхнуться).

Далее - нафига тебе 3 индекса, да еще подозреваю составных, на грязныеданные????? Оставь только ОДИН по времени, все операции, которые тывыполняешь над этой таблицей полностью покрываются этим индексом. Во-первых,ты уменьшаешь количество структур и, соответственно, объем данных на диске.За счет этого (не могу утверждать однозначно, но ориентируясь на своиэксперименты с большими объемами) ты сократишь на 60% время удаленияустаревших данных. Во-вторых, если необходим диапазонный поиск (аляbetween), то ФБ с индексами работает далеко не так идеально как хотелось бы,особенно с составными. Если парметр времени в индексе не один (т.е. индекссоставной) то для диапазонной выборки такой индекс фактически не работаетсовсем. В-третьих, время (я так понимаю timestamp) - это составной параметр,можно попробовать (вот здесь надо будет эксперементировать) добавить ещеодно поле в таблицу - номер минуты, например от 2008 года. Интежера будетдостаточно на тысячи лет вперед. По нему и строить индекс, а поиск проводитьпо этому полю с уточнением по времени.

Насчет разделения данных по таблицам здесь уже много писали, повторяться небуду. Только вот не помню почему была отвергнута идея хранить данные покаждому датчику+параметру в отдельной таблице (таблиц конечно же многобудет, но работать с ними может даже и проще).


и последнее. Опять же уже писалось, но повторюсь.

Если данные заходят с с такой интенсивностью и равномерно в течение суток,то и выходить они оттуда должны соответственно. Вполне логично, что пытаясьудалить накопившуюся инфу за сутки ты ставишь сервер в такую позу из которойон не может выйти очень долго. Удаляй данные пропорционально их добавлению.Например если задачу очистки поставить раз в 10 мин. - серверу будет надоудалить 170.000 записей (исходя из твоих исходных данных). Серверу будеткуда проще пережевать такой объем и через 10 мин. быть готовым к повторениюэтой операции (естественно с учетом, что он продолжает добавлять).

Re: backup restore

Ответить