> > Dmitry Voroshin wrote:

> Идея с хэшем, который считается при записи блоба, а потом используется
> для сравнения в DISTINCT имеет продолжение, о котором часто забывают, -
> когда хэши совпадают, то надо еще эти блобы полностью с диска скачать и
> сравнить - побайтово или посимвольно. Так что будет в любом случае
> медленнее чем сейчас. Но зато корректно.

Учитыва особенности хэш-функций и природы данных в блобах (особенно
тесктовых) можно сказать что такое сравнение даст отличие на первых
байтах, если вообще не на первом.
Так же сочетание "хэш и размер_блоба" должно свести такие проверки к
минимуму.
Пример "плохого" случая: много несжатых картинок одного размера. Но
пересечение получить надо умудриться.
Как ни крути, а хеш и вариации это самый реальный вариант из возможных
по скорости и корректности.

Reply via email to