Тренер пишет:
Работает очень прилично.
Насколько я понимаю, эта техника называется "Инвертированный файл".
Собственно, изначальная реализация Дмитрия - того же плана, если я
правильно понял.
И моя, описанная в этой же ветке.
Кроме этой техники также применяются ещё "фаулы сигнатур" и "суффик
> Далее пользователь вводит слова.
>
> Система нраходить их в словаре. далее начинает работать простой
> алогоритм который строит пересечение всех наборов кодов объектов
> найденных для всех слов. т.к. списки кодов объектов отсортированны это
> по моему довольно очевидно. Это напоминает алгоритм с
значит не подойдет. :)
я тут на днях закончил поисковик для кошта (www.kosht.com), точнее сказать
Can't change sql text because CenyDM.Q1.SelectQuery dataset open.
Возможно я не понимаю сложности всей задачи, просто опишу как это
сделано у меня.
Сделана Задача "тефонный справочник" с полнотекстновым поиском в с
справочнике есть и адрес и телефон и вид деятельности и еще что то :)
Причем поиск может делаться и по части слов т.е. не обязательно с
первой буквы
ну и что?
я такую хрень в налоговой поддерживал, еще на фоксе.
Разница в функционале и обьёме сведений в БД
хе-хе объекты налогообложения:
имущественный налог
земельный налог
транспортный налог
подоходный налог
ЧП-шники
регистрация кассовых аппаратов
прием НДФЛ-2 от предприятий
и еще хрено
Я писал подобное ещё на BDE + Paradox.
Там получалось ~160 000 слов. Кол.во документов не помню...
Примитивная реализация - таблица слов + таблица соответствий
документ/слово тормозила не по детски и занимала ~100мб.
Устав мучиться переписал всё на плоский файл. Замапил его в память...
И забыл
> в своей базе решаю проблему так: данные вносятся, в специальную таблицу
> тригерами заносятся их ключи ...
Я тоже допер до похожей вещи :)
Гы. Я же говорю - нот всего шесть.
Коваленко Дмитрий.
> > Там большое число слов, которые, фактически являются числами. Наверное
> > с ними надо что-то делать, но "моя это что-то пока явно осилить не
> > может" :)
>
> может, в большинстве случаев отбросить нафиг? никто ведь не будет искать
> только по числам (кроме номера паспорта, наверное), если ос
Kovalenko Dmitry wrote:
ну и 700 тыс. уникальных слов что-то мне не очень верится... если же у
тебя различные формы склонения и во множ. числе дают разные лексемы, то
этому можно помочь - ведь этап "послефильтрирования" для signature file
обязателен.
Не, я их не нормализую :) Храню как есть. Ч
> ну и 700 тыс. уникальных слов что-то мне не очень верится... если же у
> тебя различные формы склонения и во множ. числе дают разные лексемы, то
> этому можно помочь - ведь этап "послефильтрирования" для signature file
> обязателен.
Не, я их не нормализую :) Храню как есть. Честно :)
Там больш
> >> > Что говорит о непригодности лобового решения задачи :)
>
> Я по этому поводу даже прикупил литературу по теории поиска в тексах
> :-):-):-). Начнём как грится с абстрактной матможели поиска фразы в текстовом
> массиве.
Это мне напомнило как я писал репликацию. Я тогда, помню страшно
боял
В случае с signature file, каждое слово получает свой бит, количество
записей соотв. количеству слов.
И какого размера будет эта сигнатура для моих 700 тыс уникальных слов?
Ну возьми себе что-то размером с 1024 бита (например CHAR(128))...
ну и 700 тыс. уникальных слов что-то мне не очень в
"Kovalenko Dmitry" <[EMAIL PROTECTED]> wrote in message news:[EMAIL PROTECTED]
>
>> > Что говорит о непригодности лобового решения задачи :)
Я по этому поводу даже прикупил литературу по теории поиска в тексах :-):-):-).
Начнём как грится с абстрактной матможели поиска фразы в текстовом массиве.
"Boulitchev Aleksey" <[EMAIL PROTECTED]> wrote in message news:[EMAIL PROTECTED]
>
>> Областная. База, точнее её данные живут с 98 года.
>>
>> На память - 650 тыс. рыл, 450 тыс. объектов недвижимости.
>
> ну и что?
> я такую хрень в налоговой поддерживал, еще на фоксе.
Разница в функционале и об
> По состоянию здоровья? ;)
Бу-га- <кхе-кхе-кхе> -га
Мда.
Коваленко Дмитрий.
> Как мне кажется, signature file здесь будет лучше работать, поскольку:
Возможно. Нужно только осознать принцип его работы :)
> а) тебя не интересует порядок следования слов в документе. В твоем
> варианте тебе приходится делать комбинации "a b" и "b a" для двух слов и
> "a b c", "a c b", "b a
"Ded" ...
>
> Kovalenko Dmitry wrote:
>
> > Я только сегодня одному сказал - "Не надо пытаться с Димой Коваленкой
> > философствовать. Потому что его, в свое время, освободили от экзамена
> > по философии. От греха по дальше. И, между нами девочками, от гос.
> > экзамена по программированию - тоже
Kovalenko Dmitry wrote:
Я только сегодня одному сказал - "Не надо пытаться с Димой Коваленкой
философствовать. Потому что его, в свое время, освободили от экзамена
по философии. От греха по дальше. И, между нами девочками, от гос.
экзамена по программированию - тоже."
По состоянию здоровья
> есть формат адресов КЛАДРа - стандарт для обмена с гос уч-ниями.
> все передаваемые адреса долнжы соответствовать ему.
Мне в наследство достались адреса, которые именно из этого самого
КЛАДРА и заливали.
Шо называется привет первому зеону, который пришлось уничтожить.
Вместе с гением, который
"Мадорский Г.В." ...
>
> >
> > Хотя я не совсем понимаю, откуда у тебя 14 млн. уникальных слов...
>
> А может он туда свою ненормативную лексику включил... :)))
14 млн комбинаций на тему Бу-га-Га ? :)))
--
Хорсун Влад
Хотя я не совсем понимаю, откуда у тебя 14 млн. уникальных слов...
А может он туда свою ненормативную лексику включил... :)))
With b/r. Gleb.
какой-то пример из базы привести, чтоб понятней было?
Построй строку "Ф И О рыла, его адрес, описание его паспорта" вот тебе
и будет пример :)
не надо хлам тащить в базу. надо сортировать его на входе. делаешь агента,
котторый разбирает входящий документ и приводит его к каноническому виду,
Kovalenko Dmitry wrote:
какой-то пример из базы привести, чтоб понятней было?
Построй строку "Ф И О рыла, его адрес, описание его паспорта" вот тебе
и будет пример :)
Как мне кажется, signature file здесь будет лучше работать, поскольку:
а) тебя не интересует порядок следования слов в докум
> какой-то пример из базы привести, чтоб понятней было?
Построй строку "Ф И О рыла, его адрес, описание его паспорта" вот тебе
и будет пример :)
Коваленко Дмитрий.
On 4 июн, 14:56, Roman Rokytskyy <[EMAIL PROTECTED]> wrote:
> > И вопрос - а что понимается под "каноническим видом"? У нас в дереве
> > адресов штук десять вариаций на тему "город Москва". Есть даже бред
> > "город Москва" в "городе Москва". Ибо до сих пор не могут определиться
> > - а как его
И вопрос - а что понимается под "каноническим видом"? У нас в дереве
адресов штук десять вариаций на тему "город Москва". Есть даже бред
"город Москва" в "городе Москва". Ибо до сих пор не могут определиться
- а как его корректно представить. А мне лично на эти "корректные"
представления - насра
И вопрос - а что понимается под "каноническим видом"? У нас в дереве
адресов штук десять вариаций на тему "город Москва". Есть даже бред
"город Москва" в "городе Москва". Ибо до сих пор не могут определиться
- а как его корректно представить. А мне лично на эти "корректные"
представления - наср
> > Что говорит о непригодности лобового решения задачи :)
>
> и это только потому что влом ОДИН раз пройти по базе и привести адреса к
> каноническому виду? и привести к нему же запросы по адресу?
>
> бывает, что усердие превозмогает и рассудок (с)
Так, уже появляются "советчики" :)
Речь идет н
Что говорит о непригодности лобового решения задачи :)
и это только потому что влом ОДИН раз пройти по базе и привести адреса к
каноническому виду? и привести к нему же запросы по адресу?
бывает, что усердие превозмогает и рассудок (с)
--
Булычев Алексей
http://www.stella-npf.ru
> > Что говорит о непригодности лобового решения задачи :)
>
> Ну знаешь... проктология через лоб - это действительно круто... 8-O
Это, кажись, по другому называется. Толи мозгово, толи
лоботомия...
Коваленко Дмитрий.
> > Что говорит о непригодности лобового решения задачи :)
>
> А ты слова-паразиты грохаешь?
Пока не занимался. У меня пока фобия на "гроханье".
Самих слов, как видишь пока немного - всего ~15 лимонов.
Тут "паразиты" возникают в комбинациях.
Я пока вожусь с программой, которая построит комбина
Kovalenko Dmitry wrote:
Что говорит о непригодности лобового решения задачи :)
Ну знаешь... проктология через лоб - это действительно круто... 8-O
--
Regards. Ded.
Привет!
> Что говорит о непригодности лобового решения задачи :)
А ты слова-паразиты грохаешь?
Если для тебя это актуально - посмотри на mnogosearch - может сможешь
прикрутить. Хотя я знаю, что чудес не бывает и на твоих объемах... Но
ведь гугл и яндекс работают как-то...
--
Best regards,
> Сегодня занялся оценкой объемов, которые предстоит обрабатывать для
> задуманного поиска по тексту с использованием пар лексем ... Боже,
> храни FB.
>
Гы, я оказывается цифры не по тому курсу посчитал :)
Реальный цифры гораздо смешнее 8)
Для первого случай, когда строятся комбинации слов для
Областная. База, точнее её данные живут с 98 года.
На память - 650 тыс. рыл, 450 тыс. объектов недвижимости.
ну и что?
я такую хрень в налоговой поддерживал, еще на фоксе.
--
Булычев Алексей
http://www.stella-npf.ru
> > а мож их не несколько баз разнести. Ну по районам например.
>
> Или нормализовать для начала... щоб по лексемам-то не индексировать...
>
> Ухожу искать стенку :-D
Предлагаю долбить с двух сторон :)
Истина, как известно, по середине :)
Коваленко Дмитрий.
> да, кстати, а уж не данные в XML ли там индексируют, а?
от XML мы избавились как от страшного сна.
С точки нормализации основного каркаса данных - там все настолько
путём, что искать по совокупности критериев очень сложно.
Паспорт хранится отдельно от человека. Связываются косвенно, через
кор
D>
D> Alexandr Kochmin wrote:
D>
D>> а мож их не несколько баз разнести. Ну по районам например.
D>
D> Или нормализовать для начала... щоб по лексемам-то не
D> индексировать...
да, кстати, а уж не данные в XML ли там индексируют, а?
--
С уважением
Кочмин Александр
Firebird Foundation associ
> Василь Иваныч, а ты армией командовать сможешь?
Пятью программерами управлял. Из тех остался только одын. Остальные
сошли с ... дистанции.
> KD>
> KD> Я уже от своих объемов в кому впадаю. Чисто психологически.
>
> а мож их не несколько баз разнести. Ну по районам например.
Там есть свои ба
Alexandr Kochmin wrote:
а мож их не несколько баз разнести. Ну по районам например.
Или нормализовать для начала... щоб по лексемам-то не индексировать...
Ухожу искать стенку :-D
--
Regards. Ded.
KD> Это _не_только_ купля-продажа, а еще и все объекты :)
а вот теперь понятно. А то я давно думал, откуда такая большая база объектов в
продаже. ;)
KD> По прикидам - количество объектов раз в десять больше. Может в 20-ть.
KD> Ахез, короче.
Василь Иваныч, а ты армией командовать сможешь?
KD>
> KD>>> Вот. Меня терзают смутные сомнения.
> KD>>
> KD>> я не понял, это недвижимость городского масштаба, или всесоюзного?
> KD>
> KD> Областная. База, точнее её данные живут с 98 года.
> KD>
> KD> На память - 650 тыс. рыл, 450 тыс. объектов недвижимости.
>
> а... это наверное не купля-пр
KD>
KD>>> Вот. Меня терзают смутные сомнения.
KD>>
KD>> я не понял, это недвижимость городского масштаба, или всесоюзного?
KD>
KD> Областная. База, точнее её данные живут с 98 года.
KD>
KD> На память - 650 тыс. рыл, 450 тыс. объектов недвижимости.
а... это наверное не купля-продажа, а вообще все
> KD> Вот. Меня терзают смутные сомнения.
>
> я не понял, это недвижимость городского масштаба, или всесоюзного?
Областная. База, точнее её данные живут с 98 года.
На память - 650 тыс. рыл, 450 тыс. объектов недвижимости.
Коваленко Дмитрий.
KD> Вот. Меня терзают смутные сомнения.
я не понял, это недвижимость городского масштаба, или всесоюзного?
--
С уважением
Кочмин Александр
Firebird Foundation associate member #257
Сегодня занялся оценкой объемов, которые предстоит обрабатывать для
задуманного поиска по тексту с использованием пар лексем ... Боже,
храни FB.
У нас задумано два индекса
Первый используется для индексации описаний конкретных объектов (чел,
фирма, объект недвижимости (только его номер), паспорт
dada sasa пишет:
Нот то всего шесть :)
Семь :)
"Технику безопасности я знаю как свои три пальца" (с)
>
> Нот то всего шесть :)
Семь :)
Kovalenko Dmitry wrote:
Вот. Случайно через RSDN наткнулся на
http://g60.livejournal.com/132521.html
Коваленко Дмитрий.
Признайся, ты идею для поиска фраз у них спёр? :)
49 matches
Mail list logo