Re: Насчет текстовой индексации

2007-06-06 Пенетрантность Tonal
Тренер пишет: Работает очень прилично. Насколько я понимаю, эта техника называется "Инвертированный файл". Собственно, изначальная реализация Дмитрия - того же плана, если я правильно понял. И моя, описанная в этой же ветке. Кроме этой техники также применяются ещё "фаулы сигнатур" и "суффик

Re: Насчет текстовой индексации

2007-06-05 Пенетрантность Kovalenko Dmitry
> Далее пользователь вводит слова. > > Система нраходить их в словаре. далее начинает работать простой > алогоритм который строит пересечение всех наборов кодов объектов > найденных для всех слов. т.к. списки кодов объектов отсортированны это > по моему довольно очевидно. Это напоминает алгоритм с

Re: Насчет текстовой индексации

2007-06-05 Пенетрантность RUST
значит не подойдет. :) я тут на днях закончил поисковик для кошта (www.kosht.com), точнее сказать Can't change sql text because CenyDM.Q1.SelectQuery dataset open.

Re: Насчет текстовой индексации

2007-06-05 Пенетрантность Тренер
Возможно я не понимаю сложности всей задачи, просто опишу как это сделано у меня. Сделана Задача "тефонный справочник" с полнотекстновым поиском в с справочнике есть и адрес и телефон и вид деятельности и еще что то :) Причем поиск может делаться и по части слов т.е. не обязательно с первой буквы

Re: Насчет текстовой индексации

2007-06-05 Пенетрантность Boulitchev Aleksey
ну и что? я такую хрень в налоговой поддерживал, еще на фоксе. Разница в функционале и обьёме сведений в БД хе-хе объекты налогообложения: имущественный налог земельный налог транспортный налог подоходный налог ЧП-шники регистрация кассовых аппаратов прием НДФЛ-2 от предприятий и еще хрено

Re: Насчет текстовой индексации

2007-06-05 Пенетрантность Tonal
Я писал подобное ещё на BDE + Paradox. Там получалось ~160 000 слов. Кол.во документов не помню... Примитивная реализация - таблица слов + таблица соответствий документ/слово тормозила не по детски и занимала ~100мб. Устав мучиться переписал всё на плоский файл. Замапил его в память... И забыл

Re: Насчет текстовой индексации

2007-06-05 Пенетрантность Kovalenko Dmitry
> в своей базе решаю проблему так: данные вносятся, в специальную таблицу > тригерами заносятся их ключи ... Я тоже допер до похожей вещи :) Гы. Я же говорю - нот всего шесть. Коваленко Дмитрий.

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Kovalenko Dmitry
> > Там большое число слов, которые, фактически являются числами. Наверное > > с ними надо что-то делать, но "моя это что-то пока явно осилить не > > может" :) > > может, в большинстве случаев отбросить нафиг? никто ведь не будет искать > только по числам (кроме номера паспорта, наверное), если ос

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Roman Rokytskyy
Kovalenko Dmitry wrote: ну и 700 тыс. уникальных слов что-то мне не очень верится... если же у тебя различные формы склонения и во множ. числе дают разные лексемы, то этому можно помочь - ведь этап "послефильтрирования" для signature file обязателен. Не, я их не нормализую :) Храню как есть. Ч

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Kovalenko Dmitry
> ну и 700 тыс. уникальных слов что-то мне не очень верится... если же у > тебя различные формы склонения и во множ. числе дают разные лексемы, то > этому можно помочь - ведь этап "послефильтрирования" для signature file > обязателен. Не, я их не нормализую :) Храню как есть. Честно :) Там больш

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Kovalenko Dmitry
> >> > Что говорит о непригодности лобового решения задачи :) > > Я по этому поводу даже прикупил литературу по теории поиска в тексах > :-):-):-). Начнём как грится с абстрактной матможели поиска фразы в текстовом > массиве. Это мне напомнило как я писал репликацию. Я тогда, помню страшно боял

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Roman Rokytskyy
В случае с signature file, каждое слово получает свой бит, количество записей соотв. количеству слов. И какого размера будет эта сигнатура для моих 700 тыс уникальных слов? Ну возьми себе что-то размером с 1024 бита (например CHAR(128))... ну и 700 тыс. уникальных слов что-то мне не очень в

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Oleg LOA
"Kovalenko Dmitry" <[EMAIL PROTECTED]> wrote in message news:[EMAIL PROTECTED] > >> > Что говорит о непригодности лобового решения задачи :) Я по этому поводу даже прикупил литературу по теории поиска в тексах :-):-):-). Начнём как грится с абстрактной матможели поиска фразы в текстовом массиве.

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Oleg LOA
"Boulitchev Aleksey" <[EMAIL PROTECTED]> wrote in message news:[EMAIL PROTECTED] > >> Областная. База, точнее её данные живут с 98 года. >> >> На память - 650 тыс. рыл, 450 тыс. объектов недвижимости. > > ну и что? > я такую хрень в налоговой поддерживал, еще на фоксе. Разница в функционале и об

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Kovalenko Dmitry
> По состоянию здоровья? ;) Бу-га- <кхе-кхе-кхе> -га Мда. Коваленко Дмитрий.

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Kovalenko Dmitry
> Как мне кажется, signature file здесь будет лучше работать, поскольку: Возможно. Нужно только осознать принцип его работы :) > а) тебя не интересует порядок следования слов в документе. В твоем > варианте тебе приходится делать комбинации "a b" и "b a" для двух слов и > "a b c", "a c b", "b a

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Horsun Vlad
"Ded" ... > > Kovalenko Dmitry wrote: > > > Я только сегодня одному сказал - "Не надо пытаться с Димой Коваленкой > > философствовать. Потому что его, в свое время, освободили от экзамена > > по философии. От греха по дальше. И, между нами девочками, от гос. > > экзамена по программированию - тоже

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Ded
Kovalenko Dmitry wrote: Я только сегодня одному сказал - "Не надо пытаться с Димой Коваленкой философствовать. Потому что его, в свое время, освободили от экзамена по философии. От греха по дальше. И, между нами девочками, от гос. экзамена по программированию - тоже." По состоянию здоровья

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Kovalenko Dmitry
> есть формат адресов КЛАДРа - стандарт для обмена с гос уч-ниями. > все передаваемые адреса долнжы соответствовать ему. Мне в наследство достались адреса, которые именно из этого самого КЛАДРА и заливали. Шо называется привет первому зеону, который пришлось уничтожить. Вместе с гением, который

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Horsun Vlad
"Мадорский Г.В." ... > > > > > Хотя я не совсем понимаю, откуда у тебя 14 млн. уникальных слов... > > А может он туда свою ненормативную лексику включил... :))) 14 млн комбинаций на тему Бу-га-Га ? :))) -- Хорсун Влад

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Мадорский Г . В .
Хотя я не совсем понимаю, откуда у тебя 14 млн. уникальных слов... А может он туда свою ненормативную лексику включил... :))) With b/r. Gleb.

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Boulitchev Aleksey
какой-то пример из базы привести, чтоб понятней было? Построй строку "Ф И О рыла, его адрес, описание его паспорта" вот тебе и будет пример :) не надо хлам тащить в базу. надо сортировать его на входе. делаешь агента, котторый разбирает входящий документ и приводит его к каноническому виду,

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Roman Rokytskyy
Kovalenko Dmitry wrote: какой-то пример из базы привести, чтоб понятней было? Построй строку "Ф И О рыла, его адрес, описание его паспорта" вот тебе и будет пример :) Как мне кажется, signature file здесь будет лучше работать, поскольку: а) тебя не интересует порядок следования слов в докум

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Kovalenko Dmitry
> какой-то пример из базы привести, чтоб понятней было? Построй строку "Ф И О рыла, его адрес, описание его паспорта" вот тебе и будет пример :) Коваленко Дмитрий.

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Kovalenko Dmitry
On 4 июн, 14:56, Roman Rokytskyy <[EMAIL PROTECTED]> wrote: > > И вопрос - а что понимается под "каноническим видом"? У нас в дереве > > адресов штук десять вариаций на тему "город Москва". Есть даже бред > > "город Москва" в "городе Москва". Ибо до сих пор не могут определиться > > - а как его

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Boulitchev Aleksey
И вопрос - а что понимается под "каноническим видом"? У нас в дереве адресов штук десять вариаций на тему "город Москва". Есть даже бред "город Москва" в "городе Москва". Ибо до сих пор не могут определиться - а как его корректно представить. А мне лично на эти "корректные" представления - насра

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Roman Rokytskyy
И вопрос - а что понимается под "каноническим видом"? У нас в дереве адресов штук десять вариаций на тему "город Москва". Есть даже бред "город Москва" в "городе Москва". Ибо до сих пор не могут определиться - а как его корректно представить. А мне лично на эти "корректные" представления - наср

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Kovalenko Dmitry
> > Что говорит о непригодности лобового решения задачи :) > > и это только потому что влом ОДИН раз пройти по базе и привести адреса к > каноническому виду? и привести к нему же запросы по адресу? > > бывает, что усердие превозмогает и рассудок (с) Так, уже появляются "советчики" :) Речь идет н

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Boulitchev Aleksey
Что говорит о непригодности лобового решения задачи :) и это только потому что влом ОДИН раз пройти по базе и привести адреса к каноническому виду? и привести к нему же запросы по адресу? бывает, что усердие превозмогает и рассудок (с) -- Булычев Алексей http://www.stella-npf.ru

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Kovalenko Dmitry
> > Что говорит о непригодности лобового решения задачи :) > > Ну знаешь... проктология через лоб - это действительно круто... 8-O Это, кажись, по другому называется. Толи мозгово, толи лоботомия... Коваленко Дмитрий.

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Kovalenko Dmitry
> > Что говорит о непригодности лобового решения задачи :) > > А ты слова-паразиты грохаешь? Пока не занимался. У меня пока фобия на "гроханье". Самих слов, как видишь пока немного - всего ~15 лимонов. Тут "паразиты" возникают в комбинациях. Я пока вожусь с программой, которая построит комбина

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Ded
Kovalenko Dmitry wrote: Что говорит о непригодности лобового решения задачи :) Ну знаешь... проктология через лоб - это действительно круто... 8-O -- Regards. Ded.

Re[2]: Насчет текстовой индексации

2007-06-04 Пенетрантность Sergey Mereutsa
Привет! > Что говорит о непригодности лобового решения задачи :) А ты слова-паразиты грохаешь? Если для тебя это актуально - посмотри на mnogosearch - может сможешь прикрутить. Хотя я знаю, что чудес не бывает и на твоих объемах... Но ведь гугл и яндекс работают как-то... -- Best regards,

Re: Насчет текстовой индексации

2007-06-04 Пенетрантность Kovalenko Dmitry
> Сегодня занялся оценкой объемов, которые предстоит обрабатывать для > задуманного поиска по тексту с использованием пар лексем ... Боже, > храни FB. > Гы, я оказывается цифры не по тому курсу посчитал :) Реальный цифры гораздо смешнее 8) Для первого случай, когда строятся комбинации слов для

Re: Насчет текстовой индексации

2007-06-03 Пенетрантность Boulitchev Aleksey
Областная. База, точнее её данные живут с 98 года. На память - 650 тыс. рыл, 450 тыс. объектов недвижимости. ну и что? я такую хрень в налоговой поддерживал, еще на фоксе. -- Булычев Алексей http://www.stella-npf.ru

Re: Насчет текстовой индексации

2007-06-01 Пенетрантность Kovalenko Dmitry
> > а мож их не несколько баз разнести. Ну по районам например. > > Или нормализовать для начала... щоб по лексемам-то не индексировать... > > Ухожу искать стенку :-D Предлагаю долбить с двух сторон :) Истина, как известно, по середине :) Коваленко Дмитрий.

Re: Насчет текстовой индексации

2007-06-01 Пенетрантность Kovalenko Dmitry
> да, кстати, а уж не данные в XML ли там индексируют, а? от XML мы избавились как от страшного сна. С точки нормализации основного каркаса данных - там все настолько путём, что искать по совокупности критериев очень сложно. Паспорт хранится отдельно от человека. Связываются косвенно, через кор

Re: Насчет текстовой индексации

2007-06-01 Пенетрантность Alexandr Kochmin
D> D> Alexandr Kochmin wrote: D> D>> а мож их не несколько баз разнести. Ну по районам например. D> D> Или нормализовать для начала... щоб по лексемам-то не D> индексировать... да, кстати, а уж не данные в XML ли там индексируют, а? -- С уважением Кочмин Александр Firebird Foundation associ

Re: Насчет текстовой индексации

2007-06-01 Пенетрантность Kovalenko Dmitry
> Василь Иваныч, а ты армией командовать сможешь? Пятью программерами управлял. Из тех остался только одын. Остальные сошли с ... дистанции. > KD> > KD> Я уже от своих объемов в кому впадаю. Чисто психологически. > > а мож их не несколько баз разнести. Ну по районам например. Там есть свои ба

Re: Насчет текстовой индексации

2007-06-01 Пенетрантность Ded
Alexandr Kochmin wrote: а мож их не несколько баз разнести. Ну по районам например. Или нормализовать для начала... щоб по лексемам-то не индексировать... Ухожу искать стенку :-D -- Regards. Ded.

Re: Насчет текстовой индексации

2007-06-01 Пенетрантность Alexandr Kochmin
KD> Это _не_только_ купля-продажа, а еще и все объекты :) а вот теперь понятно. А то я давно думал, откуда такая большая база объектов в продаже. ;) KD> По прикидам - количество объектов раз в десять больше. Может в 20-ть. KD> Ахез, короче. Василь Иваныч, а ты армией командовать сможешь? KD>

Re: Насчет текстовой индексации

2007-06-01 Пенетрантность Kovalenko Dmitry
> KD>>> Вот. Меня терзают смутные сомнения. > KD>> > KD>> я не понял, это недвижимость городского масштаба, или всесоюзного? > KD> > KD> Областная. База, точнее её данные живут с 98 года. > KD> > KD> На память - 650 тыс. рыл, 450 тыс. объектов недвижимости. > > а... это наверное не купля-пр

Re: Насчет текстовой индексации

2007-06-01 Пенетрантность Alexandr Kochmin
KD> KD>>> Вот. Меня терзают смутные сомнения. KD>> KD>> я не понял, это недвижимость городского масштаба, или всесоюзного? KD> KD> Областная. База, точнее её данные живут с 98 года. KD> KD> На память - 650 тыс. рыл, 450 тыс. объектов недвижимости. а... это наверное не купля-продажа, а вообще все

Re: Насчет текстовой индексации

2007-06-01 Пенетрантность Kovalenko Dmitry
> KD> Вот. Меня терзают смутные сомнения. > > я не понял, это недвижимость городского масштаба, или всесоюзного? Областная. База, точнее её данные живут с 98 года. На память - 650 тыс. рыл, 450 тыс. объектов недвижимости. Коваленко Дмитрий.

Re: Насчет текстовой индексации

2007-06-01 Пенетрантность Alexandr Kochmin
KD> Вот. Меня терзают смутные сомнения. я не понял, это недвижимость городского масштаба, или всесоюзного? -- С уважением Кочмин Александр Firebird Foundation associate member #257

Re: Насчет текстовой индексации

2007-06-01 Пенетрантность Kovalenko Dmitry
Сегодня занялся оценкой объемов, которые предстоит обрабатывать для задуманного поиска по тексту с использованием пар лексем ... Боже, храни FB. У нас задумано два индекса Первый используется для индексации описаний конкретных объектов (чел, фирма, объект недвижимости (только его номер), паспорт

Re: Насчет текстовой индексации

2007-05-31 Пенетрантность Plotnikov Y
dada sasa пишет: Нот то всего шесть :) Семь :) "Технику безопасности я знаю как свои три пальца" (с)

Re: Насчет текстовой индексации

2007-05-31 Пенетрантность dada sasa
> > Нот то всего шесть :) Семь :)

Re: Насчет текстовой индексации

2007-05-31 Пенетрантность Roman Rokytskyy
Kovalenko Dmitry wrote: Вот. Случайно через RSDN наткнулся на http://g60.livejournal.com/132521.html Коваленко Дмитрий. Признайся, ты идею для поиска фраз у них спёр? :)