Re: [clubSmalltalk] Buscar en colecciones

Diogenes Moreira Wed, 03 Nov 2010 13:02:35 -0700

Pregunta.. cuando encontras un duplicado los sacas de la collection de magma
??


Mira que magma tiene buena performace de read, pero para lo remove y los
commit... le cuesta..

Por una mejora es que separes los objetos que tenes repetido en una
colleccion y depues los saques.. se entiende

http://wiki.squeak.org/squeak/2985

<http://wiki.squeak.org/squeak/2985>por otro lado si tenes el strategy en 0
y estas usando un colaborador para la igualación o la detección de
duplicados la busqueda va ser bastante pesada, dado que en lugar de los
colaboradores vas a tener proxies y cuando accedas magma va ir a buscar las
instancias..
Probaste con strategy 1.. el default es 4 pero creo que este caso 1 o 2 es
mejor.

Saludos

2010/11/3 Norberto Manzanos <[email protected]>

> Si, use where, un único índice con size 64 (más era terrible). También le
> pongo como readStrategy depth=0, porque en la mayoría de los casos no es
> necesario materializar los objetos. La prueba fue que con la estrategia
> default tardaba mucho más.
> Cuando uso Magma, lo que hace es buscar por ese índice y luego hacer una
> búsqueda dentro de los resultados para hacer comparaciones mas finas. Con
> 2000 registros el tiempo de agregación era de 2 minutos, el del where de 14
> min y la iteración posterior de 4 min.
> Ojo, me olvidé de decir que son 4 colecciones Magma.
>
> 2010/11/3 Facundo Vozzi <[email protected]>
>
> Norberto,
>> para buscar en una MagmaCollection usaste where: y configuraste los
>> indices? Todavía no probé con 76000 registros, voy a probar.
>>
>> Abrazo
>>
>> 2010/11/3 Norberto Manzanos <[email protected]>
>>
>> No, la verdad que no lo probé. Confié demasiado en que esa tarea la haría
>>> Magma. Voy a probarlo. Gracias.
>>>
>>> 2010/11/3 Esteban Lorenzano <[email protected]>
>>>
>>>> supongo que algún problema de indices tenés... pero esto que digo es tan
>>>> una trivialidad que seguro ya lo intentaste: armar un btree ordenado según
>>>> el índice por el cual buscas los duplicados?
>>>>
>>>> Saludos,
>>>> E
>>>>
>>>> El 03/11/2010, a las 4:04p.m., Norberto Manzanos escribió:
>>>>
>>>>
>>>> Muchachos ( y no tanto) de ClubSmalltalk
>>>>
>>>> Tengo un problema bastante grande y quería ver si alguien me puede dar
>>>> un consejo.
>>>> Tengo una colección de datos en archivos (no es exactamente una base de
>>>> datos, pero parecido) entre los cuales hay duplicados. Los duplicados no 
>>>> son
>>>> triviales, hay que hacer algunas cosas para detectarlos, pero ese no es el
>>>> punto.
>>>> Una vez que estos datos estén normalizados pueden persistirse de varias
>>>> formas, tampoco ese es el problema.
>>>> El cuello de botella es la búsqueda en las colecciones. Probé
>>>> colecciones en memoria, colecciones Magma, Sandstone y el problema es
>>>> siempre el mismo: el tiempo que tarda la búsqueda. Magma, que fue lo más
>>>> eficiente, podría llegar a tardar 2 o 3 días para procesar 76000 registros.
>>>> Un proceso similar, aunque con objetos más complicados, me tardó 2 semanas
>>>> hace un tiempo. Los de Magma siempre me dicen que algo mal debo estar
>>>> haciendo, pero nunca aparece que es eso que está mal. No creo estar 
>>>> haciendo
>>>> nada que pueda hacer que un proceso que debería tardar algunas horas tarde
>>>> varios días o más.
>>>> Estoy a punto de intentar con una base SQL, lo cual me deprime mucho.
>>>> ¿Alguien conoce algo para Squeak que permita detectar elementos en
>>>> colecciones en forma más eficiente? ¿Algún truco al menos?
>>>>
>>>> Gracias
>>>>
>>>> --
>>>> Norberto Manzanos
>>>> Instituto de Investigaciones en Humanidades y Ciencias Sociales (IdIHCS)
>>>> FaHCE/UNLP - CONICET
>>>> Calle 48 e/ 6 y 7 s/Nº - 8º piso - oficina 803
>>>> Tel: +54-221-4230125 interno 262
>>>>
>>>>
>>>> --
>>>> To post to this group, send email to [email protected]
>>>> To unsubscribe from this group, send email to
>>>> [email protected]
>>>>
>>>> http://www.clubSmalltalk.org
>>>>
>>>>
>>>>  --
>>>> To post to this group, send email to [email protected]
>>>> To unsubscribe from this group, send email to
>>>> [email protected]<clubsmalltalk%[email protected]>
>>>>
>>>> http://www.clubSmalltalk.org
>>>>
>>>
>>>
>>>
>>> --
>>> Norberto Manzanos
>>> Instituto de Investigaciones en Humanidades y Ciencias Sociales (IdIHCS)
>>> FaHCE/UNLP - CONICET
>>> Calle 48 e/ 6 y 7 s/Nº - 8º piso - oficina 803
>>> Tel: +54-221-4230125 interno 262
>>>
>>>  --
>>> To post to this group, send email to [email protected]
>>> To unsubscribe from this group, send email to
>>> [email protected]<clubsmalltalk%[email protected]>
>>>
>>> http://www.clubSmalltalk.org
>>>
>>
>>  --
>> To post to this group, send email to [email protected]
>> To unsubscribe from this group, send email to
>> [email protected]<clubsmalltalk%[email protected]>
>>
>> http://www.clubSmalltalk.org
>>
>
>
>
> --
> Norberto Manzanos
> Instituto de Investigaciones en Humanidades y Ciencias Sociales (IdIHCS)
> FaHCE/UNLP - CONICET
> Calle 48 e/ 6 y 7 s/Nº - 8º piso - oficina 803
> Tel: +54-221-4230125 interno 262
>
>  --
> To post to this group, send email to [email protected]
> To unsubscribe from this group, send email to
> [email protected]<clubsmalltalk%[email protected]>
>
> http://www.clubSmalltalk.org
>

-- 
To post to this group, send email to [email protected]
To unsubscribe from this group, send email to 
[email protected]

http://www.clubSmalltalk.org

Re: [clubSmalltalk] Buscar en colecciones

Responder a