Re: [python] Paměťově náročné řazení

Petr Viktorin Tue, 16 Jun 2015 01:25:57 -0700

2015-06-15 22:36 GMT+02:00 Lumír Balhar <[email protected]>:
> Ahoj všem.
>
> Řeším s kamarádem jeden jeho projekt, jehož součástí je i Burrows-Wheelerova 
> transformace, která se používá před kompresí dat společně s Move to Front 
> transformací pro snížení entropie vstupních dat a tím zvýšení efektivity 
> kompresního algoritmu, kterému tyto dvě transformace předcházejí.
>
> Pochopení transformací není potřeba. U BWT se využívá tzv, buffer, který 
> obsahuje všechny možné rotace vstupních dat, takže například pro "ema má 
> maso" vypadá takto:
>
>  0 ema ma maso
>  1 ma ma masoe
>  2 a ma masoem
>  3  ma masoema
>  4 ma masoema
>  5 a masoema m
>  6  masoema ma
>  7 masoema ma
>  8 asoema ma m
>  9 soema ma ma
> 10 oema ma mas
>
> Pro malá data je to dobré, ale pro velká nelze mít celý buffer v paměti, 
> protože se pro každý vstupní znak navíc rozšíří o řádek i sloupec zároveň.
> Napsal jsem tedy pro Buffer samostatnou třídu, kde pomocí __getitem__ 
> vygeneruji potřebný řádek posunem až ve chvíli, kdy je jeho obsah potřeba.



Ahoj,
sort() používá jen operátor "<", takže stačí naimplementovat ten (i
když s functools.total_ordering [0] není problém naimplementovat ty
ostatní).
Jen je potřeba mít objekt pro každý řádek. Když takový objekt obsahuje
jen odkaz na původní řetězec, a číslo řádku, tak se ti snad všechny do
paměti vejdou.
Přikládám nástin toho, jak bych to řešil já (v py3).
(Jestli se vyplatí při porovnávání generovat oba řádky a porovnat ty,
nebo jako já porovnávat jednotlivé znaky v Pythonu, záleží na tom jak
často ty řetězce mají dlouhé shodné prefixy.)

[0] https://docs.python.org/3/library/functools.html#functools.total_ordering

class RotatedString:
    __slots__ = ['orig_string', 'n']

    def __init__(self, orig_string, n):
        self.orig_string = orig_string
        self.n = n

    def __len__(self):
        return len(self.orig_string)

    def __str__(self):
        return self.orig_string[self.n:] + self.orig_string[:self.n]

    def __iter__(self):
        yield from self.orig_string[self.n:]
        yield from self.orig_string[:self.n]

    def __getitem__(self, i):
        return self.orig_string[(self.n + i) % len(self.orig_string)]

    def __lt__(self, other):
        if self.orig_string != other.orig_string:
            return self.orig_string < other.orig_string
        for c1, c2 in zip(self, other):
            if c1 != c2:
                return c1 < c2


base = 'ema má maso'

for rs in sorted([RotatedString(base, i) for i, c in enumerate(base)]):
    print(rs)

_______________________________________________
Python mailing list
[email protected]
http://www.py.cz/mailman/listinfo/python

Visit: http://www.py.cz

Re: [python] Paměťově náročné řazení

Odpovedet emailem