[Talk-cz] Tracer na rozpoznání budov z katastr ální mapy

2010-02-15 Tema obsahu Zdeněk Pražák

Včera jsem si stáhl z JOSM aktuální verzi traceru č. 19892 a trasoval jsem 
budovy v Novém Bydžově. 
Po nahrání výsledku jsem si všiml, že pokud trasuji jednotlivé budovy v bloku 
domů, tak se na sebe nenapojují a je mezi nimi vidět malá mezírka.
Je to správné chování traceru nebo se dá nějak přinutit aby spojoval 
přiléhající budovy k sobě.
Pražák

___
Talk-cz mailing list
Talk-cz@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-cz


Re: [Talk-cz] Import adres z katastralni mapy

2010-02-15 Tema obsahu Jan Bilak
Ahoj,

nezkousel jsem porovnavat vysledky z tesseractu a meho rozpoznavani
vzoru, ale myslim, ze by to slo snadno. Staci nejaka data, ktera byla
zpracovana tesseractem, zpracovat take timto. Oba csv soubory seradit
a pouzit nejaky klasicky diff.

Obecne mam obavu, ze tesseract se muze splest a rozpoznat cislo
spatne, i kdyz vysledek rozpoznani odpovida vzoru. Zato muj OCR na
miru detektuje pripady, kdy si neni jisty, a loguje je, aby je bylo
mozne rucne zkontrolovat. Pritom je jich dostatecne maly pocet na to,
aby rucni kontrola byla proveditelna. Pokud v programu neni chyba (coz
nevylucuji), tak by program nemel popisek rozpoznat spatne, aniz by
jej oznacil, ze si neni jisty.

To byl hlavni cil, proc jsem OCR delal - zajisteni spolehlivosti.
Zvyseni rychlosti bylo druhorade, i kdyz je to prijemne.

Honza


2010/2/15 Petr Dlouhý :
> Ahoj,
>
> algoritmus po Honzových úpravách pracuje výrazně rychleji a dokáže
> detekovat překrývající se čísla s téměř 100% úspěšností (na rozsáhlém
> území jsou to jednotky chyb). Vzhledem k tomu, že je to možné zpracovat za
> několik dnů na jednom PC, tak bych řekl, že se to předělat vyplatí.
>
> On Mon, 15 Feb 2010 09:44:58 +0100, Lukas Kabrt  wrote:
>
>> Ahoj,
>>
>> ja byl ted tyden pryc, proto jsem se do diskuze a reseni problemu
>> nezapojil.
>>
>> Pokud spravne chapu situaci, tak problem je u c.e., ve kterych je
>> cislice 2 se obcas stava a obcas se stava, ze se rozpozna jako 7. Jak
>> jsem z diskuze pochopil, tak Honza Bilak napsal programek, ktery vezme
>> celou dlazdici a provede OCR jinym zpusobem.
>>
>> Ja mam pripravene skripty na docisteni vysledku (slouceni dat z
>> dlazdic, vymazani duplicit zpusobenych prekryvem dlazdic, vyfiltorvani
>> bodu ktere neodpovidaji vzoru c.p., c.e., bez cp./c.e a jejich stazeni
>> ve vyssim rozliseni a znovuprovedeni OCR - vyreseni prokryvajicich se
>> napisu)
>>
>> Vysledky po stazeni detailu a znovuprovedeni OCR jsou celkem dobre. Na
>> datech, co byla  spocitana minuly tyden (cca 2/3 republiky) je po
>> znovuprovedeni OCR jen 1050 adresnich bodu, ktere neodpovidaji
>> zadanemu vzoru.
>>
>> Myslim, ze by bylo zbytecne zpracovavat celou CR znovu. Z dat si muzu
>> vytahnout c.e., ktera obsahuji cislici 7, stahnout si detail ve vyssim
>> rozliceni a ten misto terreractem zpracovat algoritmem od Honzy.
>> --
>> Lukas
>>
>> ___
>> Talk-cz mailing list
>> Talk-cz@openstreetmap.org
>> http://lists.openstreetmap.org/listinfo/talk-cz
>
>
> --
> Petr Dlouhý
>
> ___
> Talk-cz mailing list
> Talk-cz@openstreetmap.org
> http://lists.openstreetmap.org/listinfo/talk-cz
>

___
Talk-cz mailing list
Talk-cz@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-cz


Re: [Talk-cz] Import adres z katastralni mapy

2010-02-15 Tema obsahu Petr Dlouhý
Ahoj,

algoritmus po Honzových úpravách pracuje výrazně rychleji a dokáže  
detekovat překrývající se čísla s téměř 100% úspěšností (na rozsáhlém  
území jsou to jednotky chyb). Vzhledem k tomu, že je to možné zpracovat za  
několik dnů na jednom PC, tak bych řekl, že se to předělat vyplatí.

On Mon, 15 Feb 2010 09:44:58 +0100, Lukas Kabrt  wrote:

> Ahoj,
>
> ja byl ted tyden pryc, proto jsem se do diskuze a reseni problemu  
> nezapojil.
>
> Pokud spravne chapu situaci, tak problem je u c.e., ve kterych je
> cislice 2 se obcas stava a obcas se stava, ze se rozpozna jako 7. Jak
> jsem z diskuze pochopil, tak Honza Bilak napsal programek, ktery vezme
> celou dlazdici a provede OCR jinym zpusobem.
>
> Ja mam pripravene skripty na docisteni vysledku (slouceni dat z
> dlazdic, vymazani duplicit zpusobenych prekryvem dlazdic, vyfiltorvani
> bodu ktere neodpovidaji vzoru c.p., c.e., bez cp./c.e a jejich stazeni
> ve vyssim rozliseni a znovuprovedeni OCR - vyreseni prokryvajicich se
> napisu)
>
> Vysledky po stazeni detailu a znovuprovedeni OCR jsou celkem dobre. Na
> datech, co byla  spocitana minuly tyden (cca 2/3 republiky) je po
> znovuprovedeni OCR jen 1050 adresnich bodu, ktere neodpovidaji
> zadanemu vzoru.
>
> Myslim, ze by bylo zbytecne zpracovavat celou CR znovu. Z dat si muzu
> vytahnout c.e., ktera obsahuji cislici 7, stahnout si detail ve vyssim
> rozliceni a ten misto terreractem zpracovat algoritmem od Honzy.
> --
> Lukas
>
> ___
> Talk-cz mailing list
> Talk-cz@openstreetmap.org
> http://lists.openstreetmap.org/listinfo/talk-cz


-- 
Petr Dlouhý

___
Talk-cz mailing list
Talk-cz@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-cz


Re: [Talk-cz] Import adres z katastralni mapy

2010-02-15 Tema obsahu Lukas Kabrt
Ahoj,

ja byl ted tyden pryc, proto jsem se do diskuze a reseni problemu nezapojil.

Pokud spravne chapu situaci, tak problem je u c.e., ve kterych je
cislice 2 se obcas stava a obcas se stava, ze se rozpozna jako 7. Jak
jsem z diskuze pochopil, tak Honza Bilak napsal programek, ktery vezme
celou dlazdici a provede OCR jinym zpusobem.

Ja mam pripravene skripty na docisteni vysledku (slouceni dat z
dlazdic, vymazani duplicit zpusobenych prekryvem dlazdic, vyfiltorvani
bodu ktere neodpovidaji vzoru c.p., c.e., bez cp./c.e a jejich stazeni
ve vyssim rozliseni a znovuprovedeni OCR - vyreseni prokryvajicich se
napisu)

Vysledky po stazeni detailu a znovuprovedeni OCR jsou celkem dobre. Na
datech, co byla  spocitana minuly tyden (cca 2/3 republiky) je po
znovuprovedeni OCR jen 1050 adresnich bodu, ktere neodpovidaji
zadanemu vzoru.

Myslim, ze by bylo zbytecne zpracovavat celou CR znovu. Z dat si muzu
vytahnout c.e., ktera obsahuji cislici 7, stahnout si detail ve vyssim
rozliceni a ten misto terreractem zpracovat algoritmem od Honzy.
--
Lukas

___
Talk-cz mailing list
Talk-cz@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-cz