Jag har tidigare och med dystra resultat försökt mig på att OCR:a ekonomiska 
kartan med Tesseract. Nu provade jag med Google Cloud Vision. Jämfört med det 
tidigare är resultatet makabert. Åtminstone på landsbygden och i ödemark. 
Dessutom returnerar Google var i bilden texten står. Att omvandla det till 
koordinater är en baggis, och vidare till en OSM.xml-fil från det blir ännu 
enklare.

Personligen är jag intresserad av en OCRad EK för att göra det sökbart, 
exempelvis när jag för postnummerupproret vill försäkra mig om att få fram 
CC0:ad data om var en postort ligger som vi känner till namn men inte plats. 
Det finns säkert många liknande användningsområden för andra.

Kan ni komma på fler anledningar till att det är bra med en OCRad EK?

Att jag frågar är för att det kostar en hel del att genomföra denna OCRning. 
0,15 öre per uppslag för att vara exakt. Jag har ingen koll på hur många man 
måste göra, men eftersom man inte vet var ord i bilder börjar och slutar innan 
man OCR:at så måste man göra överlappande uppslag, vilket innebär att det 
dessutom blir en hel del extra. Flera miljoner uppslag känns inte overkligt. 
Potentiellt sett kan det kosta allt mellan 1 500kr och 150 000kr att genomföra 
om man skall betala det själv. Men Google är snälla och ofta själva mycket 
intresserade av att data görs tillgängligt, så har man tillräckligt med 
anledningar och ber dem så kommer de säkert sponsra detta.

Så hjälp mig gärna hitta på lite anledningar till att vi vill genomföra en 
OCRning av EK! :D


Här är ytterligare två spån:

Man kan leta upp alla inritade sjöar utan namn i OSM och se om de omsluter 
enskild EK OCRad textsträng vars stil följer samma visuella mönster som namnet 
på inritade sjöar med namn som stämmer med den OCRade texten. Det där är inget 
man gör i en handvändning, men skulle troligen sätta namn på väldigt mycket 
sjöar och tjärn, inte minst i Norrland.

En liknande analys skulle kunna ligga till grund för att hitta sjögränser och 
rita in dem. Åter igen något som skulle ta tid att genomföra men skulle vara 
bra för Norrland.

Kanske något av dessa två spån skulle kunna vara ett Google summer of 
code-projekt för en computer vision student?



                kalle

Attachment: signature.asc
Description: Message signed with OpenPGP using GPGMail

_______________________________________________
Talk-se mailing list
Talk-se@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-se

Till