Jag har tidigare och med dystra resultat försökt mig på att OCR:a ekonomiska kartan med Tesseract. Nu provade jag med Google Cloud Vision. Jämfört med det tidigare är resultatet makabert. Åtminstone på landsbygden och i ödemark. Dessutom returnerar Google var i bilden texten står. Att omvandla det till koordinater är en baggis, och vidare till en OSM.xml-fil från det blir ännu enklare.
Personligen är jag intresserad av en OCRad EK för att göra det sökbart, exempelvis när jag för postnummerupproret vill försäkra mig om att få fram CC0:ad data om var en postort ligger som vi känner till namn men inte plats. Det finns säkert många liknande användningsområden för andra. Kan ni komma på fler anledningar till att det är bra med en OCRad EK? Att jag frågar är för att det kostar en hel del att genomföra denna OCRning. 0,15 öre per uppslag för att vara exakt. Jag har ingen koll på hur många man måste göra, men eftersom man inte vet var ord i bilder börjar och slutar innan man OCR:at så måste man göra överlappande uppslag, vilket innebär att det dessutom blir en hel del extra. Flera miljoner uppslag känns inte overkligt. Potentiellt sett kan det kosta allt mellan 1 500kr och 150 000kr att genomföra om man skall betala det själv. Men Google är snälla och ofta själva mycket intresserade av att data görs tillgängligt, så har man tillräckligt med anledningar och ber dem så kommer de säkert sponsra detta. Så hjälp mig gärna hitta på lite anledningar till att vi vill genomföra en OCRning av EK! :D Här är ytterligare två spån: Man kan leta upp alla inritade sjöar utan namn i OSM och se om de omsluter enskild EK OCRad textsträng vars stil följer samma visuella mönster som namnet på inritade sjöar med namn som stämmer med den OCRade texten. Det där är inget man gör i en handvändning, men skulle troligen sätta namn på väldigt mycket sjöar och tjärn, inte minst i Norrland. En liknande analys skulle kunna ligga till grund för att hitta sjögränser och rita in dem. Åter igen något som skulle ta tid att genomföra men skulle vara bra för Norrland. Kanske något av dessa två spån skulle kunna vara ett Google summer of code-projekt för en computer vision student? kalle
signature.asc
Description: Message signed with OpenPGP using GPGMail
_______________________________________________ Talk-se mailing list Talk-se@openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-se