My guess is that '*' is a fixed prefix denoting this encoding method, and that the next two characters are likely an encoded representation of the number of (valid) characters on the line - from the examples you've given:
- '8G' means 76 characters - '0m' means 28 characters - '0d' means 16 characters The simplest length encoding would be encode the character code for the given length using the same encoding method as for the rest of the text - so character code 76 ('L') would be encoded as '8G', etc. It's possible that there are embedded encodings - that is, if it's true that the text is Base64 encoded, and you figure out what the non-standard alphabet mapping is, and you decode the text, the result may itself also be encoded in some other way. Sorry, I don't know any more than this - good luck! Steve On 01/12/2009 at 2:55 PM, peter.aisher wrote: > > Hi Steve > > > That sounds possible: > > > the problem is that I'm not sure what the plaintext version > is - there is an > online version of the dictionary so for example the entry for 'a' in > garbled-text is this: > > *8G04)B0e0000000000gTMqjEw2c3mU6rhoI(Ci4xSF4pG8bFPY2B26cuCtk4c > gwPsJqRnPHxQjZBBY > *8GXG4UA1QjjKK7ESvW5yYESYey9KlohAk1sSpOCPsMehyo0LzbFjhRTUUSAl) > 2xd7fxuHEMNLusQs8 > *8GYp)TnmD8zwnr4r99ZMmYnnX1MMJNKoQv7bn9oHMSkX5KnMfA4(f9voBthgU > NIZ79gU18tYSUPItu > *8G3ZMImar0AKZD6aJx8uwgXbJBpIoLTedDJwF2GvEgD23)zEwzLd4V5ev0Cyh > TTiyBEialXGT5hS0Z > *8GaboealGeaX2a10TeX4QGJFFuMx4XPwJcVji)Vn6g7CfjFAfNPJb)IB(tKxr > TkTY)tHlI27WcAj5H > *8G5hvRR)yDqTxZAPOq2T(tjc9V(GEsxnOPItc(kTF3oHfDQayiuNfxZDUOmya > D8OsRo)iRaU4NMDzA > *8G6CoVXbPa723rHMghS3MDqhS)(cQpLfwMSacfOs0A)ugVUonpqRUOiylfr7f > HEkvy3swKZZU3K3sk > *8GdgCMPv8vug2HqMxI1rDMuXxLeBfNBZIiNccBhcbXn3gldl2azjY93KCGb5D > nyV0W3kweXTswXQy8 > *8GeMGvfO19LzgwJ5mrJLpQjEQhu6vwl6byBnMqwauiwccUevb1jH7Wks)aJ4f > 6qCZ2UH3UIXojfNMo > *8G9RF3Af4)JS6NF6jdwMZEuOD7TcDyqY(13JyibWErDuTm0kBzmhTT)zfaGo2 > 5cw82DDaqIn25oNqx > *8GAip26e3wLim)yKgD4R1xlwwWqV9DDLCje9C8WrCy9WPWWT6NYRvXJqhUwjL > b)jC9W1XY1V6mR7NJ > *8GhGE58D5hjeMn3RXythJ(1eA7J5RUcc0kCmFJLUeT0HrOmkcQwRmympjkXHk > asJcjVOQwS7okoryv > *8GC6eOuMTtensHmJL9Icb2j8F7GfC1Gfa4puURdrXYohtIVVmdKG2KYGfphN8 > Dez80AgS)VbUyeMi) > *8GjZQ3z2)mCawxBSd2uzrFJ1YMlAoMyVVYJ11j2RsXM7NUKFjsyP6PlFu)oPK > l87I4tFiod(CJl2kS > *8GkFgMZ4avozrpKb7eSmqFD8zPNheKMnOemTwW(7FVFD86KdSNnojzM45ZcNg > y(PeP53NBtmyD12RL > *8GF3jIu8FbGeRjyBfOn9BbMIz7)1hZ3eCZSIIDx5N5qOcWgABfjYPMcWC8QOF > Q8hmaOY5xZXm3jT9e > *8Gm5O0MGmi31jy6TFHkpkzlNdZ1PwSj)vYxDSUW8gyt5ZGtd3sXLZhAuDP9bA > Bicc9lm4TYOlTuM10 > *8GHBbHRAUeI0y42DisYB4Igfi)J6hNT3UBgpvQJSK8ks)QT48E0IQJPCu5OsH > Q2YDfXB4ClZUU5KS7 > *8GIFbEOrIhsTR6rh9h0NvPyz)(MTNwyDSnH8)7fJQsYJcBoeaL4WnyiwnhdTr > K)tXLfUEV041YfVeo > *8GpcSXVUtkRKVaqNoguBwmyrLlKNc4jYYwPoTUKp9NfI83AryQc8ZNthJfFz5 > 9sHcVW(mClDwoBR9T *0mKJuvBxyAc7uV0e0Oqwq8nh000)4M > > which in the online version is this: > > a1. > 1. f. Primera letra del abecedario español y del orden latino > internacional, que representa un fonema vocálico abierto y central. 2. > f. Fil. Signo de la proposición universal afirmativa. ~ por ~ y b > por b. > 1. loc. adv. > SrvltObtenerHtml?origen=RAE&LEMA=punto&SUPIND=0&CA > REXT=10000&NEDIC=No#punto_por_punto. punto por punto. a2. > ( Del lat. ad). > 1. prep. Precede a determinados complementos verbales, como el > complemento indirecto y el complemento directo cuando este es > de persona > determinada o está de algún modo personificado. Legó su fortuna a los > pobres. Respeta a los ancianos. El gato persigue a un ratón. > 2. prep. Precede al infinitivo regido por un verbo que indica el > comienzo, aprendizaje, intento, logro, mantenimiento o finalidad de la > acción. Empezar a correr. Enseñar a leer. Disponerse a escapar. > 3. prep. Precede al complemento de nombres y verbos de > percepción y > sensación, para precisar la sensación correspondiente. Sabor > a miel. Huele a > chamusquina. > 4. prep. Precede al complemento nominal o verbal que es > régimen de > ciertos verbos. Condenar a muerte. Jugar a las cartas. > 5. prep. Precede al complemento de algunos adjetivos. > Suave al tacto. > Propenso a las enfermedades. > 6. prep. Indica la dirección que lleva o el término a > que se encamina > alguien o algo. Voy a Roma, a palacio. Estos libros van dirigidos a tu > padre. U. en frs. elípticas imper. ¡A la cárcel! ¡A comer! > 7. prep. Precisa el lugar o tiempo en que sucede algo. > Le cogieron a > la puerta. Firmaré a la noche. > 8. prep. Indica la situación de alguien o algo. A la derecha del > director. A oriente. A occidente. 9. prep. Designa el intervalo de > lugar o de tiempo que > media entre una > cosa y otra. De calle a calle. De once a doce del día. > 10. prep. Denota el modo de la acción. A pie. A > caballo. A mano. A > golpes. > 11. prep. Precede a la designación del precio de las > cosas. A veinte > reales la vara. A cincuenta la fanega. > 12. prep. Indica distribución o cuenta proporcional. > Dos a dos. A tres > por ciento. > 13. prep. Ante infinitivo, en expresiones de sentido > condicional, > equivale a la conjunción si con indicativo o subjuntivo. A > decir verdad. A > saber yo que había de venir. > 14. prep. > SrvltObtenerHtml?origen=RAE&LEMA=ante&SUPIND=2&CAR > EXT=10000&NEDIC=No ante2. A la vista. > 15. prep. > SrvltObtenerHtml?origen=RAE&LEMA=con&SUPIND=0&CARE > XT=10000&NEDIC=No con. Quien a hierro mata, a hierro muere. > 16. prep. > SrvltObtenerHtml?origen=RAE&LEMA=hacia&SUPIND=0&CA > REXT=10000&NEDIC=No hacia. Se fue a ellos como un león. > 17. prep. > SrvltObtenerHtml?origen=RAE&LEMA=hasta&SUPIND=0&CA > REXT=10000&NEDIC=No hasta. Pasó el río con el agua a la cintura. > 18. prep. > SrvltObtenerHtml?origen=RAE&LEMA=junto&SUPIND=0&CA > REXT=10000&NEDIC=No#junto_a. junto a. A la orilla del mar. > 19. prep. > SrvltObtenerHtml?origen=RAE&LEMA=para&SUPIND=0&CAR > EXT=10000&NEDIC=No para. A beneficio del público. > 20. prep. > SrvltObtenerHtml?origen=RAE&LEMA=por&SUPIND=0&CARE > XT=10000&NEDIC=No por. A instancias mías. > 21. prep. > SrvltObtenerHtml?origen=RAE&LEMA=según&SUPIND=0&CA > REXT=10000&NEDIC=No según. A fuero de Aragón. A lo que parece. A la > moda. > 22. prep. Da principio a muchas locuciones adverbiales. > A bulto. A > oscuras. A tientas. A regañadientes. A todo correr. > 23. prep. Precede a la conjunción que en fórmulas > interrogativas con > una idea implícita de apuesta o desafío. ¡A que no te > atreves! ¿A que no lo > sabes? > a-1. > ( Del lat. ad-). > 1. pref. Carece de significación precisa. Amatar. > Asustar. Avenar. > a-2. > ( Del gr. ἀ-, priv. ). > 1. pref. Denota privación o negación. Acromático. > Ateísmo. Ante vocal > toma la forma an-. Anestesia. Anorexia. > > > > Steven A Rowe wrote: > > > > Hi Peter, > > > > On 01/12/2009 at 1:43 PM, peter.aisher wrote: > > > ... the contents of the FILE field is the definition. the problem > > > is that the contents of this field is just garbled text. is there > > > any obvious compression technique which might have been used to > > > store this? .... The text in the files looks like this: > > > > > > > *8G04)B0e0000000000ortpTAnRG3KU3rXB8CC1qoOfRCN8JYF7LIgcTUwlCfQ > jnPCL5rOKMGybEhe5 > > > > *8GXuLvt6ESsnc7OJJCMlIE7vAPMy(xbim2Ic8lI0TT0)T3TTp)dGfktY1LLdF > zg4k8K8(U6)EDRrmk > > [...] > > > *0dI)(gRIa0k00003aN > > > > Looks to me like it's Base64 encoded with a non-standard alphabet, and > > maybe a prefix of some kind ("*8G" / "*0d"). It'd be easier to tell if > > you had a plaintext version of some encoded text. > > > > Steve > > > > > > > > --------------------------------------------------------------------- > > To unsubscribe, e-mail: java-user-unsubscr...@lucene.apache.org For > > additional commands, e-mail: java-user-h...@lucene.apache.org > > > > > > > -- View this message in context: > http://www.nabble.com/stuck-with-Encoded-%28possibly-%29-Datab > ase-entries-tp21420932p21422358.html Sent from the Lucene - Java Users > mailing list archive at Nabble.com. >