My guess is that '*' is a fixed prefix denoting this encoding method, and that 
the next two characters are likely an encoded representation of the number of 
(valid) characters on the line - from the examples you've given:

  - '8G' means 76 characters
  - '0m' means 28 characters
  - '0d' means 16 characters

The simplest length encoding would be encode the character code for the given 
length using the same encoding method as for the rest of the text - so 
character code 76 ('L') would be encoded as '8G', etc.

It's possible that there are embedded encodings - that is, if it's true that 
the text is Base64 encoded, and you figure out what the non-standard alphabet 
mapping is, and you decode the text, the result may itself also be encoded in 
some other way.

Sorry, I don't know any more than this - good luck!

Steve

On 01/12/2009 at 2:55 PM, peter.aisher wrote:
> 
> Hi Steve
> 
> 
> That sounds possible:
> 
> 
> the problem is that I'm not sure what the plaintext version
> is - there is an
> online version of the dictionary so for example the entry for 'a' in
> garbled-text is this:
> 
> *8G04)B0e0000000000gTMqjEw2c3mU6rhoI(Ci4xSF4pG8bFPY2B26cuCtk4c
> gwPsJqRnPHxQjZBBY
> *8GXG4UA1QjjKK7ESvW5yYESYey9KlohAk1sSpOCPsMehyo0LzbFjhRTUUSAl)
> 2xd7fxuHEMNLusQs8
> *8GYp)TnmD8zwnr4r99ZMmYnnX1MMJNKoQv7bn9oHMSkX5KnMfA4(f9voBthgU
> NIZ79gU18tYSUPItu
> *8G3ZMImar0AKZD6aJx8uwgXbJBpIoLTedDJwF2GvEgD23)zEwzLd4V5ev0Cyh
> TTiyBEialXGT5hS0Z
> *8GaboealGeaX2a10TeX4QGJFFuMx4XPwJcVji)Vn6g7CfjFAfNPJb)IB(tKxr
> TkTY)tHlI27WcAj5H
> *8G5hvRR)yDqTxZAPOq2T(tjc9V(GEsxnOPItc(kTF3oHfDQayiuNfxZDUOmya
> D8OsRo)iRaU4NMDzA
> *8G6CoVXbPa723rHMghS3MDqhS)(cQpLfwMSacfOs0A)ugVUonpqRUOiylfr7f
> HEkvy3swKZZU3K3sk
> *8GdgCMPv8vug2HqMxI1rDMuXxLeBfNBZIiNccBhcbXn3gldl2azjY93KCGb5D
> nyV0W3kweXTswXQy8
> *8GeMGvfO19LzgwJ5mrJLpQjEQhu6vwl6byBnMqwauiwccUevb1jH7Wks)aJ4f
> 6qCZ2UH3UIXojfNMo
> *8G9RF3Af4)JS6NF6jdwMZEuOD7TcDyqY(13JyibWErDuTm0kBzmhTT)zfaGo2
> 5cw82DDaqIn25oNqx
> *8GAip26e3wLim)yKgD4R1xlwwWqV9DDLCje9C8WrCy9WPWWT6NYRvXJqhUwjL
> b)jC9W1XY1V6mR7NJ
> *8GhGE58D5hjeMn3RXythJ(1eA7J5RUcc0kCmFJLUeT0HrOmkcQwRmympjkXHk
> asJcjVOQwS7okoryv
> *8GC6eOuMTtensHmJL9Icb2j8F7GfC1Gfa4puURdrXYohtIVVmdKG2KYGfphN8
> Dez80AgS)VbUyeMi)
> *8GjZQ3z2)mCawxBSd2uzrFJ1YMlAoMyVVYJ11j2RsXM7NUKFjsyP6PlFu)oPK
> l87I4tFiod(CJl2kS
> *8GkFgMZ4avozrpKb7eSmqFD8zPNheKMnOemTwW(7FVFD86KdSNnojzM45ZcNg
> y(PeP53NBtmyD12RL
> *8GF3jIu8FbGeRjyBfOn9BbMIz7)1hZ3eCZSIIDx5N5qOcWgABfjYPMcWC8QOF
> Q8hmaOY5xZXm3jT9e
> *8Gm5O0MGmi31jy6TFHkpkzlNdZ1PwSj)vYxDSUW8gyt5ZGtd3sXLZhAuDP9bA
> Bicc9lm4TYOlTuM10
> *8GHBbHRAUeI0y42DisYB4Igfi)J6hNT3UBgpvQJSK8ks)QT48E0IQJPCu5OsH
> Q2YDfXB4ClZUU5KS7
> *8GIFbEOrIhsTR6rh9h0NvPyz)(MTNwyDSnH8)7fJQsYJcBoeaL4WnyiwnhdTr
> K)tXLfUEV041YfVeo
> *8GpcSXVUtkRKVaqNoguBwmyrLlKNc4jYYwPoTUKp9NfI83AryQc8ZNthJfFz5
> 9sHcVW(mClDwoBR9T *0mKJuvBxyAc7uV0e0Oqwq8nh000)4M
> 
> which in the online version is this:
> 
> a1.
>  1.      f. Primera letra del abecedario español y del orden latino
>  internacional, que representa un fonema vocálico abierto y central. 2. 
>      f. Fil. Signo de la proposición universal afirmativa. ~ por ~ y b
>  por b.
>   1.      loc. adv.
> SrvltObtenerHtml?origen=RAE&LEMA=punto&SUPIND=0&CA
> REXT=10000&NEDIC=No#punto_por_punto. punto por punto. a2.
>  ( Del   lat.  ad).
>  1.      prep. Precede a determinados complementos verbales, como el
> complemento indirecto y el complemento directo cuando este es
> de persona
> determinada o está de algún modo personificado. Legó su fortuna a los
> pobres. Respeta a los ancianos. El gato persigue a un ratón.
>  2.      prep. Precede al infinitivo regido por un verbo que indica el
> comienzo, aprendizaje, intento, logro, mantenimiento o finalidad de la
> acción. Empezar a correr. Enseñar a leer. Disponerse a escapar.
>  3.      prep. Precede al complemento de nombres y verbos de
> percepción y
> sensación, para precisar la sensación correspondiente. Sabor
> a miel. Huele a
> chamusquina.
>  4.      prep. Precede al complemento nominal o verbal que es
> régimen de
> ciertos verbos. Condenar a muerte. Jugar a las cartas.
>  5.      prep. Precede al complemento de algunos adjetivos.
> Suave al tacto.
> Propenso a las enfermedades.
>  6.      prep. Indica la dirección que lleva o el término a
> que se encamina
> alguien o algo. Voy a Roma, a palacio. Estos libros van dirigidos a tu
> padre. U. en frs. elípticas imper. ¡A la cárcel! ¡A comer!
>  7.      prep. Precisa el lugar o tiempo en que sucede algo.
> Le cogieron a
> la puerta. Firmaré a la noche.
>  8.      prep. Indica la situación de alguien o algo. A la derecha del
>  director. A oriente. A occidente. 9.      prep. Designa el intervalo de
>  lugar o de tiempo que
> media entre una
> cosa y otra. De calle a calle. De once a doce del día.
>  10.      prep. Denota el modo de la acción. A pie. A
> caballo. A mano. A
> golpes.
>  11.      prep. Precede a la designación del precio de las
> cosas. A veinte
> reales la vara. A cincuenta la fanega.
>  12.      prep. Indica distribución o cuenta proporcional.
> Dos a dos. A tres
> por ciento.
>  13.      prep. Ante infinitivo, en expresiones de sentido
> condicional,
> equivale a la conjunción si con indicativo o subjuntivo. A
> decir verdad. A
> saber yo que había de venir.
>  14.      prep.
> SrvltObtenerHtml?origen=RAE&LEMA=ante&SUPIND=2&CAR
> EXT=10000&NEDIC=No ante2.  A la vista.
>  15.      prep.
> SrvltObtenerHtml?origen=RAE&LEMA=con&SUPIND=0&CARE
> XT=10000&NEDIC=No con.  Quien a hierro mata, a hierro muere.
>  16.      prep.
> SrvltObtenerHtml?origen=RAE&LEMA=hacia&SUPIND=0&CA
> REXT=10000&NEDIC=No hacia.  Se fue a ellos como un león.
>  17.      prep.
> SrvltObtenerHtml?origen=RAE&LEMA=hasta&SUPIND=0&CA
> REXT=10000&NEDIC=No hasta.  Pasó el río con el agua a la cintura.
>  18.      prep.
> SrvltObtenerHtml?origen=RAE&LEMA=junto&SUPIND=0&CA
> REXT=10000&NEDIC=No#junto_a. junto a.  A la orilla del mar.
>  19.      prep.
> SrvltObtenerHtml?origen=RAE&LEMA=para&SUPIND=0&CAR
> EXT=10000&NEDIC=No para.  A beneficio del público.
>  20.      prep.
> SrvltObtenerHtml?origen=RAE&LEMA=por&SUPIND=0&CARE
> XT=10000&NEDIC=No por.  A instancias mías.
>  21.      prep.
> SrvltObtenerHtml?origen=RAE&LEMA=según&SUPIND=0&CA
> REXT=10000&NEDIC=No según.  A fuero de Aragón. A lo que parece. A la
> moda.
>  22.      prep. Da principio a muchas locuciones adverbiales.
> A bulto. A
> oscuras. A tientas. A regañadientes. A todo correr.
>  23.      prep. Precede a la conjunción que en fórmulas
> interrogativas con
> una idea implícita de apuesta o desafío. ¡A que no te
> atreves! ¿A que no lo
> sabes?
> a-1.
>  ( Del   lat.  ad-).
>  1.      pref. Carece de significación precisa. Amatar.
> Asustar. Avenar.
> a-2.
>  ( Del   gr.  ἀ-,  priv. ).
>  1.      pref. Denota privación o negación. Acromático.
> Ateísmo. Ante vocal
> toma la forma an-. Anestesia. Anorexia.
> 
> 
> 
> Steven A Rowe wrote:
> > 
> > Hi Peter,
> > 
> > On 01/12/2009 at 1:43 PM, peter.aisher wrote:
> > > ... the contents of the FILE field is the definition. the problem
> > > is that the contents of this field is just garbled text. is there
> > > any obvious compression technique which might have been used to
> > > store this? .... The text in the files looks like this:
> > > 
> > > 
> *8G04)B0e0000000000ortpTAnRG3KU3rXB8CC1qoOfRCN8JYF7LIgcTUwlCfQ
> jnPCL5rOKMGybEhe5
> > > 
> *8GXuLvt6ESsnc7OJJCMlIE7vAPMy(xbim2Ic8lI0TT0)T3TTp)dGfktY1LLdF
> zg4k8K8(U6)EDRrmk
> > [...]
> > > *0dI)(gRIa0k00003aN
> > 
> > Looks to me like it's Base64 encoded with a non-standard alphabet, and
> > maybe a prefix of some kind ("*8G" / "*0d").  It'd be easier to tell if
> > you had a plaintext version of some encoded text.
> > 
> > Steve
> > 
> > 
> > 
> > ---------------------------------------------------------------------
> > To unsubscribe, e-mail: java-user-unsubscr...@lucene.apache.org For
> > additional commands, e-mail: java-user-h...@lucene.apache.org
> > 
> > 
> > 
> -- View this message in context:
> http://www.nabble.com/stuck-with-Encoded-%28possibly-%29-Datab
> ase-entries-tp21420932p21422358.html Sent from the Lucene - Java Users
> mailing list archive at Nabble.com.
>

 

Reply via email to