Hola a todos!
Estoy haciendo un pequeño programa que encuentre todas las palabras
incluyendo las acentuadas de un gran texto y las almacene en un string.
Intenté con la expresión regular [a-zA-Záéíóúñ]+:
coleccion = re.findall("[a-zA-Záéíóúñ]+", text.lower())
Pero no funciona, solo encuentra las
a mi me funciona
# -*- coding: utf-8 -*-
import re
text = "fínd me! ñ"
coleccion = re.findall("[a-zA-Záéíóúñ]+", text.lower())
print ' '.join(coleccion)
# end
r...@darkstart:~$ python test1.py
fínd me ñ
~Rolando
2010/5/16 Andreina Mejia :
> Hola a todos!
>
> Estoy haciendo un pequeño progra
Gracias por responder Rolando... pero no entiendo por qué a mi no me
funciona. Estoy tratando de adaptar este corrector ortográfico:
http://www.norvig.com/spell-correct.html al español, pensé que bastaría con
sólo modificar la expresión regular he incluir en la búsqueda las vocales
acentuadas y la
2010/5/16 Andreina Mejia :
> Hola a todos!
>
> Estoy haciendo un pequeño programa que encuentre todas las palabras
> incluyendo las acentuadas de un gran texto y las almacene en un string.
> Intenté con la expresión regular [a-zA-Záéíóúñ]+:
Nota lingüística:
no te olvides de la ü.
/Raul
_
Seguramente es un discrepancia entre la codificación de tu código python y
la codificación de los datos que estés leyendo. Fíjate en la primera línea
de código de Rolando, empieza con:
# -*- coding: utf-8 -*-
Este indica al interprete que el programa esta codificado en utf-8; si tus
datos también
2010/5/16 Andreina Mejia :
>
> Gracias por responder Rolando... pero no entiendo por qué a mi no me
> funciona. Estoy tratando de adaptar este corrector ortográfico:
> http://www.norvig.com/spell-correct.html al español, pensé que bastaría con
> sólo modificar la expresión regular he incluir en la
Uh... bueno aquí coloco el código con las pequeñas modificaciones que he
hecho para probar:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re, collections
def words(text):
text.lower()
return re.findall('\w+', 'í'.decode('utf-8'), re.UNICODE) #Para probar
si reconoce las palabra
2010/5/17 Andreina Mejia :
[...]
> def correct(word):
> candidates = known([word]) or known(edits1(word)) or known_edits2(word)
> or [word]
> key=NWORDS.get
> print candidates
> print key
prueba con:
print ', '.join(candidates)
> if __name__=='__main__':
> word= raw_inp
Si imprime bien, pero el problema está en que las palabras que contiene
Diccionario.txt no están en utf-8 por lo que no me corrige las palabras
acentuadas o las q tengan 'ñ'... por eso la salida es del tipo d\xc3\xada.
Cómo hago para colocar todo el contenido de Diccionario.txt en utf-8?
Gracias
Andreina Mejia wrote:
Si imprime bien, pero el problema está en que las palabras que contiene
Diccionario.txt no están en utf-8 por lo que no me corrige las palabras
acentuadas o las q tengan 'ñ'... por eso la salida es del tipo d\xc3\xada.
Cómo hago para colocar todo el contenido de Diccion
El día 18 de mayo de 2010 02:50, Andreina Mejia
escribió:
>
> Si imprime bien, pero el problema está en que las palabras que contiene
> Diccionario.txt no están en utf-8 por lo que no me corrige las palabras
> acentuadas o las q tengan 'ñ'... por eso la salida es del tipo d\xc3\xada.
>
> Cómo hago
Yo convertiría el diccionario por ejemplo con el editor de texto plano
de Gnome (gedit): abrir el fichero, 'guardar como', y seleccionar UTF8
en el desplegable de la codificación de carácteres.
En/na Chema Cortes ha escrit:
El día 18 de mayo de 2010 02:50, Andreina Mejia
escribió:
Si imprim
12 matches
Mail list logo