Elasticsearch kullanarak yapabilirsiniz.

Elasticsearch mysql river[1] ile verileri indexletir.Biraz sorgularla uğraşıp [2] tekrar eden içerikleri bulabilirsiniz.

[1] https://github.com/jprante/elasticsearch-river-jdbc

[2] http://tayyar-code.blogspot.com/2011/08/elasticsearch-advanced-search.html

On 10/11/13 5:27 PM, Yiğit Kozan wrote:
google ın bunu mu demek istediniz tarzında bi işlemle yapılabileceğini düşünüyorum. elinizdeki tüm kayıtları kütüphane olarak kullanacaksınz daha sonra tüm kayıtları bu kütüphaneyle karşılaştıracaksınız "bunu mu demek istediniz" algoritması en benzer kaydı getirecektir. bu şekilde gruplama yapabilirsiniz. çoğu dilin bu şekilde desteği vardır. kullandığınız dil için şöyle bir arama yaparsanız işinize yarayacak sonuçlara ulaşabilirsiniz. Örn : "php did you mean" ya da kendiniz benzer şekillerde arama yapabilirsiniz.


11 Ekim 2013 17:14 tarihinde Nuri AKMAN <nuriak...@gmail.com <mailto:nuriak...@gmail.com>> yazdı:

    Arkadaşlar,

    Elimde MYSQL veritabanında kayıtlı 180.000 adet firma adı var.
    Ancak, bu isimler kullanıcılar tarafından el ile girilmiş
    kayıtlar. Bunların bir çoğunun farklı yazılmış olmasından dolayı
    mükerrer olduğunu düşünüyoruz.

    Birkaç örnek vermek gerekirse:
    XYZ TOPRAK GIDA HAY. TUR. MAK.SAN. VE TİC. A.Ş
    XYZ TOPRAK GIDA HAYV. TUR. MAK. SAN. VE TİC. A.Ş.
    XYZ TOPRAK GIDA HAYVANCILIK TUR.MAK.SAN. VE TİCARET A.Ş.
    XYZ GIDA SAN. VE TİC. A.Ş.
    XYZ GIDA SAN.VE <http://SAN.VE> TİC.AŞ.
    XYZ ÇİFTLİK ÜRÜNLERİ ÜRETİM SAN. VE TİC. LTD. ŞTİ.
    XYZ ÇİFTLİK ÜRÜNLERİ ÜRETİM SAN.VE <http://SAN.VE> TİC.LTD.ŞTİ.
    XYZ KİREMİT TUĞLA FAB.
    XYZ KİREMİT VE TUĞLA FABRİKASI

    Bu kayıtları birbirine en yaklaşık olanlara göre elden geçirerek
    sadeleştirmem gerekiyor.

    Bu işin teknik adının ne olduğunu bilmediğim için google'da
    araştıramadım.

    Bunun nasıl yapılabileceğine ilişkin düşüncelerinize başvurmak
    istiyorum.

    Selamlar,
    Nuri Akman

    _______________________________________________
    Linux-programlama mailing list
    Linux-programlama@liste.linux.org.tr
    <mailto:Linux-programlama@liste.linux.org.tr>
    https://liste.linux.org.tr/mailman/listinfo/linux-programlama
    Liste kurallari: http://liste.linux.org.tr/kurallar.php




_______________________________________________
Linux-programlama mailing list
Linux-programlama@liste.linux.org.tr
https://liste.linux.org.tr/mailman/listinfo/linux-programlama
Liste kurallari: http://liste.linux.org.tr/kurallar.php

_______________________________________________
Linux-programlama mailing list
Linux-programlama@liste.linux.org.tr
https://liste.linux.org.tr/mailman/listinfo/linux-programlama
Liste kurallari: http://liste.linux.org.tr/kurallar.php

Cevap