De fato foram ótimas dicas.

Só fiquei com uma dúvida: como controlar o AI::Categorizer para utilizar como tokens mais de uma palavra?

[]'s
Alceu

Em 17-04-2013 12:22, Marcio Ferreira escreveu:
Falando ainda de matrix e comparações, 2 módulos que me ajudam muito e
poupam tempo
https://metacpan.org/module/List::Compare
https://metacpan.org/module/Algorithm::Combinatorics

Esse tipo de trabalho você precisa saber o que quer e ir construindo aos
poucos. E vai pegando essas manhas que o Stan citou.

Recomendo também distribuir o trabalho com
https://metacpan.org/module/Parallel::ForkManager, MAS cuidado!! Saiba
qual ponto distribuir.
O run_on_finish é útil usado com moderação, ele escreve no disco, aí
pode ser um baita gargalo =S.

Use um https://metacpan.org/module/Devel::NYTProf pra saber onde otimizar.

Stan++ #ótimo artigo!


[]s,

Marcio Ferreira
skype: marcio.ferreir4
(21) 8365-7768


2013/4/16 Stanislaw Pusep <creakt...@gmail.com <mailto:creakt...@gmail.com>>

    Quanto ao módulo de stopwords em português, existe um, sim:
    https://metacpan.org/module/Lingua::StopWords
    Outra coisa interessante é aplicar um stemmer:
    https://metacpan.org/module/Lingua::Stem::Snowball
    Também vale notar uma técnica "ninja": quem disse que token precisa
    corresponder a UMA palavra? Usando bi- ou tri-gramas, observei
    aumento considerável na precisão da categorização de textos curtos.
    Ah, um detalhe importantíssimo: para mensurar o desempenho dos
    modelos estatísticos, é comum usar uma "matriz da confusão"
    (https://en.wikipedia.org/wiki/Confusion_matrix).
    Por fim, existem coisas prontas para análise de texto usando
    Hadoop/Mahout: https://cwiki.apache.org/MAHOUT/twenty-newsgroups.html

=begin disclaimer
  Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
SaoPaulo-pm mailing list: SaoPaulo-pm@pm.org
L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
=end disclaimer

Responder a