Estou até agora tentando entender porque você precisa balancear.
Já mexi com isso e nunca precisei fazer tal manobra

[]s
Leonard de Assis
http://about.me/ldeassis

Em 08/11/2012 17:15, Fernando Colugnati escreveu:
Na verdade eu não conheço muito sobre métodos de classificação, mas para utilização dos modelos logísticos não há qualquer suposição deste tipo...
Abs


Em 7 de novembro de 2012 00:22, Vinicius Brito Rocha <[email protected] <mailto:[email protected]>> escreveu:

    Fernando,

    sim. o modelo é para classificação.

    O problema é que minhas classes são extremamente desbalanceadas.

    Até onde sei recomenda-se ter classes balanceadas. E esse é
    exatamente o que estou trazendo a discussão.

    Você discorda disso?

    Abs.

    Vinicius Brito Rocha

    Em 6 de novembro de 2012 22:58, Fernando Colugnati
    <[email protected] <mailto:[email protected]>> escreveu:

        Desde quando vc precisa ter 50% de 1 e 50% de zeros para fazer
        uma regressão logística? Não entendi bem seu problema! Vc fala
        em treinamento...este modelo será para classificação?



        Em 6 de novembro de 2012 23:37, viniciusbritor
        <[email protected] <mailto:[email protected]>>
        escreveu:

            amostrar com reposição toda a informação da classe alvo  ,
            Y=1 para que tenha o mesmo tamanho da classe Y=0.
            apenas na amostra de treinamento


            Enviado por Samsung Mobile

            Leonard Mendonça de Assis <[email protected]
            <mailto:[email protected]>> escreveu:

            Vinícius

            o que você está chamando de reamostragem?

            []s
            Leonard de Assis
            http://about.me/ldeassis

            Em 06/11/2012 19:14, Vinicius Brito Rocha escreveu:
            Pessoal,

            preciso tirar uma dúvida a respeito de regressão logistica.

            Tenho uma conjunto de dados, onde existe um grande
            desbalanceamento nas classes da variável resposta (meu
            evento Y=1 a ser modelado, possui poucas observações)

            O que fiz foi:

            separei 70% dos dados para amostra treino e 30% para teste.

            na amostra treino (70%):

              * utilizei uma re-amostragem, apenas na classe do
                evento (Y=1) e fiz com que as linhas desta  classe
                fossem re-amostradas até que a classe com resposta
                Y=1 possui-se a mesma quantidade de linhas da classe
                (Y=0)
              * Com minha base de amostra treino balanceada ajustei
                um modelo de regressão logistica


            na amostra teste(30%):

              * calculei minhas probabilidades de respostas a partir
                das variáveis independentes da amostra teste.
              * arbitrei um ponto de classificação de P_CHAP>= 0,7
                para classificar meu evento como classe (Y_CHAP=1) e
                 P_CHAP<0,7 classificar meu evento como Y_CHAP=0
              * Construi uma tabela de confusão comparando os
                resultados Y_CHAP e Y para comparar minha
                Sensitividade e 1-Especificidade.

            Dúvidas:

            A questão é que meus resultados estão muito ruins.
            Acredito que é a estrutura de dados.

              * Estou sendo questionado a respeito da técnica de
                re-amostragem na amostra treino para equilibrar as
                classes. Pois o demandante acredita que é necessário
                algum tipo de correção do modelo(feito a
                re-amostragem no ajuste da amostra treino) ao
                aplica-lo no  conjunto teste, que não sofreu nenhuma
                alteração.


            Alguém tem algum material que justifique o uso de
            re-amostragem nos dados da amostra treino?

            Abs.
-- /Vinicius Brito Rocha./
            /Estatístico e Atuário (IM / UFRJ)//
            Mestre em Pesquisa Operacional (COPPE / UFRJ)/

            www.aplicademic.blogspot.com
            <http://www.aplicademic.blogspot.com>
            http://twitter.com/viniciusbritor

            "Não se preocupe muito com as suas dificuldades em
            Matemática, posso assegurar-lhe que as minhas são ainda
            maiores." - Albert Einstein.




            _______________________________________________
            R-br mailing list
            [email protected]  <mailto:[email protected]>
            https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
            Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e 
forneça código mínimo reproduzível.


            _______________________________________________
            R-br mailing list
            [email protected] <mailto:[email protected]>
            https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
            Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia)
            e forneça código mínimo reproduzível.




-- Fernando A.B. Colugnati





-- /Vinicius Brito Rocha./
    /Estatístico e Atuário (IM / UFRJ)//
    Mestre em Pesquisa Operacional (COPPE / UFRJ)/

    www.aplicademic.blogspot.com <http://www.aplicademic.blogspot.com>
    http://twitter.com/viniciusbritor

    "Não se preocupe muito com as suas dificuldades em Matemática,
    posso assegurar-lhe que as minhas são ainda maiores." - Albert
    Einstein.





--
Fernando A.B. Colugnati




_______________________________________________
R-br mailing list
[email protected]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código 
mínimo reproduzível.

_______________________________________________
R-br mailing list
[email protected]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código 
mínimo reproduzível.

Responder a