Re: [R-es] Boxplot.stats

2018-06-13 Por tema Carlos Ortega
Hola,

Es lo que te comentaba en la segunda parte de mi respuesta.

   - Puedes crearte una función para ver los puntos que se van un 1.5*IQR
   (por arriba y por abajo) y aplicar esta función a cada columna.
   - O puedes utilizar un paquete (outliers) que hace este trabajo (
   https://datascienceplus.com/outlier-detection-and-treatment-with-r/).


Saludos,
Carlos.

El 13 de junio de 2018, 16:03, Dayana Muñoz 
escribió:

> Gracias por las respuestas, pero mi pregunta no era como obtener los
> outliers, sino como puedo encontrar los outliers directamente en mi
> base,dado que si tuviese una base de datos de 2000 datos sería tedioso
> buscar uno a uno los valores atípicos encontrados.
>
> Gracias de todos modos por sus respuestas 😊
>
> --
> *De:* Carlos Ortega 
> *Enviado:* martes, 12 de junio de 2018 19:01
> *Para:* Dayana Muñoz
> *Cc:* r-help-es@r-project.org
> *Asunto:* Re: [R-es] Boxplot.stats
>
> Hola,
>
> Mira el ejemplo de la ayuda:
>
> #--
> > rb <- boxplot(decrease ~ treatment, data = OrchardSprays, col = "bisque")
> > title("Comparing boxplot()s and non-robust mean +/- SD")
> > rb
> $stats
>  [,1] [,2] [,3] [,4] [,5]  [,6] [,7]  [,8]
> [1,]  2.0  4.0  9.0 20.0   39  20.0 60.0  69.0
> [2,]  2.5  5.0 14.0 24.5   45  50.5 65.5  74.0
> [3,]  4.0  7.5 16.5 32.0   53  70.0 72.0  81.0
> [4,]  5.0  9.0 24.0 45.0   78  88.5 78.5 106.5
> [5,]  5.0 14.0 29.0 57.0  114 114.0 92.0 130.0
>
> $n
> [1] 8 8 8 8 8 8 8 8
>
> $conf
>  [,1] [,2] [,3] [,4] [,5] [,6] [,7]
> [,8]
> [1,] 2.603464 5.265543 10.91386 20.54841 34.56573 48.77265 64.73801
> 62.84503
> [2,] 5.396536 9.734457 22.08614 43.45159 71.43427 91.22735 79.26199
> 99.15497
>
>
>
>
>
> *$out [1] 12 84 24 $group [1] 1 3 7*
>
> $names
> [1] "A" "B" "C" "D" "E" "F" "G" "H"
>
> #--
>
> Y luego en la ayuda lo que dice:
>
> out
>
> the values of any data points which lie beyond the extremes of the
> whiskers.
> group
>
> a vector of the same length as out whose elements indicate to which group
> the outlier belongs.
>
> Entonces la forma de encontrar usando esta alternativa que propones es
> primero generar los diferentes grupos (que los marca la variable
> "treatment" ) y en el primer grupo el valor 12 es un outlier, en el grupo 3
> el 84 es otro outlier y en el grupo "7" el valor 24 es otro outlier.
>
> De todas formas, tienes formas más fáciles de encontrar estos outliers
> utilizando la función "IQR()" y aplicándola a cada uno de los grupos, esto
> es lo que hace la función boxplot.
>
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
>
> El 12 de junio de 2018, 18:19, Dayana Muñoz 
> escribió:
>
> Junto con saludar,
>
> Quería saber si los que han usado boxplot.stats, saben como ubicar los
> resultados que arroja como "out" (outliers) directamente en la base de
> datos, ya que, muestra los resultados en valor de cada dato atípico.
>
> Por ejemplo, estoy usando una base de datos con 300 datos y 10 columnas,
> en este caso estoy buscando los datos atípicos de la columna del precio de
> x producto, me arroja los out, pero no el número de fila, sino que el valor:
>
> $out
>  [1] 2039333000 8990717000 1965476000 2014958000 3609685000 4679092000
>  [7] 3276474000 1561967000 3898798000 4290957000 2140644000 178459
> [13] 2266295000 2540774000 1656117000 3762612000
>
> Quiero ver una forma que me identifique estos valores en la base de datos.
>
> Agradeceré sus orientaciones, saludos!
>
> [[alternative HTML version deleted]]
>
>
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>



-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Boxplot.stats

2018-06-13 Por tema Dayana Muñoz
Gracias por las respuestas, pero mi pregunta no era como obtener los outliers, 
sino como puedo encontrar los outliers directamente en mi base,dado que si 
tuviese una base de datos de 2000 datos sería tedioso buscar uno a uno los 
valores atípicos encontrados.

Gracias de todos modos por sus respuestas 😊


De: Carlos Ortega 
Enviado: martes, 12 de junio de 2018 19:01
Para: Dayana Muñoz
Cc: r-help-es@r-project.org
Asunto: Re: [R-es] Boxplot.stats

Hola,

Mira el ejemplo de la ayuda:

#--
> rb <- boxplot(decrease ~ treatment, data = OrchardSprays, col = "bisque")
> title("Comparing boxplot()s and non-robust mean +/- SD")
> rb
$stats
 [,1] [,2] [,3] [,4] [,5]  [,6] [,7]  [,8]
[1,]  2.0  4.0  9.0 20.0   39  20.0 60.0  69.0
[2,]  2.5  5.0 14.0 24.5   45  50.5 65.5  74.0
[3,]  4.0  7.5 16.5 32.0   53  70.0 72.0  81.0
[4,]  5.0  9.0 24.0 45.0   78  88.5 78.5 106.5
[5,]  5.0 14.0 29.0 57.0  114 114.0 92.0 130.0

$n
[1] 8 8 8 8 8 8 8 8

$conf
 [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
[1,] 2.603464 5.265543 10.91386 20.54841 34.56573 48.77265 64.73801 62.84503
[2,] 5.396536 9.734457 22.08614 43.45159 71.43427 91.22735 79.26199 99.15497

$out
[1] 12 84 24

$group
[1] 1 3 7

$names
[1] "A" "B" "C" "D" "E" "F" "G" "H"

#--

Y luego en la ayuda lo que dice:

out

the values of any data points which lie beyond the extremes of the whiskers.


group

a vector of the same length as out whose elements indicate to which group the 
outlier belongs.


Entonces la forma de encontrar usando esta alternativa que propones es primero 
generar los diferentes grupos (que los marca la variable "treatment" ) y en el 
primer grupo el valor 12 es un outlier, en el grupo 3 el 84 es otro outlier y 
en el grupo "7" el valor 24 es otro outlier.

De todas formas, tienes formas más fáciles de encontrar estos outliers 
utilizando la función "IQR()" y aplicándola a cada uno de los grupos, esto es 
lo que hace la función boxplot.

Saludos,
Carlos Ortega
www.qualityexcellence.es


El 12 de junio de 2018, 18:19, Dayana Muñoz 
mailto:dayanaa...@hotmail.com>> escribió:
Junto con saludar,

Quería saber si los que han usado boxplot.stats, saben como ubicar los 
resultados que arroja como "out" (outliers) directamente en la base de datos, 
ya que, muestra los resultados en valor de cada dato atípico.

Por ejemplo, estoy usando una base de datos con 300 datos y 10 columnas, en 
este caso estoy buscando los datos atípicos de la columna del precio de x 
producto, me arroja los out, pero no el número de fila, sino que el valor:

$out
 [1] 2039333000 8990717000 1965476000 2014958000 3609685000 4679092000
 [7] 3276474000 1561967000 3898798000 4290957000 2140644000 178459
[13] 2266295000 2540774000 1656117000 3762612000

Quiero ver una forma que me identifique estos valores en la base de datos.

Agradeceré sus orientaciones, saludos!

[[alternative HTML version deleted]]


___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es




--
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es