En cualquier proceso de medición de una característica observada sobre un ente objeto de estudio en una investigación o una simple toma de muestras, se pueden presentar valores que se alejan del punto central de la totalidad de datos tanto por debajo como por encima de él. A tales datos u observaciones se les denomina valores atípicos y su obtención es dudosa por lo que en principio, podrían ser excluidos del análisis del conjunto de datos.
Un dato atípico puede originarse cuando no se sigue correctamente la técnica del proceso de muestreo como por ejemplo, uso de vidriería contaminada, cambios inesperados de las condiciones ambientales, equipos con problemas técnicos, inexperiencia de un analista, un registro mal anotado, etc. Todo esto puede justificar la exclusión del dato y cuando no se conoce su origen, la simple sospecha de que se cometió un error en su obtención justifica su eliminación. Sin embargo, si son varias las observaciones que presentan este comportamiento, amerita la aplicación de alguna técnica que permita identificarlos como datos con problemas y basado en este proceso, decidir su exclusión o no del análisis.
Dos técnicas muy simples permiten realizar un análisis del conjunto de datos en relación con la identificación de valores atípicos, tales métodos son el gráfico de ramas y el de cajas y bigotes.
Veamos un ejemplo usando el método de caja y bigote (Box and Wiskers).
Supóngase que se hace alguna medios en una planta de tratamiento de agua y se obtienen los siguientes resultados: 2.28, 1.56, 1.33, 0.82, 0.90, 1.11, 1.32, 1.21, 1.24, 2.03, 4.54, 6.50, 1.21, 3.93 y 2.07.
Se quiere saber si se tienen datos atípicos en esta muestra.
Lo primero que se debe hacer es organizar los datos de menor a mayor:
0,82 0,9 1,11 1,21 1,21 1,24 1,32 1,33 1,56 2,03 2,07 2,28 3,93 4,54 6,5
A simple vista el valor 6.5 parece estar más alejado del resto y podría ser un valor a descartar, pero para saberlo se usará la técnica de caja y bigotes.
valor medio: 1.33
Percentil 25: 0.25*15 = 3.75 posición del valor que por debajo deja al 25% de los datos, ese valor es
1.21
Percentil 75: 0.75*15 = 11.25 posición del valor que deja por debajo de él un 75% de los datos, ese
valor es 2.28
Rango intercuartílico : (Percentil 75 - percentil 25)
(2.28 - 1.21)/2 = 1.07
Limite inferior por debajo del cual estarían los datos atípicos inferiores:
Percentil 25 - 1,5*(rango intercuartílico) = 1.21 - 1.5*1.07 = -0.395
valor adyacente observado = 0.82
Limite superior por encima del cual estarían los datos atípicos superiores:
Percentil 75 + 1,5*(rango intercuartílico) = 2.28 + 1.5 * 1.07 = 3.90
Valor adyacente observado = 3.93
Los valores por fuera del rango 0.82 a 3.93 se consideran atípicos.
Valores atípicos en la muestra obtenida son: 4.54 y 6.50
Estas dos observaciones serán eliminadas de la muestra obtenida.