ESTADÍSTICA
COMPRENSIÓN DE LOS DATOS
Población (con N
individuos/elementos)
Muestra
aleatoria (con n
individuos/elementos)
Variables: hay
categóricas/cualitativas (nominales y ordinales) y cuantitativas
(discretas y continuas-de intervalo y de razón)
Análisis exploratorio de datos (con variables
cuantitativas)
- Realización de gráficos.
- Identificación de: aspecto general, desviaciones y observaciones atípicas.
- Resumen numérico para describir: centro y dispersión de la distribución.
- Utilización de curvas de densidad con distribuciones con forma regular.
Matriz de datos
(distribución; frecuencias relativas: xi/n;
frecuencias porcentuales: fr.r.*100; frecuencias acumuladas
crecientes y decrecientes: 1/n, sumando y disminuyendo
respectivamente).
Diagramas:
- De
Barra: útil para variables
cualitativas
- Circular:
útil para variables cualitativas
- Histograma:
útil para variables cuantitativas. Clases. Aspecto general de la
distribución: centro (M); dispersión (Máx-Mín); forma
(irregular; simétrica, asimétrica); observaciones atípicas (un
tipo de desviación).
- De
Tallo-Hojas: ¡el tallo debe tener
todos los dígitos menos el del final, que se coloca en las hojas!
Redondeo. División de tallos. Aspecto general de la distribución:
centro (M); dispersión (recorrido=Máx-Mín); forma (irregular;
simétrica, asimétrica); observaciones atípicas (un tipo de
desviación).
- De
Tallo-Hojas doble: útil para
comparar dos distribuciones
- Gráficos
temporales: Tendencia (creciente o
decreciente). Desviaciones.
Aspecto general de las
distribuciones con números:
- Media
(
):
promedio, media aritmética. Nº total de observaciones. Sensibilidad
a observaciones extremas.
- Mediana
(M): Centro. Lo típico. División entre
observaciones menores y mayores. Cantidad impar (+1), par (promedio
entre 2). SIN sensibilidad a observaciones extremas.
- Si
> M
Asimetría derecha; si
< M
Asimetría izquierda.
- Cuartiles
(Q): mejora la descripción de la dispersión. Q1=
25%; Q3=
75%. Regla de M. 50 % de los datos centrales. SIN
sensibilidad a observaciones extremas. Recorrido intercuartil.
- Diagramas
de caja/Box Plot: Mín.- Q1-
M- Q3-
Máx. Ver: simetría; M; concentración.
- Desviación
típica (S) /Varianza (s2):
mide dispersión de las observaciones con respecto a la
.
Tiene unidad de medida. A mayor dispersión, resultado más grande.
S=0 cuando no hay dispersión. Sensibilidad a observaciones
extremas.
Curvas Normales:
Curvas de
densidad: Área: 1. Siempre encima
de y. Muestra simetría o asimetría. No muestra observaciones
atípicas. Simétricas
Curvas
Normales: 1 pico; forma de
campana; describen Distribuciones Normales N (,).
- Regla
del 68-95-99,7.
- Mediana:
identificable y calculable.
- Media
():
identificable y calculable.
- Desviación
típica ():
calculable. Distancia a ambos lados de
en la que la curva tiene una inflexión.
- Observaciones/valores
estandarizadas/os:
- Distribución
normal estandarizada: N(0,1)
- Tabla
A: tabla de las áreas por debajo de
la curva normal estandarizada. ¡En una distribución normal, la
proporción de observaciones con x> 240 es la misma que la
proporción de observaciones con x
240, ya que el área por debajo de la curva y encima de 240 es cero!
¡Una z que queda fuera del intervalo de valores cubierto por la
tabla A es considerada cero!
- Valoración
de la normalidad: comparación entre
,
s,
2s y
3s y la regla del 68-95-99,7.
ANÁLISIS DE LAS RELACIONES
Variables: explicativa/predictiva (x) y
respuesta/predicha (y) ≠
independiente y dependiente. Los cambios en una NO IMPLICAN cambios
en la otra.
Análisis de datos
- Realización de gráficos.
- Identificación de: aspecto general, desviaciones y observaciones atípicas.
- Resumen numérico.
Diagrama de dispersión:
útil para variables cuantitativas medidas para los mismos
individuos. Aspecto general de la dispersión: dirección (asociación
positiva/negativa); forma (lineal/curvilínea/sin
forma/agrupaciones); fuerza (relación débil/ fuerte); observaciones
atípicas (introducción de variables categóricas).
Relaciones lineales:
- Correlación
(r): medición de fuerza (0
1 ó -1) y dirección (+ ó -). -1 > r < 1. Sin unidad de
medida. Mide SÓLO la fuerza de una relación lineal, NO otra forma.
Sensibilidad a observaciones extremas. Descripción insuficiente
8necesidad de medias y desviaciones típicas).
- Recta
de regresión mínimo-cuadrática:
útil para predicciones. Necesidad de variable explicativa y
respuesta. Trazado: ¡calcular los valores extremos de las
observaciones dadas! (con fin y principio)
- Correlación
y regresión: r2
en la regresión: variación de los valores de y que se explica por
la regresión mínimo-cuadrática de y sobre x.
- Residuos:
y observada- y predicha.
- Diagrama
de residuos: media cero; error de
redondeo. Si: forma curva
relación no lineal; onda
predicción poco precisa para valores mayores; residuos grandes
individuales
observaciones atípicas. Puntos extremos influyentes.
- Límites:
Extrapolación; Variables latentes; Uso de promedios; Asociación no
implica causalidad.
Tabla de contingencia:
útil para variables categóricas. Variables fila y variables
columna. Distribuciones marginales (error de redondeo).
- Diagrama
de barras: uso de porcentaje
distribución condicional. Paradoja de Simpson.
Comentarios
Publicar un comentario