Estadistica Practica Para Ciencia De Datos Y Python High Quality __full__ — Validated & Deluxe
Diferencia entre el percentil 75 y el 25. Crucial para detectar Outliers. Implementación en Python
import numpy as np import pandas as pd # Creación de un dataset ficticio con un outlier salarios = [3000, 3200, 3100, 2900, 3050, 95000] print(f"Media: np.mean(salarios)") # Afectada por el outlier print(f"Mediana: np.median(salarios)") # Robusta ante el outlier print(f"Desviación Estándar: np.std(salarios):.2f") Use code with caution. Visualización Estadística
# Definir límites limite_inferior = Q1 - 1.5 * IQR limite_superior = Q3 + 1.5 * IQR
residuals = y - model.predict(X) stats.normaltest(residuals) # p > 0.05 ok Diferencia entre el percentil 75 y el 25
Calcular media, mediana o desviación estándar con bucles for es un crimen en Python. Usamos operaciones vectorizadas.
print(f"Mean: mean_val:.2f, Median: median_val:.2f, IQR: iqr:.2f")
# Ingresos generados por usuario grupo_A = np.random.normal(loc=25, scale=5, size=200) grupo_B = np.random.normal(loc=27, scale=5, size=200) # Prueba T para dos muestras independientes t_stat, p_val = stats.ttest_ind(grupo_A, grupo_B) print(f"P-valor de la Prueba T: p_val") if p_val < 0.05: print("Rechazamos la hipótesis nula: El Grupo B es significativamente diferente.") else: print("No se puede rechazar la hipótesis nula: No hay diferencia significativa.") Use code with caution. 5. Regresión y Correlación "El nuevo botón verde no altera la tasa de conversión")
): Establece que no hay efecto o diferencia (ej. "El nuevo botón verde no altera la tasa de conversión"). Hipótesis Alternativa ( H1cap H sub 1
import statsmodels.api as sm # Datos de ejemplo: Horas de estudio vs Calificación X = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] y = [45, 50, 55, 60, 68, 70, 80, 85, 88, 95] X = sm.add_constant(X) # Añadir intersección model = sm.OLS(y, X).fit() print(model.summary()) Use code with caution. Conclusiones para una Práctica de Alta Calidad
Entender qué forma tienen tus datos determina qué herramientas puedes usar. size=50)) for _ in range(1000)] plt.hist(sample_means
. This work is widely considered a foundational bridge between traditional statistical theory and modern data science application. Draft: Practical Statistics for Data Science & Python 1. Introduction: The Statistical Foundation of Data Science
This guide gives you for data science in Python. Practice on real datasets (Titanic, Iris, Boston housing) until intuition replaces memorization.
import matplotlib.pyplot as plt # Demostración del TLC en Python pop_data = np.random.exponential(scale=2, size=10000) # Población no normal sample_means = [np.mean(np.random.choice(pop_data, size=50)) for _ in range(1000)] plt.hist(sample_means, bins=30, edgecolor='k', alpha=0.7) plt.title("Distribución de Medias Muestrales (TLC)") plt.xlabel("Media") plt.ylabel("Frecuencia") plt.show() Use code with caution. 5. Pruebas de Hipótesis y A/B Testing