# Introducción a  Matplotlib y Pandas

En esta parte del curso vamos a aprender `matplotlib`, que supone la librería estándar en python para la visualización de resultados, y `pandas`, una librería esencial para la manipulación de los datos.

In [None]:
# Primero cargamos la librería numpy. Matplotlib está especialmente diseñado para trabjar con numpy arrays
import numpy as np

## Plotting con matplotlib

In [None]:
import matplotlib.pyplot as plt
#Este comando de abajo muestra los plots inline
%matplotlib inline 

In [None]:
x = np.array([-3, -1.5, 0, 1, 3, 4])
y= x ** 2 #El cuadrado de cada término
print(x)
print(y)

In [None]:
#Se puede plotear de manera fácil llamando a la función plot 
plt.plot(x,y);

In [None]:
distribution = np.random.normal(loc=1., scale=2, size=10000)
plt.hist(distribution)
pass #De esta manera se suprime suprimes el output de la última línea, como ocurre en el plot anterior

In [None]:
plt.hist(np.random.normal(loc=5., scale=2, size=10000), bins=30, alpha=0.4, density=True, label='first')
plt.hist(np.random.normal(loc=7., scale=3, size=10000), bins=30, alpha=0.4, density=True, label='second')
plt.hist(np.random.normal(loc=0., scale=1, size=10000), bins=30, alpha=0.4, density=True, label='third')
plt.legend()
pass

In [None]:
# También se puede configurar el tamaño de las figura
plt.figure(figsize=[12, 10])
plt.scatter(np.random.normal(size=300), np.random.normal(size=300))

In [None]:
# mas avanzado: la combinación de varios plots mediante la clase función subplots, que genera una figura y unos ejes 
# para cada subplot

fig, axs= plt.subplots(nrows=2, ncols=2) # Se crea un grid para 2x2 plots

In [None]:
# cada eje es colocado en un array de ejes, por lo que cada uno puede ser  manipulado de forma individual
print(axs)

In [None]:
fig, axs= plt.subplots(nrows=2, ncols=2) # Se crea un grid para 2x2 plots
axs[0][0].hist(np.random.normal(loc=1., scale=2, size=10000), bins=30, alpha=0.4, density=True,color='b')
axs[0][1].hist(np.random.normal(loc=5., scale=2, size=10000), bins=30, alpha=0.4, density=True,color='r')
axs[1][0].hist(np.random.normal(loc=7., scale=3, size=10000), bins=30, alpha=0.4, density=True,color='g')
axs[1][1].hist(np.random.normal(loc=0., scale=1, size=10000), bins=30, alpha=0.4, density=True,color='y')
pass

# Pandas

Pandas es una librería que permite manipular los datos de manera sencilla. El tipo de variables que maneja pandas se conoce como `dataframes`, similares a hojas de excel.

In [None]:
# Como siempre, cargamos primero la librería
import pandas as pd

In [None]:
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()

In [None]:
X=np.concatenate((breast_cancer['data'],breast_cancer['target'].reshape(-1,1)), axis=1)

In [None]:
col_names=np.concatenate((breast_cancer['feature_names'],np.array(['benign'])))

In [None]:
data=pd.DataFrame(data=X, columns=col_names)

In [None]:
#Con el método head, podemos mirar las primeras líneas
data.head(3)

In [None]:
#Con el método tail, podemos mirar las últimas líneas
data.tail(3)

In [None]:
# En machine learning, ya sea clasificación o regresión, tenemos uno datos X que sirven como inputs, 
# y una variable 'y' que queremos predecir
y = data['benign']
X = data.drop('benign', axis=1)

In [None]:
X.head(3)

## Inspección de los datos

In [None]:
# El método info permite conocer el tipo de variable en cada columna y el númerode NaNs
data.info()

In [None]:
# El método describe nos muestra la estadística descriptiva de cada columna
data.describe()

## Operaciones sobre los datos

In [None]:
#Coger sólo las 8 primeras filas
subset_data = data[:8].copy()#copy para crear una copia

In [None]:
subset_data['mean radius']

In [None]:
# Los data frames se pueden siempre convertir a numpy.array usando .values
subset_data['mean radius'].values

In [None]:
subset_data.values

In [None]:
subset_data['worst area'][:5]

### Seleccionar por indice: iloc

In [None]:
# Seleccionar por numero: iloc
subset_data.iloc[[0, 4, 7], 2:7]

In [None]:
subset_data.iloc[:3, [10,12,17]]

### Seleccionar por nombre: loc

In [None]:
# indexing with named labels - loc
subset_data.loc[:, ['mean compactness', 'mean symmetry']]

In [None]:
# Atajo de lo anterior
subset_data[['mean compactness', 'mean symmetry']]

In [None]:
# Recordemos la forma [start:end:step] para iterar
subset_data.iloc[::3, ::-5]

In [None]:
subset_data.columns

In [None]:
# Se pueden añadir nuevas variables de la siguiente forma
subset_data['area_onesigma'] = subset_data['mean area'] + subset_data['area error']
subset_data['area_onesigma']

In [None]:
# Filtrar data bajo una condicion
filtered_data = data[data['mean radius']>25]
filtered_data

In [None]:
# A veces es importante comprobar el tamaño de los data frames, así como ver los nombres de las columnas
print(len(data))
print(data.shape) 
print(data.columns)

In [None]:
plt.scatter(X['mean radius'], X['mean texture'], c=y, alpha=0.4)
plt.colorbar()

##  Pequeño ejercicio

- En la data anterior (data), para todas las variables que empiezan con mean ( las primeras diez variables) mostrad en el mismo plot un histograma para el tumor benigno y otro maligno. Usad 20 bins para la visualización. ¿Qué variables creéis que tendrán el mayor poder discriminatorio? 

In [None]:
#Tu código

# Referencias
1. [matplotlib gallery](http://matplotlib.org/gallery.html)
2. [10 minutes to pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html)

**Cualquier duda que tengáis estará ya seguro resuelta en stackoverflow**