**Carga las tres librerías de siempre**

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pylab as plt

**Scikit tiene una dataset de digitos, dentro del módulo datasets. Importa la clase necesaria para poder cargar la dataset y definid un objeto llamado `data_digits` a partir de ella. Entra en la documentación de scikit para poder encontrar la clase necesaria http://scikit-learn.org/stable/datasets/index.html#datasets**

In [None]:
from sklearn.datasets import load_digits
data_digits = load_digits()

**Crea una matriz de features X y un array y con el target. Cuando cargas los datos usando la clase del apartado anterior, lo que estas creando es un diccionario, donde una entrada es `data`, que contiene las features, y otra entrada llamada `target`, a partir de la cual podréis crear el array y de targets**

In [None]:
X = data_digits['data']
y = data_digits['target']

**Otro de los elementos de la dataset cargada, es una entrada con el nombre `images`, que contine las imágenes 8x8 de los digitos en escala de grises. De hecho, los features no son más que estos 8x8 pixels. Las imagenes corresponden a representanciones diferentes de 10 dígitos, desde el 0 al 9. Usando matplotlib, plotea 10 imagenes de cada dígito. Puedes usar la función `imshow` pasándole las imágenes y una paleta plt.cm.gray_r, pasando esto al argumento `cmap` de la función `imshow` . Si tienes alguna duda sobre cómo usar dicha función, puedes mirar en https://matplotlib.org/api/_as_gen/matplotlib.pyplot.imshow.html . Ayuda: basta con que plotees las diez primeras imágenes**

In [None]:
fig, axs = plt.subplots(ncols=10, nrows=1)
axs = axs.flatten()

for i in range(10):
    axs[i].imshow(data_digits['images'][i,:,:], cmap=plt.cm.gray_r)
    axs[i].axis('off')

**Vamos a hacer una pca sobre estos datos. Como los datos tienen que estar estandarizados, importa la clase que hace esto en scikit y transforma los datos**

In [None]:
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
X_scaled = ss.fit_transform(X) 

**Importa la clase de PCA**

In [None]:
from sklearn.decomposition import PCA

**Define una variable del objeto  PCA, que explique al menos el 75 % de variación de los datos**

In [None]:
pca = PCA(n_components=0.75)

**Usa este objeto recién creado para ajustarlo a los datos estandarizados**

In [None]:
pca.fit(X_scaled)

**Muestra el número de componentes principales seleccionadas por la pca**

In [None]:
print(pca.n_components_)

**Muestra en un plot usando la función `plot` de matplotlib cómo la variación explicada va aumentando hasta llegar a la cantidad requerida cuando hemos definido la pca. Para ello, después de fittear la pca, tienes que acceder a su atributo *explained_variance_ratio__* (con una sola barra baja al final) y usar sobre esto la función `cumsum` de numpy**

In [None]:
plt.plot(np.arange(1,pca.n_components_+1),
         np.cumsum(pca.explained_variance_ratio_))

plt.xticks(np.arange(1,pca.n_components_+1))

pass

**Transforma los datos al espacio de las componentes principales. Para ello, una vez fitteada la pca, tienes que usar el método `transform` sobre los datos estandarizados**

In [None]:
X_pca = pca.transform(X_scaled)

**Muestra el tamaño de los datos transformados y ve que en efecto, el número de features ahora se ha reducido al número de componentes seleccionadas por la pca** 

In [None]:
X_pca.shape

**Los datos transformados, devuelvelos al espacio original. Para ello, vas a tener que llamar al método `inverse_transform` tanto de la pca primero, como del objeto que estandarizaba los datos después**

In [None]:
X_rec = pca.inverse_transform(X_pca)
X_rec = ss.inverse_transform(X_rec)

**Una vez hecho esto, vuelve a plotear las imágenes de los dígitos que has ploteado antes, pero ahora usando los datos reconstruidos que hemos obtenido en el apartado anterior**

In [None]:
fig, axs = plt.subplots(ncols=10, nrows=1)
axs = axs.flatten()
for i in range(10):
    
    axs[i].imshow(X_rec[i,:].reshape(8,8), cmap=plt.cm.gray_r)
    axs[i].axis('off')

 **Extra: Intenta lo mismo usando la dataset de olivetti faces, que la puedes descargar usando la clase `fetch_olivetti_faces` en el módulo datasets de scikit. De esta manera, puedes ver cómo cambian las caras originales respecto a las reconstruidas por la pca**

In [None]:
from sklearn.datasets import fetch_olivetti_faces
data_faces= fetch_olivetti_faces()

In [None]:
# Pedimos el 75% de la variación explicada, como antes
pca= PCA(n_components=0.75,random_state=0) 
pca.fit(data_faces['data'])

In [None]:
# El número de componentes principales para el 75% es
pca.n_components_

In [None]:
# Transformamos la data original al espacio de las features
faces_tr =  pca.fit_transform(data_faces['data'])

In [None]:
# Y reconstruimos estos datos al espacio original.
faces_inv = pca.inverse_transform(faces_tr)

In [None]:
# Una cara de los datos originales
plt.imshow(data_faces['data'][10,:].reshape(64,64), cmap=plt.cm.gray)

In [None]:
# La misma cara de los datos reconstruidos por la pca
plt.imshow(faces_inv[10,:].reshape(64,64), cmap=plt.cm.gray)