# Import libraries

from matplotlib import pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns


# Load and plot data
food = pd.read_csv("https://userpage.fu-berlin.de/soga/data/raw-data/food-texture.csv")

#The data set contains 50 rows (observations) and 2 columns (features).

pca_toy = food[["Oil", "Density"]]
sns.scatterplot(x="Oil", y="Density", data=pca_toy)

<AxesSubplot:xlabel='Oil', ylabel='Density'>


# Center and scale data
pca_toy_scaled = pca_toy.apply(lambda x: (x - x.mean()) / x.std(), axis=0)

# Calculate eigenvalues and eigenvectors
pca_toy_cov = pca_toy_scaled.cov()
pca_toy_eigenvalues, pca_toy_eigenvectors = np.linalg.eig(pca_toy_cov)

# Extract loading vector
pca_toy_loading = pca_toy_eigenvectors[:, :1]
pca_toy_loading

array([[ 0.70710678],
       [-0.70710678]])


# Project data onto one-dimensional feature space
pca_toy_projected = pca_toy_scaled @ pca_toy_loading
# Plot projected data
sns.scatterplot(x=np.arange(50), y=pca_toy_projected[0])
plt.axhline(y=0)
plt.xlabel("Index")
plt.ylabel("Projected data")
plt.show()


# Reconstruct and plot original data and projected data
to_reconstruct = pca_toy_projected @ pca_toy_loading.T

# calculate the mean and standard deviation of the original data
pca_toy_mean = pca_toy.mean()
pca_toy_std = pca_toy.std()

# multiply the reconstructed data with the standard deviation and add the mean
reconstructed = pd.DataFrame()
reconstructed["Oil"] = to_reconstruct[0] * pca_toy_std[0] + pca_toy_mean[0]
reconstructed["Density"] = to_reconstruct[1] * pca_toy_std[1] + pca_toy_mean[1]

# plot original data and reconstructed data
sns.scatterplot(x="Oil", y="Density", data=pca_toy)
sns.scatterplot(x=reconstructed["Oil"], y=reconstructed["Density"], marker="x", color="r")
plt.show()