import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import statsmodels.api as sm

from sklearn.linear_model import LinearRegression 
from sklearn import metrics 
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.base import clone
from sklearn.metrics import mean_squared_error

from mlxtend.feature_selection import SequentialFeatureSelector as SFS
from mlxtend.plotting import plot_sequential_feature_selection as plot_sfs


dwd = pd.read_table(
    "https://userpage.fu-berlin.de/soga/data/raw-data/DWD.csv", 
    index_col=0,
    sep=',',
)

df = dwd.drop([
    'DWD_ID', 
    'RECORD_LENGTH', 
    'STATION_NAME', 
    'FEDERAL_STATE', 
    'PERIOD', 
    'LON', 
    'LAT',
], axis=1).dropna()

subset = df[[
    "MEAN_ANNUAL_RAINFALL", 
    "ALTITUDE", 
    "MAX_RAINFALL", 
    "MEAN_CLOUD_COVER", 
    "MEAN_ANNUAL_AIR_TEMP"
]]
train = subset.sample(frac=0.5, random_state=0)
test = subset.drop(train.index)

rmses = pd.read_feather('https://userpage.fu-berlin.de/soga/data/py-data/30221_rmses.feather').set_index('index')
train.head()


model = sm.OLS.from_formula("MEAN_ANNUAL_RAINFALL ~ ALTITUDE", data = train).fit()
print(f"predictor: ALTITUDE, aic: {model.aic}, bic: {model.bic}")

predictor: ALTITUDE, aic: 1304.5574092519862, bic: 1309.8073548785546


#A dictionary to store the results
results = {'predictor': [], 'aic':[], 'bic': []}

for col in train.columns.drop("MEAN_ANNUAL_RAINFALL"):
    model = sm.OLS.from_formula(f"MEAN_ANNUAL_RAINFALL ~ {col}", data = train).fit()
    results["predictor"].append(col)
    results["aic"].append(model.aic)
    results["bic"].append(model.bic)

results_df = pd.DataFrame(results).sort_values(by=['aic'], ignore_index=True)
results_df


def add_feature(ds, current_features, dependent_var, scoring):
    results = {'predictor': [], 'aic':[], 'bic': []}
    for col in ds.columns:
        # We add a predictor if it isn't already selected
        if col not in (current_features + [dependent_var]):
            # Build our formula string by joining the list current_features and adding the new one
            formula = f"{dependent_var} ~ {' + '.join(current_features)} + {col}"
            model = sm.OLS.from_formula(formula, data=ds).fit()
            results['predictor'].append(col)
            results["aic"].append(model.aic)
            results["bic"].append(model.bic)
    return pd.DataFrame(results).sort_values(by=[scoring], ignore_index=True), formula


results, formula = add_feature(train, ['MAX_RAINFALL'], 'MEAN_ANNUAL_RAINFALL', scoring='aic')
print("New formula: " + formula)
results.head()

New formula: MEAN_ANNUAL_RAINFALL ~ MAX_RAINFALL + MEAN_ANNUAL_AIR_TEMP


results, formula = add_feature(train, ['MAX_RAINFALL', 'MEAN_CLOUD_COVER'], 'MEAN_ANNUAL_RAINFALL', scoring='aic')
print("New formula: " + formula)
results.head()

New formula: MEAN_ANNUAL_RAINFALL ~ MAX_RAINFALL + MEAN_CLOUD_COVER + MEAN_ANNUAL_AIR_TEMP


results, formula = add_feature(train, ['MAX_RAINFALL', 'MEAN_CLOUD_COVER', "ALTITUDE"], 'MEAN_ANNUAL_RAINFALL', scoring='aic')
print("New formula: " + formula)
results.head()
model = sm.OLS.from_formula(formula, data = train).fit()

print("RMSE train: " + str(
    mean_squared_error(model.predict(train), train['MEAN_ANNUAL_RAINFALL'], squared=False)
))
print("RMSE test: " + str(
    mean_squared_error(model.predict(test), test['MEAN_ANNUAL_RAINFALL'], squared=False)
))

New formula: MEAN_ANNUAL_RAINFALL ~ MAX_RAINFALL + MEAN_CLOUD_COVER + ALTITUDE + MEAN_ANNUAL_AIR_TEMP
RMSE train: 116.53247656972394
RMSE test: 117.68357200524653


def forward_selector(ds, dependent_var, scoring):
    # A dict to store the final results
    results = {'predictor': [], 'aic':[], 'bic': []}
    # The same to store the first iteration
    scoring_dict = {'predictor': [], 'aic':[], 'bic': []}
    current_features = []
    for col in ds.columns.drop(dependent_var):
        model = sm.OLS.from_formula(f"{dependent_var} ~ {col}", data = train).fit()
        # append the results of the first iteration
        scoring_dict["predictor"].append(col)
        scoring_dict['aic'].append(model.aic)
        scoring_dict['bic'].append(model.bic)
    # transform scoring to table
    scoring_table = pd.DataFrame(scoring_dict).sort_values(by=[scoring], ignore_index=True)
    for i in range(len(ds.columns)):
        # store the scoring value of the last iteration
        prev_score = scoring_table.loc[0, scoring]
        current_features.append(scoring_table.loc[0, 'predictor'])
        # add a new feature
        scoring_table, formula = add_feature(ds, current_features, dependent_var, scoring)
        # stop if the info
        if prev_score < scoring_table.loc[0, scoring]:
            return pd.DataFrame(results), formula
        results['predictor'].append(scoring_table.loc[0, 'predictor'])
        results['aic'].append(scoring_table.loc[0, 'aic'])
        results['bic'].append(scoring_table.loc[0, 'bic'])

train = df.sample(frac=0.8, random_state=0)
test = df.drop(train.index)
train.head()


results, formula = forward_selector(train, 'MEAN_ANNUAL_RAINFALL', 'aic')
print("Final formula: " + formula)
display(results)

Final formula: MEAN_ANNUAL_RAINFALL ~ MAX_RAINFALL + MAX_AIR_TEMP + MEAN_MONTHLY_MAX_TEMP + ALTITUDE + MEAN_CLOUD_COVER + MIN_AIR_TEMP + MEAN_MONTHLY_MIN_TEMP + MEAN_ANNUAL_AIR_TEMP + MEAN_RANGE_AIR_TEMP


model = sm.OLS.from_formula(formula, data = train).fit()

rmse_train = mean_squared_error(model.predict(train), train['MEAN_ANNUAL_RAINFALL'], squared=False)
rmse_test = mean_squared_error(model.predict(test), test['MEAN_ANNUAL_RAINFALL'], squared=False)
print("RMSE train: " + str(rmse_train))
print("RMSE test: " + str(rmse_test))

RMSE train: 87.3923774773306
RMSE test: 117.8846385376481


rmses.loc[len(rmses)] = ['forward model', rmse_train, rmse_test]
rmses


def remove_feature(ds, current_features, dependent_var, scoring):
    results = {'predictor': [], 'aic': [], 'bic': []}
    for col in current_features:
        # Build our formula string by joining the list current_features and removing one
        remaining_features = current_features.copy()
        remaining_features.remove(col)
        formula = f"{dependent_var} ~ {' + '.join(remaining_features)}"
        model = sm.OLS.from_formula(formula, data=ds).fit()
        results['predictor'].append(col)
        results["aic"].append(model.aic)
        results["bic"].append(model.bic)
    return pd.DataFrame(results).sort_values(by=[scoring], ascending=True)

def backward_selector(ds, dependent_var, scoring):
    # A dict to store the final results
    results = {'predictor': [], 'aic': [], 'bic': []}
    # The same to store the first iteration
    scoring_dict = {'predictor': [], 'aic': [], 'bic': []}
    current_features = ds.columns.drop(dependent_var).tolist()
    formula = f"{dependent_var} ~ {' + '.join(current_features)}"
    model = sm.OLS.from_formula(formula, data=ds).fit()
    # Append the results of the first iteration
    scoring_dict["predictor"].extend(current_features)
    scoring_dict['aic'].extend([model.aic] * len(current_features))
    scoring_dict['bic'].extend([model.bic] * len(current_features))
    # Transform scoring to table
    scoring_table = pd.DataFrame(scoring_dict).sort_values(by=[scoring], ascending=True)
    prev_score = scoring_table.loc[0, scoring]
    while len(current_features) > 1:
        # Remove the predictor with the highest score
        current_features.remove(scoring_table.loc[0, 'predictor'])
        # Remove a feature
        scoring_table = remove_feature(ds, current_features, dependent_var, scoring)
        # Stop if the scoring is worse
        if prev_score < scoring_table.loc[0, scoring]:
            break
        prev_score = scoring_table.loc[0, scoring]
        results['predictor'].append(scoring_table.loc[0, 'predictor'])
        results['aic'].append(scoring_table.loc[0, 'aic'])
        results['bic'].append(scoring_table.loc[0, 'bic'])
    return pd.DataFrame(results), formula

# Assuming you have the 'train' DataFrame and the 'MEAN_ANNUAL_RAINFALL' column
results, formula = backward_selector(train, 'MEAN_ANNUAL_RAINFALL', 'aic')
print("Final formula: " + formula)
display(results)

Final formula: MEAN_ANNUAL_RAINFALL ~ ALTITUDE + MEAN_ANNUAL_AIR_TEMP + MEAN_MONTHLY_MAX_TEMP + MEAN_MONTHLY_MIN_TEMP + MEAN_ANNUAL_WIND_SPEED + MEAN_CLOUD_COVER + MEAN_ANNUAL_SUNSHINE + MAX_MONTHLY_WIND_SPEED + MAX_AIR_TEMP + MAX_WIND_SPEED + MAX_RAINFALL + MIN_AIR_TEMP + MEAN_RANGE_AIR_TEMP


results, formula = backward_selector(train, 'MEAN_ANNUAL_RAINFALL', 'bic')
print("Final formula: " + formula)
display(results)

Final formula: MEAN_ANNUAL_RAINFALL ~ ALTITUDE + MEAN_ANNUAL_AIR_TEMP + MEAN_MONTHLY_MAX_TEMP + MEAN_MONTHLY_MIN_TEMP + MEAN_ANNUAL_WIND_SPEED + MEAN_CLOUD_COVER + MEAN_ANNUAL_SUNSHINE + MAX_MONTHLY_WIND_SPEED + MAX_AIR_TEMP + MAX_WIND_SPEED + MAX_RAINFALL + MIN_AIR_TEMP + MEAN_RANGE_AIR_TEMP


model = sm.OLS.from_formula(formula, data = train).fit()

rmse_train = mean_squared_error(model.predict(train), train['MEAN_ANNUAL_RAINFALL'], squared=False)
rmse_test = mean_squared_error(model.predict(test), test['MEAN_ANNUAL_RAINFALL'], squared=False)
print("RMSE train: " + str(rmse_train))
print("RMSE test: " + str(rmse_test))

RMSE train: 87.23602319787905
RMSE test: 118.36797395246535


rmses.loc[len(rmses)] = ['backward model', rmse_train, rmse_test]
rmses


X = df.drop('MEAN_ANNUAL_RAINFALL', axis=1) 
y = df['MEAN_ANNUAL_RAINFALL']
scaler = StandardScaler()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) 
n_samples = X_train.shape[0]
X_train = scaler.fit_transform(X_train) 
X_test = scaler.transform(X_test)

# Sequential Forward Selection(sfs) 
sfs = SFS(
    LinearRegression(),
    k_features=(1, 12),
    forward=True,
    cv=None,
)
results = sfs.fit_transform(X, y)
sfs.k_feature_names_

('MEAN_ANNUAL_AIR_TEMP',
 'MEAN_MONTHLY_MAX_TEMP',
 'MEAN_MONTHLY_MIN_TEMP',
 'MEAN_ANNUAL_WIND_SPEED',
 'MEAN_CLOUD_COVER',
 'MEAN_ANNUAL_SUNSHINE',
 'MAX_MONTHLY_WIND_SPEED',
 'MAX_AIR_TEMP',
 'MAX_WIND_SPEED',
 'MAX_RAINFALL',
 'MIN_AIR_TEMP',
 'MEAN_RANGE_AIR_TEMP')

sfs

SequentialFeatureSelector(cv=None, estimator=LinearRegression(),
                          k_features=(1, 12), scoring='r2')


fig1 = plot_sfs(sfs.get_metric_dict(), kind='std_dev')
plt.title('Sequential Forward Selection')
plt.grid()
plt.show()

/Users/annette/opt/anaconda3/lib/python3.9/site-packages/numpy/core/_methods.py:262: RuntimeWarning: Degrees of freedom <= 0 for slice
  ret = _var(a, axis=axis, dtype=dtype, out=out, ddof=ddof,
/Users/annette/opt/anaconda3/lib/python3.9/site-packages/numpy/core/_methods.py:254: RuntimeWarning: invalid value encountered in double_scalars
  ret = ret.dtype.type(ret / rcount)


# Custom Linear Regression class
class AICLinearRegression(LinearRegression):
    def score(self, X, y):
        n = y.shape[0]
        y_pred = self.predict(X)
        rss = np.sum((y_pred - y) ** 2)
        mse = mean_squared_error(y, y_pred)
        aic = n * np.log(rss / n) + 2 * X.shape[1]
        return -1 * aic  # Negate because the SequentialFeatureSelector regards higher values as better

sfs = SFS(
    AICLinearRegression(),
    k_features=(1, 12),
    forward=True,
    floating=False,
    cv=None,
)

sfs = sfs.fit(X_train, y_train)

# Transform the dataset
X_train_sfs = sfs.transform(X_train)
X_test_sfs = sfs.transform(X_test)

# Fit the estimator using the reduced dataset
estimator = AICLinearRegression().fit(X_train_sfs, y_train)

# Calculate RMSE for training data
train_preds = estimator.predict(X_train_sfs)
train_rmse = mean_squared_error(y_train, train_preds, squared=False)

# Calculate RMSE for test data
test_preds = estimator.predict(X_test_sfs)
test_rmse = mean_squared_error(y_test, test_preds, squared=False)

print("Training RMSE: ", train_rmse)
print("Test RMSE: ", test_rmse)

Training RMSE:  91.9769045548552
Test RMSE:  91.23237008905065


rmses.loc[len(rmses)] = ['mlxtend SFS model', train_rmse, test_rmse]

_, ax = plt.subplots(figsize=(10,6))
rmses.plot(kind="bar", x="name", ax=ax)
ax.set_xlabel("")
ax.set_ylabel("RMSE in mm")
plt.show()


rmses.reset_index().to_feather('30222_rmses.feather')

	MEAN_ANNUAL_RAINFALL	ALTITUDE	MAX_RAINFALL	MEAN_CLOUD_COVER	MEAN_ANNUAL_AIR_TEMP
ID
94	778.0	363.0	37.0	65.0	9.2
239	533.0	316.0	36.0	67.0	8.2
148	678.0	68.0	39.0	68.0	10.2
167	571.0	69.0	38.0	65.0	8.9
502	511.0	131.0	33.0	66.0	9.1

	ALTITUDE	MEAN_ANNUAL_AIR_TEMP	MEAN_MONTHLY_MAX_TEMP	MEAN_MONTHLY_MIN_TEMP	MEAN_ANNUAL_WIND_SPEED	MEAN_CLOUD_COVER	MEAN_ANNUAL_SUNSHINE	MEAN_ANNUAL_RAINFALL	MAX_MONTHLY_WIND_SPEED	MAX_AIR_TEMP	MAX_WIND_SPEED	MAX_RAINFALL	MIN_AIR_TEMP	MEAN_RANGE_AIR_TEMP
ID
94	363.0	9.2	13.0	5.6	3.0	65.0	1628.0	778.0	4.0	31.8	31.5	37.0	-11.3	7.4
239	316.0	8.2	12.5	4.0	3.0	67.0	1635.0	533.0	3.0	32.4	27.4	36.0	-16.4	8.4
148	68.0	10.2	13.6	6.2	3.0	68.0	1362.0	678.0	3.0	33.0	29.0	39.0	-13.1	7.4
167	69.0	8.9	13.2	4.7	2.0	65.0	1652.0	571.0	3.0	33.5	27.1	38.0	-16.7	8.6
502	131.0	9.1	13.3	5.1	3.0	66.0	1612.0	511.0	4.0	33.2	28.8	33.0	-14.8	8.1

	predictor	aic	bic
0	MAX_AIR_TEMP	1987.052408	1996.333659
1	MEAN_MONTHLY_MAX_TEMP	1967.520464	1979.895465
2	ALTITUDE	1961.499172	1976.967923
3	MEAN_CLOUD_COVER	1956.724648	1975.287149
4	MIN_AIR_TEMP	1954.874349	1976.530600
5	MEAN_MONTHLY_MIN_TEMP	1938.649460	1963.399462
6	MEAN_ANNUAL_AIR_TEMP	1937.938436	1965.782187

	name	train_RMSE	test_RMSE
index
0	baseline model	243.882152	180.877011
0	simple alt model	154.992815	138.854544
0	max rainfall model	119.953630	117.437897
0	multi alt rain model	118.095746	113.746363
4	forward model	87.392377	117.884639

	predictor	aic	bic
0	MEAN_ANNUAL_AIR_TEMP	1947.284975	1984.409977
1	MEAN_MONTHLY_MAX_TEMP	1946.621664	1980.652916
2	MEAN_MONTHLY_MIN_TEMP	1946.411300	1977.348802
3	MEAN_ANNUAL_WIND_SPEED	1944.423818	1972.267570

Forward-Stepwise Selection¶

Backward-Stepwise Selection¶

	predictor	aic	bic
0	MAX_RAINFALL	1276.729049	1281.978995
1	ALTITUDE	1304.557409	1309.807355
2	MEAN_ANNUAL_AIR_TEMP	1332.742853	1337.992799
3	MEAN_CLOUD_COVER	1361.375435	1366.625380

	predictor	aic	bic
0	MEAN_CLOUD_COVER	1269.870867	1277.745785
1	ALTITUDE	1273.583872	1281.458790
2	MEAN_ANNUAL_AIR_TEMP	1274.532408	1282.407326

	predictor	aic	bic
0	ALTITUDE	1268.130183	1278.630074
1	MEAN_ANNUAL_AIR_TEMP	1270.676485	1281.176376