# First, let's import the needed libraries.
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import geopandas as gpd
import rasterio
import requests
import io
from io import StringIO
import zipfile


### LOAD SHAPEFILE DATA ###
url = "https://daten.gdz.bkg.bund.de/produkte/vg/vg5000_0101/aktuell/vg5000_01-01.utm32s.shape.ebenen.zip"

r = requests.get(url)
z = zipfile.ZipFile(io.BytesIO(r.content))
z.extractall(path="../data")
boundary_germany = gpd.read_file(
    "../data/vg5000_01-01.utm32s.shape.ebenen/vg5000_ebenen_0101/VG5000_LAN.shp"
)

boundary_germany = boundary_germany.to_crs("epsg:3035")


### LOAD DWD DATA ###
# "http://www.userpage.fu-berlin.de/~soga/300/30100_data_sets/dwd_sp.geojson"
dwd_sp = gpd.read_file(
    "http://userpage.fu-berlin.de/soga/soga-py/300/30900_spatial_interpolation/dwd_sp.geojson"
)
dwd_sp


####################################

### LOAD RASTER DATA ###

import requests, zipfile, io, os

url = "http://www.userpage.fu-berlin.de/~soga/300/30100_data_sets/spatial/srtm_germany_ETRS89.zip"
r = requests.get(url)
z = zipfile.ZipFile(io.BytesIO(r.content))
z.extractall("../data")

## open file
srtm_germany_masked_ETRS89 = rasterio.open(
    "../data/srtm_germany_ETRS89.tif", driver="GTiff"
)


# plot with rasterio.plot, which provides matplotlib functionality
from rasterio.plot import show


fig, ax = plt.subplots(figsize=(5, 15))

srtm_plot = show(
    srtm_germany_masked_ETRS89,
    ax=ax,
    cmap="RdYlGn_r",
    title="SRTM DEM and DWD weather stations\n",
)
dwd_sp.plot(ax=ax, markersize=1, color="black")

## add colorbar
dummy_colorbar = srtm_plot.get_images()[0]
fig.colorbar(dummy_colorbar, ax=ax, fraction=0.046, pad=0.04, label="elevation [m]")


plt.show()


# check coordinate systems
print(f"dwd_sp crs = {dwd_sp.crs}")
print(f"srtm_germany_masked_ETRS89 crs = {srtm_germany_masked_ETRS89.crs}")

dwd_sp crs = epsg:4326
srtm_germany_masked_ETRS89 crs = EPSG:3035


# reproject spatial data sets
newProj = srtm_germany_masked_ETRS89.crs
dwd_sp = dwd_sp.set_crs(newProj, allow_override=True)
boundary_germany = boundary_germany.to_crs(newProj)


import skgstat as skg

coords = list(zip(dwd_sp.geometry.x, dwd_sp.geometry.y))
values = dwd_sp["MEAN.ANNUAL.RAINFALL"]


V = skg.Variogram(coords, values)


V.distance_difference_plot()
plt.show()

C:\Users\mceck\miniconda3\envs\rasterdata\lib\site-packages\skgstat\plotting\variogram_dd_plot.py:46: UserWarning: Matplotlib is currently using module://matplotlib_inline.backend_inline, which is a non-GUI backend, so cannot show the figure.
  fig.show()


V.plot()

plt.show()

C:\Users\mceck\miniconda3\envs\rasterdata\lib\site-packages\skgstat\plotting\variogram_plot.py:123: UserWarning: Matplotlib is currently using module://matplotlib_inline.backend_inline, which is a non-GUI backend, so cannot show the figure.
  fig.show()


# help(skg.Variogram)


V = skg.Variogram(
    coords,
    values,
    model="exponential",
    maxlag=300000,
    fit_range=90000,
    fit_sill=40000,
    fit_nugget=15000,
)


# plot
V.plot()
plt.show()

C:\Users\mceck\miniconda3\envs\rasterdata\lib\site-packages\skgstat\plotting\variogram_plot.py:123: UserWarning: Matplotlib is currently using module://matplotlib_inline.backend_inline, which is a non-GUI backend, so cannot show the figure.
  fig.show()


print(V.parameters)

[183916.33172896618, 46850.44487117823, 0]


V_sph = skg.Variogram(
    coords,
    values,
    model="spherical",
    maxlag=300000,
    fit_range=90000,
    fit_sill=40000,
    fit_nugget=15000,
).plot()
plt.title("Spherical variogram model")
plt.show()


V_gau = skg.Variogram(
    coords,
    values,
    model="gaussian",
    maxlag=300000,
    fit_range=90000,
    fit_sill=40000,
    fit_nugget=15000,
).plot()
plt.title("Gaussian variogram model")
plt.show()

C:\Users\mceck\miniconda3\envs\rasterdata\lib\site-packages\skgstat\plotting\variogram_plot.py:123: UserWarning: Matplotlib is currently using module://matplotlib_inline.backend_inline, which is a non-GUI backend, so cannot show the figure.
  fig.show()


V_exp = skg.Variogram(
    coords,
    values,
    model="exponential",
    # use_nugget = True,
    # n_lags = 30,
    maxlag=300000,
    fit_range=90000,
    fit_sill=40000,
    fit_nugget=15000,
)
V_exp.plot()
plt.title("Exponential variogram model")
plt.show()


azimuth = np.arange(0, 4, 1) * 45
azimuth

array([  0,  45,  90, 135])


## store as dictionary
d = {}
for x in azimuth:
    d["V_{0}".format(x)] = skg.DirectionalVariogram(
        coords,
        values,
        azimuth=x,
        model="exponential",
        tolerance=22.5,
        maxlag=300000,
        fit_range=90000,
        fit_sill=40000,
        fit_nugget=15000,
    )


fig, axes = plt.subplots(2, 2, figsize=(8, 4), sharey=True)


for V, ax in zip(d.keys(), axes.ravel()):
    ax.plot(d[V].bins, d[V].experimental, ".", label=f"{V}")
    ax.set_title(V)
    ax.set_ylabel("semivariance")
    ax.set_xlabel("distane Lag (-)")


plt.tight_layout()
plt.show()


import gstools as gs


fig, axes = plt.subplots(2, 2, figsize=(8, 4), sharey=True)

exp_model = V_exp.to_gstools()  ## extract the Variogram with gstools

for V, ax in zip(d.keys(), axes.ravel()):
    ax.plot(d[V].bins, d[V].experimental, ".", label=f"{V}")
    exp_model.plot(ax=ax)
    ax.set_title(V)
    ax.set_ylabel("semivariance")
    ax.set_xlabel("distane Lag (-)")
    ax.get_legend().remove()
    ax.set_xlim(0, 305000)

plt.tight_layout()
plt.show()

C:\Users\mceck\miniconda3\envs\rasterdata\lib\site-packages\gstools\covmodel\plot.py:114: UserWarning: Matplotlib is currently using module://matplotlib_inline.backend_inline, which is a non-GUI backend, so cannot show the figure.
  fig.show()


fig, axes = plt.subplots(2, 2, figsize=(8, 4), sharey=True)


for V, ax in zip(d.keys(), axes.ravel()):
    d[V].plot(axes=ax, hist=False)
    ax.set_title(V)
    ax.set_ylabel("semivariance")
    ax.set_xlabel("distane Lag (-)")


plt.tight_layout()
plt.show()


def rmse(residuals):
    return np.sqrt(np.sum((residuals) ** 2) / len(residuals))


V_exp.cross_validate(metric="rmse")

116.13995314666386


d["V_0"].cross_validate(metric="rmse")

116.29184381891159


V_matern = skg.Variogram(
    coords,
    values,
    model="matern",
    maxlag=300000,
    fit_range=90000,
    fit_sill=30000,
    fit_nugget=15000,
)

V_matern.cross_validate(metric="rmse")

122.09615008314385


def loocv_kriging(
    x, y, z, model="exponential", direction=False, azimuth=0, tolerance=22.5
):
    """
    Function for ordinary kriging combined with a Leave-one-out cross validation (LOOCV) approach
    Function iterates through each point of x,y,z Dataframe, each time leaving one point out.
    loocv_kriging will return the interpolated values and the residuals as arrays.
    An ordinary kriging based on specified VARIOGRAM will be performed for each point in iteration.
    Difference will be calculated
    INPUTS:
    x, y
            arrays containing coordinates of point data
    z
            array containing data values that are of interest for interpolation
    model
            Variogram model to be used, e.g. "exponential" (default), "spherical", "gaussian"
            For more information, see documentation of scikit-gstat
            https://scikit-gstat.readthedocs.io/en/latest/userguide/variogram.html#variogram-models
    direction
            wether to use a Directional Variogram
            https://scikit-gstat.readthedocs.io/en/latest/reference/directionalvariogram.html#skgstat.DirectionalVariogram
            default= False,
            if True remember to set azimuth and tolerance!
    azimuth
            default = 0
    tolerance
            default22.5
    """
    from skgstat import OrdinaryKriging

    ## Initialise two empty vectors to be filled with in a loop
    residuals = []
    rainfall_krig = []

    # combine the data array in one structe
    kriging_data = pd.DataFrame({"x_val": x, "y_val": y, "rainfall": z})

    for index, row in kriging_data.iterrows():
        # drop one point from dataset
        loocv = kriging_data.drop([index])
        # from coords and values for variogram
        loocv_coords = list(zip(loocv.x_val, loocv.y_val))
        loocv_values = loocv.rainfall
        # set up variogram model
        if direction == False:
            V = skg.Variogram(
                loocv_coords,
                loocv_values,
                model=model,
                # maxlag= 300000,
                fit_range=90000,
                fit_sill=40000,
                fit_nugget=15000,
            )
        else:
            V = skg.DirectionalVariogram(
                loocv_coords,
                loocv_values,
                model=model,
                azimuth=azimuth,
                tolerance=tolerance,
            )

        # set up kriging instance
        ok = OrdinaryKriging(V, min_points=2, max_points=10, mode="exact")
        # interpolate left out point based on kriging
        loocv_rainfall_point = ok.transform(
            row["x_val"].flatten(), row["y_val"].flatten()
        )
        # append the interpolated rainfall in one array
        rainfall_krig = np.append(rainfall_krig, loocv_rainfall_point)
        # calculate difference between interpolated and true rainfall for the respective point
        diff = loocv_rainfall_point - row["rainfall"]
        # append residuals in one array
        residuals = np.append(residuals, diff)
    return rainfall_krig, residuals


rainfall_krig, residuals = loocv_kriging(
    dwd_sp.geometry.x,
    dwd_sp.geometry.y,
    dwd_sp["MEAN.ANNUAL.RAINFALL"],
    model="exponential",
)


import seaborn as sns

## data prep for nice plotting
data = pd.DataFrame(
    {"x": dwd_sp.geometry.x, "y": dwd_sp.geometry.y, "residuals": residuals}
)
data["LOOCV_residuals"] = np.where(data["residuals"] > 0, "neg", "pos")
data_pos = data[(data["residuals"] > 0)]
data_neg = data[(data["residuals"] < 0)]

### PLOTTING ####

fig, ax = plt.subplots(figsize=(7, 6))
# seaborn bubble plot
sns.scatterplot(
    x=data["x"],
    y=data["y"],
    size=abs(data["residuals"]),
    hue=data["LOOCV_residuals"],
    sizes=(1, 300),
    legend=True,
    ax=ax,
    alpha=0.7,
)

plt.title("Ordinary Kriging rainfall: LOOCV residuals\n")
plt.xlabel("")
plt.ylabel("")
## Legend outside of the plot
plt.legend(title=" ", bbox_to_anchor=(1.01, 1), borderaxespad=0)

plt.tight_layout()
plt.show()


## meshgrid to interpolate on

## extent
xmin, xmax = min(dwd_sp.geometry.x), max(dwd_sp.geometry.x)
ymin, ymax = min(dwd_sp.geometry.y), max(dwd_sp.geometry.y)

# size of the grid
nx, ny = 50, 50

# generate two arrays of evenly space data between ends of previous arrays
xi = np.linspace(xmin, xmax, nx)
yi = np.linspace(ymin, ymax, ny)

# generate grid
xx, yy = np.meshgrid(xi, yi)


from skgstat import OrdinaryKriging

ok = OrdinaryKriging(V_exp, min_points=2, max_points=10, mode="exact")


kriging_grid = ok.transform(xx.flatten(), yy.flatten()).reshape(xx.shape)

# We calculate the kriging error on our grid:
sigma2d = ok.sigma.reshape(xx.shape)


fig, ax = plt.subplots(1, 2, figsize=(15, 10), sharey=True)


### plot 1: Interpolation grid
contour_levels = np.arange(400, 1900, 50)

contour_levels = np.arange(400, 1900, 50)
krig = ax[0].contourf(
    xx,
    yy,
    kriging_grid,
    levels=contour_levels,
    # range(150,200,5),
    cmap="viridis_r",
    alpha=0.7,
)

boundary_germany.plot(ax=ax[0], facecolor="none", edgecolor="black")
fig.colorbar(krig, ax=ax[0])
ax[0].set_title("Predicted annual rainfall [mm]")


### plot 2: sigma error
contour_levels = np.arange(1000, 35000, 50)

sigma = ax[1].contourf(xx, yy, sigma2d, cmap="hot_r", levels=contour_levels, alpha=0.7)

boundary_germany.plot(ax=ax[1], facecolor="none", edgecolor="black")
fig.colorbar(sigma, ax=ax[1])
ax[1].set_title("Kriging error $sigma^2$")

plt.show()


fig, ax = plt.subplots(figsize=(6, 4))
plt.scatter(dwd_sp["ALTITUDE"], dwd_sp["MEAN.ANNUAL.RAINFALL"], color="black", s=3)
plt.title("Rainfall and Altitude")
plt.xlabel("Elevation")
plt.ylabel("Mean Annual Rainfall")
plt.show()


from pykrige.uk3d import UniversalKriging3D


fit_sill, fit_range, fit_nugget = 65000, 500000, 0

ok3d = UniversalKriging3D(
    dwd_sp.geometry.x,
    dwd_sp.geometry.y,
    dwd_sp.ALTITUDE,
    dwd_sp["MEAN.ANNUAL.RAINFALL"],
    variogram_model="exponential",
    variogram_parameters=[fit_sill, fit_range, fit_nugget],
    enable_plotting=True,
)


import seaborn as sns

## data prep for nice plotting
resid = np.append(np.nan, ok3d.delta)
data = pd.DataFrame(
    {"x": dwd_sp.geometry.x, "y": dwd_sp.geometry.y, "residuals": resid}
)
data["LOOCV_residuals"] = np.where(data["residuals"] > 0, "neg", "pos")
data_pos = data[(data["residuals"] > 0)]
data_neg = data[(data["residuals"] < 0)]

### PLOTTING ####

fig, ax = plt.subplots(figsize=(7, 6))
# seaborn bubble plot
sns.scatterplot(
    x=data["x"],
    y=data["y"],
    size=abs(data["residuals"]),
    hue=data["LOOCV_residuals"],
    sizes=(1, 300),
    legend=True,
    ax=ax,
    alpha=0.7,
)

plt.title("Ordinary Kriging rainfall: LOOCV residuals\n")
plt.xlabel("")
plt.ylabel("")
## Legend outside of the plot
plt.legend(title=" ", bbox_to_anchor=(1.01, 1), borderaxespad=0)

plt.tight_layout()
plt.show()


rmse(ok3d.delta)

148.0164746390339


xmin, xmax = min(dwd_sp.geometry.x), max(dwd_sp.geometry.x)
ymin, ymax = min(dwd_sp.geometry.y), max(dwd_sp.geometry.y)
zmin, zmax = min(dwd_sp.ALTITUDE), max(dwd_sp.ALTITUDE)
## meshgrid to interpolate on
# # size of the grid to interpolate
nx, ny = 50, 50

# generate two arrays of evenly space data between ends of previous arrays
xi = np.linspace(xmin, xmax, nx)
yi = np.linspace(ymin, ymax, ny)
zi = np.linspace(zmin, zmax, ny)


# generate grid
xx, yy, zz = np.meshgrid(xi, yi, zi)


interpol_values_3d, sigma3d = ok3d.execute(
    "grid", xi.flatten(), yi.flatten(), zi.flatten()
)


fig, ax = plt.subplots(1, 2, figsize=(15, 10), sharey=True)

contour_levels = np.arange(400, 1900, 50)

krig = ax[0].contourf(
    xi,
    yi,
    interpol_values_3d[0, :, :],
    cmap="viridis_r",
    levels=contour_levels,
    alpha=0.7,
)

boundary_germany.plot(ax=ax[0], facecolor="none", edgecolor="black")
fig.colorbar(krig, ax=ax[0])
ax[0].set_title("Predicted annual rainfall [mm]")


contour_levels = np.arange(1000, 35000, 50)

sigma = ax[1].contourf(
    xi, yi, sigma3d[0, :, :], cmap="hot_r", levels=contour_levels, alpha=0.7
)

boundary_germany.plot(ax=ax[1], facecolor="none", edgecolor="black")
fig.colorbar(sigma, ax=ax[1])
ax[1].set_title("Kriging error $sigma^2$")


plt.show()


np.mean(np.sqrt(sigma2d)), np.mean(np.sqrt(sigma3d[0, :, :]))

(126.18677098523185, 95.20714054394963)

	MEAN.ANNUAL.RAINFALL	ALTITUDE	geometry
0	755.0	478.0	POINT (4234819.61426 2748192.18467)
1	820.0	202.0	POINT (4045677.70989 3081917.63415)
2	759.0	44.0	POINT (4202462.72690 3315312.39845)
3	919.0	759.0	POINT (4245047.74819 2789643.85319)
4	790.0	340.0	POINT (4545939.25005 2838265.72134)
...	...	...	...
581	657.0	308.0	POINT (4552333.97346 3109603.91660)
582	875.0	565.0	POINT (4297120.95508 2761375.13048)
583	567.0	62.0	POINT (4523829.16908 3341356.30168)
584	997.0	530.0	POINT (4074689.48322 3010038.15064)
585	734.0	29.0	POINT (4319117.24777 3382112.45555)

Data preparation¶

Sample variogram¶

Variogram modelling¶

Anisotropy¶

Model evaluation¶

Spatial prediction¶

Introducing a Covariate¶

Spatial prediction¶