import numpy as np
import scipy.stats as sps

from sklearn.linear_model import Ridge, Lasso, ElasticNet, LinearRegression
from sklearn.preprocessing import StandardScaler, PolynomialFeatures

import matplotlib.pyplot as plt
from matplotlib.figure import Figure
from matplotlib.axes import Axes
import ipywidgets as widgets
from typing import Tuple, List, Union

import warnings

warnings.filterwarnings("ignore")

import seaborn as sns

sns.set_theme("notebook", font_scale=1.2, palette="Set2")

# Сохраним цветовую палитру установленной темы Matplotlib
default_colors = plt.rcParams["axes.prop_cycle"].by_key()["color"]

random_state = 42

def f(x: float):
    """Целевая функция."""
    return 3 * (x**3) - 2 * (x**2) + x

x_grid = np.linspace(-1, 1, 300).reshape(-1, 1)
y_grid_values = f(x_grid)

plt.figure(figsize=(8, 4), tight_layout=True)
plt.plot(x_grid, y_grid_values, linewidth=3)
plt.title("График целевой функции");

sample_size = 10

# Фиксируем обучающую выборку и отклики
x_train = sps.uniform.rvs(
    -1, 2, (sample_size, 1), random_state=random_state
)  # 10 точек на отрезке [-1, 1]
y_train = f(x_train)

def plot_poly(
    x_train: np.ndarray,
    y_train: np.ndarray,
    x_grid: np.ndarray,
    y_grid_values: np.ndarray,
    y_approx: np.ndarray,
    graph_title: str,
) -> Figure:
    """Функция для визуализации приближения многочленом.

    Args:
        x_train (np.ndarray): Узлы аппроксимации (обучающая выборка, регрессоры)
        y_train (np.ndarray):Отклики на обучающей выборке
        x_grid (np.ndarray): Сетка для визуализации (тестовая выборка)
        y_grid_values (np.ndarray): Значения целевой функции на тестовой выборке
        y_approx (np.ndarray): Полученное приближение для y_grid_values
        graph_title (str): Заголовок для графика

    Returns:
        Figure: Объект Figure с построенным графиком
    """

    figure = plt.figure(figsize=(7, 3.5), tight_layout=True)

    plt.scatter(x_train, y_train, s=100, label="Обучающая выборка")
    plt.plot(x_grid, y_grid_values, label="Целевая функция", linewidth=5)
    plt.plot(x_grid, y_approx, label="Аппроксимация", linewidth=3)

    plt.title(graph_title)
    plt.legend()
    plt.ylim((-8, 4))

    return figure

# Создаём трансформер с заданной степенью многочлена
poly_features = PolynomialFeatures(degree=2).set_output(transform="pandas")

# Делаем преобразование массивов
X_train_poly = poly_features.fit_transform(x_train)
X_true_poly = poly_features.transform(x_grid)
X_train_poly.head(3)

from sklearn.pipeline import Pipeline

model = Pipeline(
    [
        ("step_1", PolynomialFeatures(degree=2)),   # Сначала преобразование над x (одно или несколько)
  
        ("step_2", LinearRegression(fit_intercept=False))   # Потом fit или predict модели
    ]
)

# Обучение
model.fit(x_train, y_train)  # Теперь fit автоматически добавляет
# полиномиальные фичи и обучает лин. рег.

# Значения приближенной функции на тестовой сетке x_test
y_approx = model.predict(x_grid)

# визуализация
plot_poly(
    x_train,
    y_train,
    x_grid,
    y_grid_values,
    y_approx,
    f"Приближение многочленом {model.get_params()['step_1__degree']} степени",
);

# Меняем степень
model["step_1"].set_params(degree=3)  # - так можно изменить параметр
#  `degree` на шаге `step_1`

# Обучаем модель и считаем приближение на тестовой сетке x_test
model.fit(x_train, y_train)
y_approx = model.predict(x_grid)

# визуализация
plot_poly(
    x_train,
    y_train,
    x_grid,
    y_grid_values,
    y_approx,
    f"Приближение многочленом {model['step_1'].get_params()['degree']} степени",
);

def f_real(x: float, random_state: int = 0):
    """Целевая функция + шум."""
    return (
        3 * (x**3)
        - 2 * (x**2)
        + x
        + sps.norm.rvs(0, 1, x.shape, random_state=random_state)
    )

y_train = f_real(x_train, random_state)

# Меняем степень
model["step_1"].set_params(degree=7)

# Обучаем модель и считаем приближение на тестовой сетке x_test
model.fit(x_train, y_train)
y_approx = model.predict(x_grid)

plot_poly(
    x_train,
    y_train,
    x_grid,
    y_grid_values,
    y_approx,
    f"Приближение многочленом {model['step_1'].get_params()['degree']} степени",
);

def generate_samples(
    samples_count: int, x_train: np.ndarray
) -> List[np.ndarray]:
    """Генерирует samples_count откликов для выборки x_train.

    Args:
        samples_count (int): Количество сгенерированных выборок.
        x_train (np.ndarray): Исходные данные.

    Returns:
        List[np.ndarray]: Список массивов сгенерированных откликов.
    """

    return [
        f_real(x_train, random_state) for random_state in range(samples_count)
    ]


y_train_all = generate_samples(100, x_train)

def plot_many_poly(
    models: Union[Pipeline, List[Pipeline]],
    y_train_all: List[np.ndarray],
    x_train: np.ndarray,
    x_grid: np.ndarray,
    y_grid_values: np.ndarray,
    graph_title: str = "",
) -> Tuple[Figure, Union[Axes, List[Axes]]]:
    """Обучает много одинаковых моделей на разных реализациях отклика и
    отображает на графике полученные приближения.

    Args:
        models (Union[RegressorMixin, List[RegressorMixin]]): Одна модель или список моделей sklearn.
        y_train_all (List[np.ndarray]): Список массивов откликов для обучения.
        x_train (np.ndarray): Обучающая выборка.
        x_grid (np.ndarray): Сетка для визуализации (тестовая выборка).
        y_grid_values (np.ndarray): Значения целевой функции на тестовой сетке.
        graph_title (str, optional): Заголовок для графика. По умолчанию пустая строка.

    Returns:
        Tuple[Figure, Union[Axes, List[Axes]]]: Фигура и оси с построенными графиками.
    """
    # Если передана одна модель, преобразуем её в список
    if not isinstance(models, list):
        models = [models]

    n_models = len(models)

    # Создаем фигуру и оси
    fig, axs = plt.subplots(
        1, n_models, figsize=(7, 3.5), tight_layout=True, sharey=True
    )

    # Если передана только одна модель, превращаем axs в список из одного элемента
    if n_models == 1:
        axs = [axs]

    for i, model in enumerate(models):
        ax = axs[i]
        for y_train in y_train_all:
            # Обучаем модель и считаем приближение на тестовой сетке x_test
            model.fit(x_train, y_train)
            y_approx = model.predict(x_grid)

            # Отображаем на общем графике кривую и точки выборки
            ax.plot(x_grid, y_approx, linewidth=0.5, color="#fc8d62")
            ax.scatter(x_train, y_train, s=200, alpha=0.5, color="#66c2a5")

        ax.plot(x_grid, y_grid_values, label="Целевая функция", linewidth=5)
        ax.legend()
        ax.set_ylim((-8, 4))
        ax.set_title(graph_title)

    return fig, axs

fixed_kwargs = {
    "x_train": x_train,  # тренировочная выборка
    "y_train_all": y_train_all,  # отклики на тренировочной выборке, много штук
    "x_grid": x_grid,  # тестова сетка
    "y_grid_values": y_grid_values,  # значения функции на сетке
}

plot_many_poly(
    models=model,
    graph_title=f"Приближение мн-ом {model['step_1'].get_params()['degree']} степени. Разные реализации",
    **fixed_kwargs,
);

# Меняем степень
model.set_params(step_1__degree=3)

# Обучаем модель и считаем приближение на тестовой сетке x_test
model.fit(x_train, y_train)
y_approx = model.predict(x_grid)

plot_poly(
    x_train,
    y_train,
    x_grid,
    y_grid_values,
    y_approx,
    f"Приближение многочленом {model['step_1'].get_params()['degree']} степени",
);

plot_many_poly(
    models=model,
    graph_title=f"Приближение многочленом {model['step_1'].get_params()['degree']} степени",
    **fixed_kwargs,
);

model_reg = Pipeline(
    [                                           
        ("step_1", PolynomialFeatures(degree=3, include_bias=False)),   # Учёт сдвига перенесём в саму модель

        ("step_2", StandardScaler()),  # Добавили стандартизацию

        ("step_3", Ridge(fit_intercept=True, alpha=1)),  # Заменили LinearRegression Ridge
    ]
)

fig, (ax1, ax2) = plot_many_poly(models=[model_reg, model], **fixed_kwargs)
fig.set_size_inches(15, 5)
fig.suptitle(
    f"Приближение мн-ом {model['step_1'].get_params()['degree']} степени. Разные реализации"
)
ax1.set_title("С регуляризацией")
ax2.set_title("Без регуляризации");

# Меняем степень
model["step_1"].set_params(degree=7)
model_reg["step_1"].set_params(degree=7)

fig, (ax1, ax2) = plot_many_poly(models=[model_reg, model], **fixed_kwargs)
fig.set_size_inches(15, 5)
fig.suptitle(
    f"Приближение мн-ом {model['step_1'].get_params()['degree']} степени. Разные реализации"
)
ax1.set_title("С регуляризацией")
ax2.set_title("Без регуляризации");

def poly_regular_visualize(
    degree: int,
    alpha: float,
    model: str,
    x_train: np.ndarray,
    y_train: np.ndarray,
    x_grid: np.ndarray,
    y_grid_values: np.ndarray,
):
    """Визуализирует предсказание и коэффициенты модели с заданным параметром
    регуляризации.

    Args:
        degree (int): Степень многочлена, которым делается приближение.
        alpha (float): Коэффициент регуляризации.
        model (str): Тип модели ('Ridge', 'Lasso' или 'Elastic').
        x_train (np.ndarray): Узлы аппроксимации (обучающая выборка, регрессоры).
        y_train (np.ndarray): Отклики на обучающей выборке.
        x_grid (np.ndarray): Сетка для визуализации (тестовая выборка).
        y_grid_values (np.ndarray): Значения целевой функции на тестовой выборке.
    """

    # Инициализируем нужную модель
    if model == "Ridge":
        model_instance = Ridge(alpha=alpha, max_iter=1000, fit_intercept=True)
    elif model == "Lasso":
        model_instance = Lasso(alpha=alpha, max_iter=1000, fit_intercept=True)
    elif model == "Elastic":
        model_instance = ElasticNet(
            alpha=alpha, max_iter=1000, fit_intercept=True
        )
    else:
        return None

    # Добавим к модели преобразования признаков
    pipeline_model = Pipeline(
        [
            ("step_1", PolynomialFeatures(degree=degree, include_bias=False)),
            ("step_2", StandardScaler()),
            ("step_3", model_instance),
        ]
    ).fit(
        x_train, y_train
    )  # ...и сразу обучим

    # Получаем предсказания
    y_approx = pipeline_model.predict(x_grid)

    # Визуализация
    figure = plt.figure(figsize=(10, 6), tight_layout=True)

    # График предсказания
    plt.subplot(2, 1, 1)
    plt.scatter(x_train, y_train, s=100, label="Обучающая выборка")
    plt.plot(x_grid, y_grid_values, label="Целевая функция", linewidth=5)
    plt.plot(x_grid, y_approx, label="Аппроксимация", linewidth=3)
    plt.ylabel("y")
    plt.legend()

    # График коэффициентов
    plt.subplot(2, 1, 2)
    plt.bar(
        ["$x^0$"] + [f"$x^{p[0]}$" for p in pipeline_model["step_1"].powers_],
        model_instance.intercept_.flatten().tolist()
        + model_instance.coef_.flatten().tolist(),
    )
    plt.ylabel("Коэф.")

y_train = f_real(x_train)

# Создаём виджет с возможностью менять `alpha` и вид регуляризации
ip = widgets.interact(
    poly_regular_visualize,
    degree=widgets.IntSlider(min=1, max=10, value=7),
    model="Ridge",
    alpha=widgets.FloatSlider(min=0.0001, max=4, step=0.01, value=0),
    x_train=widgets.fixed(x_train),
    y_train=widgets.fixed(y_train),
    x_grid=widgets.fixed(x_grid),
    y_grid_values=widgets.fixed(y_grid_values),
);

interactive(children=(IntSlider(value=7, description='degree', max=10, min=1), FloatSlider(value=0.0001, descr…

def train_alpha_grid(
    model: Pipeline,
    x_train: np.ndarray,
    y_train: np.ndarray,
    alpha_grid: np.ndarray,
) -> np.ndarray:
    """Обучает модель для разных значений параметра регуляризации и сохраняет
    коэффициенты.

    Args:
        model (Pipeline): Конвейер (Pipeline) со степенями полинома, стандартизацией и моделью регуляризации.
        x_train (np.ndarray): Обучающая выборка.
        y_train (np.ndarray): Отклик на обучающей выборке.
        alpha_grid (np.ndarray): Массив значений параметра регуляризации (alpha).

    Returns:
        np.ndarray: Массив коэффициентов моделей с разной силой штрафа.
    """

    coefs = []

    for a in alpha_grid:
        model["step_3"].set_params(
            alpha=a
        )  # Устанавливаем новое значение alpha
        model.fit(x_train, y_train)  # Обучаем модель

        # Сохраняем коэффициенты (intercept + coef_)
        coefs.append(
            model["step_3"].intercept_.flatten().tolist()
            + model["step_3"].coef_.flatten().tolist()
        )

    return np.array(coefs)

# Сетка значений alpha
alpha_grid = np.logspace(-4, 3, 200)

# Вновь рассматриваем три модели
models_dict = {
    "Ridge": Ridge(fit_intercept=True),
    "Lasso": Lasso(fit_intercept=True),
    "ElasticNet": ElasticNet(fit_intercept=True),
}


fig, ax_list = plt.subplots(
    1, 3, figsize=(15, 5), tight_layout=True, sharey=True
)

# Сопоставим цвета для коэффициентов:
# первые 4 "правильных" — стандартно
# остальные — серым
colors = default_colors[:4] + [(181 / 255, 184 / 255, 177 / 255)] * 4

# Перебираем модели и строим графики коэффициентов
for ax, (model_name, model) in zip(ax_list, models_dict.items()):

    model = Pipeline(
        [
            ("step_1", PolynomialFeatures(degree=7, include_bias=False)),
            ("step_2", StandardScaler()),
            ("step_3", model),
        ]
    )
    # Обучаем модель на различных значениях alpha и получаем коэффициенты
    coefs = train_alpha_grid(model, x_train, y_train, alpha_grid)

    # Истинные коэффициенты для сравнения
    true_coefs = [0, 1, 2, 3]

    # Визуализация изменения коэффициентов при разной alpha
    for i, coef_track in enumerate(coefs.T):
        if i < 4:
            arg_best = np.argmin(np.abs(coef_track - true_coefs[i]))
            ax.scatter(
                alpha_grid[arg_best],
                coef_track[arg_best],
                marker="*",
                c=colors[i],
                s=230,
            )
            lw, ls = 3.5, "-"
        else:
            lw, ls = 2.5, "--"
        ax.plot(
            alpha_grid,
            coef_track,
            label=f"$\\widehat{{\\theta}}_{i}$",
            color=colors[i],
            lw=lw,
            ls=ls,
        )

    # Настройка осей и заголовков
    ax.set_title(model_name)
    ax.set_xlabel("$\\alpha$")
    ax.set_xscale("log")
    ax.set_ylim((-3, 4))

# Общие настройки
ax_list[0].set_ylabel("$\\widehat{\\theta}$")
ax_list[-1].legend(loc="right");

def y(x: np.ndarray, with_noise: bool = True) -> np.ndarray:
    """Целевая функция + шум."""

    noise = np.random.normal(0, 1, x.shape[0]) * with_noise
    return (
        1
        + 2 * x[:, 0]
        + 5 * x[:, 1]
        + 3.5 * x[:, 2]
        + x[:, 3]
        - x[:, 4]
        + noise
    )


def add_multicollinearity(
    x: np.ndarray, noise_std: float = 0.0001
) -> np.ndarray:
    """Вносит погрешность в признак x4 для создания мультиколлинеарности."""

    x[:, 3] = (
        x[:, 2]
        - 2.5 * x[:, 1]
        + 2.5 * x[:, 4]
        + np.random.normal(0, noise_std, x.shape[0])
    )
    return x

def fit_predict_ntimes(
    X_train: np.ndarray,
    X_test_point: np.ndarray,
    alpha: float = 0.0,
    n_repeats: int = 1000,
    feature_noise_std: float = 0.01,
) -> Tuple[np.ndarray, float]:
    """Обучает n_repeats раз Ridge-регрессию со штрафом alpha и возвращает
    предсказания на X_test_point вместе со средним числом обусловленности.

    Args:
        X_train (np.ndarray): Обучающая выборка (размерность [n_samples, n_features]).
        X_test_point (np.ndarray): Тестовая точка (размерность [1, n_features]).
        alpha (float): Коэффициент регуляризации.
        n_repeats (int): Число повторений.
        feature_noise_std (float): Стандартное отклонение шума в признаках (влияет на обусловленность).

    Returns:
        Tuple[np.ndarray, float]:
            - np.ndarray: Массив предсказаний на объекте X_test_point (размер n_repeats).
            - float: Среднее число обусловленности.
    """

    # Сюда будем записывать числа обусловленности
    cond_numbers = np.empty(n_repeats, dtype=float)

    # Сюда будем записывать предсказания в точке X_test_point
    predictions = np.empty(n_repeats, dtype=float)

    # Создаём модель
    model = Pipeline(
        [
            ("step_1", StandardScaler()),
            ("step_2", Ridge(alpha=alpha, fit_intercept=True)),
        ]
    )
    for i in range(n_repeats):
        # Добавляем мультиколлинеарность и пересчитываем отклик
        X_train_bad = add_multicollinearity(
            X_train, noise_std=feature_noise_std
        )
        y_train = y(X_train)

        # Обучаем модель и делаем предсказание
        model.fit(X_train_bad, y_train)
        predictions[i] = model.predict(X_test_point)

        # Считаем число обусловленности
        X = X_train_bad.T @ X_train_bad + alpha * np.diag(
            np.ones(X_train.shape[1])
        )
        cond_numbers[i] = np.sqrt(np.linalg.cond(X))  # Сохраняем в массив

    return predictions, cond_numbers.mean()

def visualize_as_kde(
    models_predictions: dict[str, np.ndarray],
    y_true_point: float,
    graph_title: str = "",
):
    """Строит ядерную оценку плотности (ЯОП) предсказаний моделей из словаря
    models_predictions.

    Args:
        models_predictions (dict[str, np.ndarray]):
            Словарь, где ключи — названия моделей, а значения — массивы предсказаний (размерности [n_samples]).
        y_true_point (float): Истинное значение отклика в тестовой точке.
        graph_title (str, optional): Заголовок графика. По умолчанию - пустая строка.
    """

    plt.figure(figsize=(12, 5))
    ylim = None

    for model_name, y_pred in models_predictions.items():
        # Построение ядерной оценки плотности (ЯОП)
        sns.kdeplot(y_pred, fill=True, alpha=0.35, label=model_name)

        # Среднее значение предсказаний модели отметим вертикальной линией
        if ylim is None:
            ylim = plt.gca().get_ylim()
        plt.plot([np.mean(y_pred)] * 2, ylim, ls="-")

    # Отображение истинного значения отклика
    plt.scatter(y_true_point, 0, marker="*", color="red", label="y_true", s=200)

    plt.xlabel("$\\widehat{y}(x_{test})$")
    plt.legend()
    plt.title(graph_title)

# Генерируем синтетические данные
n_samples = 100
X = np.random.rand(n_samples, 5)

# Фиксируем некоторую пробную точку
X_test_point = np.array([[1, 2, 3, -2, -1]]) / 10  # Здесь x3 = x2 - 2.5x1
# Деление на 10, чтобы тестовая точка
# была того же диапазона, что и тренировочная выборка
y_test = y(X_test_point, with_noise=False)

# Рассматриваем линейную регрессию
alpha = 0.0

y_preds, cond = fit_predict_ntimes(X, X_test_point, alpha)

# Записываем результаты эксперимента в общий словарь
predictions = {f"$\\alpha = {alpha:.2f}$, $\\kappa = {cond:.0f}$": y_preds}
visualize_as_kde(
    predictions, y_test, "Распределение предсказаний модели на одном объекте"
)

# Рассматриваем линейную регрессию
alpha = 0.01
y_preds, cond = fit_predict_ntimes(X, X_test_point, alpha)

# Записываем результаты эксперимента в общий словарь
predictions[f"$\\alpha = {alpha:.2f}$, $\\kappa = {cond:.0f}$"] = y_preds

visualize_as_kde(
    predictions, y_test, "Распределение предсказаний модели на одном объекте"
)

# Рассматриваем линейную регрессию
alpha = 0.1
y_preds, cond = fit_predict_ntimes(X, X_test_point, alpha)

# Записываем результаты эксперимента в общий словарь
predictions[f"$\\alpha = {alpha:.2f}$, $\\kappa = {cond:.0f}$"] = y_preds

visualize_as_kde(
    predictions, y_test, "Распределение предсказаний модели на одном объекте"
)

	1	x0	x0^2
0	1.0	-0.250920	0.062961
1	1.0	0.901429	0.812574
2	1.0	0.463988	0.215285

Phystech@DataScience ¶

Семинар. Польза регуляризации.¶

1. Переобучение и неустойчивость модели¶

1.1 Идеальные данные¶

Пара технических моментов¶

Возвращаемся к данным¶

1.2 Суровая реальность¶

1.3 Масштаб катастрофы¶

1.3 Регуляризация повышает устойчивость¶

1.4 Что там с переобучением?¶

1.5 Параметр регуляризации¶

2. Проблема мультиколлинеарности¶

2.1 Разброс ответов модели¶

Phystech@DataScience¶

Семинар. Польза регуляризации.¶

1. Переобучение и неустойчивость модели¶

1.1 Идеальные данные¶

Пара технических моментов¶

Возвращаемся к данным¶

1.2 Суровая реальность¶

1.3 Масштаб катастрофы¶

1.3 Регуляризация повышает устойчивость¶

1.4 Что там с переобучением?¶

1.5 Параметр регуляризации¶

2. Проблема мультиколлинеарности¶

2.1 Разброс ответов модели¶

Phystech@DataScience ¶