{ "cells": [ { "cell_type": "markdown", "metadata": { "id": "SGNQebQ2VF_v" }, "source": [ "# Phystech@DataScience\n", "\n", "## Регуляризация\n", "\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "# Bot check\n", "\n", "# HW_ID: phds_sem3\n", "# Бот проверит этот ID и предупредит, если случайно сдать что-то не то\n", "\n", "# Status: not final\n", "# Перед отправкой в финальном решении удали \"not\" в строчке выше\n", "# Так бот проверит, что ты отправляешь финальную версию, а не промежуточную" ] }, { "cell_type": "markdown", "metadata": { "id": "3wKI9ax8hHSM" }, "source": [ "**Баллы за задание:**\n", "\n", "* Задача 1 — 20 баллов" ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "id": "IbB0CJgQZ6Zu" }, "outputs": [], "source": [ "import numpy as np\n", "import matplotlib.pyplot as plt\n", "\n", "from sklearn.metrics import r2_score, mean_squared_error\n", "from sklearn.linear_model import Ridge, Lasso\n", "from sklearn.datasets import load_diabetes\n", "\n", "import warnings\n", "\n", "warnings.simplefilter(action=\"ignore\")" ] }, { "cell_type": "markdown", "metadata": { "id": "twzlgl_shTWc" }, "source": [ "# Задача 1" ] }, { "cell_type": "markdown", "metadata": { "id": "hW9sFI1-hftk" }, "source": [ "В данной задаче мы продолжим работать с датасетом о диабете, с которым вы уже знакомились ранее." ] }, { "cell_type": "markdown", "metadata": { "id": "P-ysW8Yghn9N" }, "source": [ "Загрузим данные" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "v8JJBr3-hUNO" }, "outputs": [], "source": [ "data = load_diabetes()\n", "X, y = data.data, data.target" ] }, { "cell_type": "markdown", "metadata": { "id": "_Qv38ST7hxA-" }, "source": [ "Разбейте данные случайно на две части — обучающую и тестовую в соотношении 80:20." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "dLSDQZdLhlU1" }, "outputs": [], "source": [ "X_train, X_test, y_train, y_test = <...>" ] }, { "cell_type": "markdown", "metadata": { "id": "YzzRpAggi3nl" }, "source": [ "Масштабируйте признаки, с помощью `StandardScaler`\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "eAFCv6Jhh2bl" }, "outputs": [], "source": [ "scaler = StandardScaler()\n", "X_train = <...>\n", "X_test = <...>" ] }, { "cell_type": "markdown", "metadata": { "id": "U1gVgvXx6CTf" }, "source": [ "## Теоретическая справка: L1-регуляризация и градиентный спуск\n" ] }, { "cell_type": "markdown", "metadata": { "id": "QbkSgO0e2AcJ" }, "source": [ "\n", "**Цель регуляризации**:\n", "Борьба с переобучением за счет добавления штрафа за большие значения весов.\n", "В L1-регуляризации штраф пропорционален сумме абсолютных значений весов.\n", "\n", "**Функция потерь**:\n", "$$\n", "L(\\mathbf{w}) = \\underbrace{\\frac{1}{n}\\sum_{i=1}^n (y_i - \\hat{y}_i)^2}_{\\text{MSE}} + \\lambda \\sum_{j=1}^d |w_j|\n", "$$\n", "где:\n", "- $n$ — количество объектов в выборке\n", "- $d$ — количество признаков\n", "- $\\hat{y}_i = \\mathbf{x}_i^T\\mathbf{w} + b$ — предсказание модели ($b$ — свободный коэффициент)\n", "- $\\lambda$ — коэффициент регуляризации\n", "\n", "**Градиенты для обновления параметров**:\\\n", "Для весов:\n", "$$\n", "\\frac{\\partial L}{\\partial w_j} = \\frac{2}{n} \\sum_{i=1}^n x_{ij}(\\hat{y}_i - y_i) + \\lambda \\cdot \\text{sign}(w_j)\n", "$$\n", "\n", "Для свободного коэффициента:\n", "$$\n", "\\frac{\\partial L}{\\partial b} = \\frac{2}{n} \\sum_{i=1}^n (\\hat{y}_i - y_i)\n", "$$\n", "\n", "**Особенности оптимизации**:\n", "1. При $w_j = 0$ функция $|w_j|$ не дифференцируема → используем субградиент:\n", " $$\n", " \\text{sign}(w_j) = \\begin{cases}\n", " 1, & w_j > 0 \\\\\n", " 0, & w_j = 0 \\\\\n", " -1, & w_j < 0\n", " \\end{cases}\n", " $$\n", "\n", "2. L1-штраф применяется только к весам ($w_j$). Градиент для смещения ($b$) содержит только производную от MSE\n", "\n", "3. Обновление параметров происходит по правилу:\n", " $$\n", " w_j = w_{j-1} - \\eta \\frac{\\partial L}{\\partial w_{j-1}}, \\quad b_j = b_{j-1} - \\eta \\frac{\\partial L}{\\partial b_{j-1}}\n", " $$\n", " где $\\eta$ — скорость обучения" ] }, { "cell_type": "markdown", "metadata": { "id": "pKqa_3Y71qov" }, "source": [ "## Реализация L1-регуляризации" ] }, { "cell_type": "markdown", "metadata": { "id": "P6U79M7HjL1F" }, "source": [ "Теперь реализуем Lasso регрессию на практике:" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "KYTm-GfckBwW" }, "outputs": [], "source": [ "class MyLassoRegression:\n", " \"\"\"\n", " Класс для реализации Lasso регрессии с использованием градиентного спуска.\n", "\n", " Параметры:\n", " - learning_rate: скорость обучения (по умолчанию 0.01)\n", " - lambda_: коэффициент L1-регуляризации (по умолчанию 0.1)\n", " - n_iters: количество итераций градиентного спуска (по умолчанию 1000)\n", " \"\"\"\n", "\n", " def __init__(self, learning_rate=0.01, lambda_=0.1, n_iters=1000):\n", " self.learning_rate = learning_rate\n", " self.lambda_ = lambda_\n", " self.n_iters = n_iters\n", " self.coef_ = None\n", " self.intercept_ = None\n", "\n", " def fit(self, X, y):\n", " \"\"\"\n", " Обучение модели на тренировочных данных.\n", "\n", " Параметры:\n", " - X: матрица признаков (n_samples, n_features)\n", " - y: вектор целевой переменной (n_samples,)\n", " \"\"\"\n", " n_samples, n_features = X.shape\n", "\n", " # Инициализация параметров\n", " self.coef_ = np.random.normal(scale=0.01, size=n_features)\n", " self.intercept_ = 0\n", "\n", " # Градиентный спуск\n", " for _ in range(self.n_iters):\n", " # Предсказание\n", " y_pred = <...>\n", "\n", " # Вычисление градиентов\n", " dw = <...>\n", " db = <...>\n", "\n", " # Обновление параметров\n", " self.coef_ -= <...>\n", " self.intercept_ -= <...>\n", "\n", " def predict(self, X):\n", " \"\"\"Предсказание целевой переменной для новых данных\"\"\"\n", " return <...>\n", "\n", " def get_coef(self):\n", " \"\"\"Получение коэффициентов модели\"\"\"\n", " return self.coef_" ] }, { "cell_type": "markdown", "metadata": { "id": "ZiFgRpcnkge1" }, "source": [ "Обучите написанную модель и модель `Lasso` из `sklearn.linear_model` на наших данных" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "orGi9naQhtBN" }, "outputs": [], "source": [ "# Создание и обучение кастомной модели\n", "custom_model = MyLassoRegression(learning_rate=0.1, lambda_=0.1, n_iters=5000)\n", "custom_model.fit(X_train, y_train)" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "rWudKHp8nYSY" }, "outputs": [], "source": [ "# Создание и обучение модели из sklearn\n", "sklearn_model = Lasso(alpha=0.1, max_iter=5000)\n", "sklearn_model.fit(X_train, y_train)" ] }, { "cell_type": "markdown", "metadata": { "id": "iF0LwesInf6G" }, "source": [ "Распечатайте коэффициенты и сравните их с коэффициентами модели из `sklearn`." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "b4Rqf0oWne4W" }, "outputs": [], "source": [ "print(\"Кастомная модель коэффициенты:\", custom_model.get_coef())\n", "print(\"Sklearn Lasso коэффициенты:\", sklearn_model.coef_)" ] }, { "cell_type": "markdown", "metadata": { "id": "9ZzY-wijkqF5" }, "source": [ " Сравните качество моделей со на тестовой выборке, используя `mean_squared_error` и `r2_score` из `sklearn.metrics` ." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "i7SKK9xZk3Yu" }, "outputs": [], "source": [ "# Расчет и вывод MSE\n", "custom_pred = custom_model.predict(X_test)\n", "sklearn_pred = sklearn_model.predict(X_test)\n", "\n", "print(\"Кастомная модель MSE:\", mean_squared_error(y_test, custom_pred))\n", "print(\"Sklearn Lasso MSE:\", mean_squared_error(y_test, sklearn_pred), \"\\n\")\n", "\n", "print(\"Кастомная модель R2:\", r2_score(y_test, custom_pred))\n", "print(\"Sklearn Lasso R2:\", r2_score(y_test, sklearn_pred))" ] }, { "cell_type": "markdown", "metadata": { "id": "CvGkaNGco14F" }, "source": [ "## Теоретическая справка: L2-регуляризация (Ridge) и градиентный спуск" ] }, { "cell_type": "markdown", "metadata": { "id": "1gWVPsVX6KOC" }, "source": [ "\n", "**Цель регуляризации**:\n", "Сокращение сложности модели за счет штрафа за большие значения весов.\n", "В L2-регуляризации штраф пропорционален сумме квадратов коэффициентов.\n", "\n", "**Функция потерь**:\n", "$$\n", "L(\\mathbf{w}) = \\underbrace{\\frac{1}{n}\\sum_{i=1}^n (y_i - \\hat{y}_i)^2}_{\\text{MSE}} + \\lambda \\sum_{j=1}^d w_j^2\n", "$$\n", "где:\n", "- $n$ — количество объектов в выборке\n", "- $d$ — количество признаков\n", "- $\\hat{y}_i = \\mathbf{x}_i^T\\mathbf{w} + b$ — предсказание модели\n", "- $\\lambda$ — коэффициент регуляризации\n", "\n", "**Градиент для обновления весов**:\n", "$$\n", "\\frac{\\partial L}{\\partial w_j} = \\frac{2}{n}\\sum_{i=1}^n x_{ij}(\\hat{y}_i - y_i) + 2\\lambda w_j\n", "$$\n", "\\\n", "Заметим, что функция дифференцируема во всех точках → стандартный градиентный спуск" ] }, { "cell_type": "markdown", "metadata": { "id": "B9rz_h9Np-Fu" }, "source": [ "## Реализация L2-регуляризации" ] }, { "cell_type": "markdown", "metadata": { "id": "gMT9PRtmqGNI" }, "source": [ "Настала ваша очередь реализовать свой класс уже для L2-регуляризация" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "692RkTKWqQM-" }, "outputs": [], "source": [ "class MyRidgeRegression:\n", " \"\"\"\n", " Класс для реализации линейной регрессии с L2-регуляризацией (Ridge)\n", "\n", " Параметры:\n", " - learning_rate: скорость обучения (по умолчанию 0.01)\n", " - lambda_: коэффициент L2-регуляризации (по умолчанию 0.1)\n", " - n_iters: количество итераций градиентного спуска (по умолчанию 1000)\n", " \"\"\"\n", "\n", " def __init__(self, learning_rate=0.01, lambda_=0.1, n_iters=1000):\n", " self.learning_rate = learning_rate\n", " self.lambda_ = lambda_\n", " self.n_iters = n_iters\n", " self.coef_ = None\n", " self.intercept_ = None\n", "\n", " def fit(self, X, y):\n", " \"\"\"\n", " Обучение модели с использованием градиентного спуска\n", "\n", " Параметры:\n", " - X: матрица признаков (n_samples, n_features)\n", " - y: вектор целевой переменной (n_samples,)\n", " \"\"\"\n", " n_samples, n_features = X.shape\n", "\n", " # Инициализация параметров\n", " self.coef_ = np.random.normal(scale=0.01, size=n_features)\n", " self.intercept_ = 0\n", "\n", " # Градиентный спуск\n", " for _ in range(self.n_iters):\n", " y_pred = <...>\n", "\n", " # Вычисление градиентов с L2-регуляризацией\n", " dw = <...>\n", " db = <...>\n", "\n", " # Обновление параметров\n", " self.coef_ -= <...>\n", " self.intercept_ -= <...>\n", "\n", " def predict(self, X):\n", " \"\"\"Предсказание целевой переменной для новых данных\"\"\"\n", " return <...>\n", "\n", " def get_coef(self):\n", " \"\"\"Получение коэффициентов модели\"\"\"\n", " return self.coef_" ] }, { "cell_type": "markdown", "metadata": { "id": "NNKp901fA0N-" }, "source": [ "Создайте и обучите кастомную модель и модель `Ridge` из `sklearn`." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true, "id": "pBXdXcwFq_BI" }, "outputs": [], "source": [ "# Создание и обучение кастомной модели\n", "custom_model = MyRidgeRegression(learning_rate=0.1, lambda_=0.5, n_iters=1000)\n", "custom_model.fit(X_train, y_train)\n", "\n", "# Создание и обучение модели Ridge из sklearn\n", "sklearn_model = Ridge(\n", " alpha=0.5, # alpha в sklearn соответствует lambda_ в нашей реализации\n", ")\n", "sklearn_model.fit(X_train, y_train)" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "fpI26H1vrPVf" }, "outputs": [], "source": [ "print(\"Кастомная модель коэффициенты:\", custom_model.get_coef())\n", "print(\"Sklearn Ridge коэффициенты:\", sklearn_model.coef_)" ] }, { "cell_type": "markdown", "metadata": { "id": "yU557wszrPVg" }, "source": [ " Сравните качество моделей со на тестовой выборке, используя `mean_squared_error` и `r2_score` из `sklearn.metrics` ." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "g1f-EbQ0rPVg" }, "outputs": [], "source": [ "# Расчет и вывод MSE\n", "custom_pred = custom_model.predict(X_test)\n", "sklearn_pred = sklearn_model.predict(X_test)\n", "\n", "print(\"Кастомная модель MSE:\", mean_squared_error(y_test, custom_pred))\n", "print(\"Sklearn Ridge MSE:\", mean_squared_error(y_test, sklearn_pred), \"\\n\")\n", "\n", "print(\"Кастомная модель R2:\", r2_score(y_test, custom_pred))\n", "print(\"Sklearn Ridge R2:\", r2_score(y_test, sklearn_pred))" ] }, { "cell_type": "markdown", "metadata": { "id": "eRNWIruRnh6o" }, "source": [ "❓ **Вопрос** ❓\n", ">Что вы можете сказать по полученным коэффициентам и метрикам?\n" ] }, { "cell_type": "markdown", "metadata": { "id": "dWaRy7OGntt_" }, "source": [ "**Ответ**:" ] }, { "cell_type": "markdown", "metadata": { "id": "vFsWFLBtrl3X" }, "source": [ "Сделайте выводы по всей задаче." ] }, { "cell_type": "markdown", "metadata": { "id": "2xfXOp6ZtYIA" }, "source": [ "**Вывод:**" ] }, { "cell_type": "markdown", "metadata": { "id": "cxm_uXD6IANq" }, "source": [ "# Визуализация: Градиентный спуск" ] }, { "cell_type": "markdown", "metadata": { "id": "Zwuy_bAww8f8" }, "source": [ "\n", "**Что такое линии уровня?** \n", "Это проекция 3D-поверхности функции потерь на 2D-плоскость. Каждая линия объединяет точки с одинаковым значением функции потерь. Представьте, что:\n", "- Высокие \"горные хребты\" = высокие значения потерь (плохие предсказания)\n", "- \"Долины\" = низкие значения потерь (хорошие решения)\n", "\n", "\n", "\n", "\\\n" ] }, { "cell_type": "markdown", "metadata": { "id": "YEoIVghFZRsH" }, "source": [ "![линии уровня.png]()" ] }, { "cell_type": "markdown", "metadata": { "id": "4lB2rj83ZbEW" }, "source": [ "В пространстве 100+ признаков визуализация невозможна, но принципы остаются теми же. Профессионалы мысленно представляют эти ландшафты при настройке моделей!\n", "\n", "Давайте запустим визуализацию и понаблюдаем за \"бегом\" градиента по линиям уровня:" ] }, { "cell_type": "markdown", "metadata": { "id": "p52KUm-k2ioi" }, "source": [ "Реализуем несколько функции для удобства." ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "id": "NtZT_yoxEz-H" }, "outputs": [], "source": [ "def generate_polynomial_data(degree, n_samples=100, noise=0.1):\n", " \"\"\"Генерирует синтетические данные для полиномиальной регрессии заданной\n", " степени.\n", "\n", " Возвращает X (без добавления единиц) и y с шумом.\n", " \"\"\"\n", " np.random.seed(0)\n", " X = np.linspace(-1, 1, n_samples)\n", " coef = np.random.randn(degree + 1)\n", " y = np.polyval(coef[::-1], X)\n", " y += np.random.normal(0, noise, y.shape)\n", " return X.reshape(-1, 1), y" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "id": "0ohVXmy5HpMO" }, "outputs": [], "source": [ "def create_mse_loss(X, y):\n", " \"\"\"Создает функцию потерь MSE для данных X и y.\"\"\"\n", " X_b = np.c_[np.ones((len(X), 1)), X] # Добавляем столбец единиц\n", "\n", " def mse_loss(theta):\n", " return np.mean((X_b.dot(theta) - y) ** 2)\n", "\n", " return mse_loss\n", "\n", "\n", "def create_mse_gradient(X, y):\n", " \"\"\"Создает функцию градиента MSE для данных X и y.\"\"\"\n", " X_b = np.c_[np.ones((len(X), 1)), X] # Добавляем столбец единиц\n", " n = len(y)\n", "\n", " def mse_grad(theta):\n", " return (2 / n) * X_b.T.dot(X_b.dot(theta) - y)\n", "\n", " return mse_grad" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "id": "GzXYQcFLHtMA" }, "outputs": [], "source": [ "def gradient_descent(grad_func, start_theta, lr=0.1, n_iters=100):\n", " \"\"\"Выполняет градиентный спуск и возвращает историю значений параметров.\"\"\"\n", " theta = start_theta.copy()\n", " history = [theta.copy()]\n", " for _ in range(n_iters):\n", " grad = grad_func(theta)\n", " theta -= lr * grad\n", " history.append(theta.copy())\n", " return np.array(history)" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "id": "juyCjaOfHqP5" }, "outputs": [], "source": [ "def visualize_gradient_descent(\n", " loss_func, grad_func, start_theta=None, lr=0.1, bounds=[[-2, 2], [-2, 2]], n_iters=100\n", "):\n", " \"\"\"Визуализирует путь градиентного спуска на графике линий уровня.\n", "\n", " Параметры:\n", " loss_func: функция потерь, принимающая theta\n", " grad_func: функция градиента, принимающая theta\n", " start_theta: начальная точка (None для случайной)\n", " lr: скорость обучения\n", " bounds: границы для осей [theta0_range, theta1_range]\n", " n_iters: количество итераций\n", " \"\"\"\n", " # Генерация начальной точки\n", " if start_theta is None:\n", " start_theta = np.array(\n", " [\n", " np.random.uniform(bounds[0][0], bounds[0][1]),\n", " np.random.uniform(bounds[1][0], bounds[1][1]),\n", " ]\n", " )\n", "\n", " # Выполнение градиентного спуска\n", " history = gradient_descent(grad_func, start_theta, lr, n_iters)\n", "\n", " # Создание сетки для линий уровня\n", " theta0 = np.linspace(*bounds[0], 100)\n", " theta1 = np.linspace(*bounds[1], 100)\n", " Theta0, Theta1 = np.meshgrid(theta0, theta1)\n", " losses = np.array(\n", " [loss_func([t0, t1]) for t0, t1 in zip(Theta0.ravel(), Theta1.ravel())]\n", " )\n", " losses = losses.reshape(Theta0.shape)\n", "\n", " # Построение графика\n", " plt.figure(figsize=(10, 6))\n", " contour = plt.contour(Theta0, Theta1, losses, levels=20, alpha=0.5)\n", " plt.plot(\n", " history[:, 0],\n", " history[:, 1],\n", " \"r.-\",\n", " markersize=10,\n", " linewidth=1,\n", " label=\"Путь спуска\",\n", " )\n", " plt.scatter(history[-1, 0], history[-1, 1], c=\"green\", s=100, label=\"Финиш\")\n", " plt.scatter(start_theta[0], start_theta[1], c=\"blue\", s=100, label=\"Старт\")\n", " plt.xlabel(\"W1\")\n", " plt.ylabel(\"W2\")\n", " plt.title(f\"Градиентный спуск (lr={lr})\")\n", " plt.legend()\n", " plt.colorbar(contour, label=\"Значение функции потерь\")\n", " plt.grid(True)\n", " plt.show()" ] }, { "cell_type": "markdown", "metadata": { "id": "s0QijpMZ6diT" }, "source": [ "Обратим внимание, что если не передавать параметр `start_theta` в функцию `visualize_gradient_descent`, то начальные параметры у нас инициализируются случайным образом." ] }, { "cell_type": "markdown", "metadata": { "id": "PT-_CW5e3YNi" }, "source": [ "Напишем пример функции, по которой будем запускать градиентный спуск из точки (-2, -7.5) и понаблюдаем." ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "id": "bFxRy48_GDv7" }, "outputs": [], "source": [ "def booth_loss(theta):\n", " \"\"\"Формула функции:\n", "\n", " f(x, y) = (x + 2y - 7)² + (2x + y - 5)²\n", " \"\"\"\n", " return (theta[0] + 2 * theta[1] - 7) ** 2 + (2 * theta[0] + theta[1] - 5) ** 2\n", "\n", "\n", "def booth_grad(theta):\n", " \"\"\"\n", " df/dx = 2x + 10·cos(5x)\n", " df/dy = 2y - 10·sin(5y)\n", " \"\"\"\n", " dx = 2 * (theta[0] + 2 * theta[1] - 7) + 4 * (2 * theta[0] + theta[1] - 5)\n", " dy = 4 * (theta[0] + 2 * theta[1] - 7) + 2 * (2 * theta[0] + theta[1] - 5)\n", " return np.array([dx, dy])" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "eYZxTmde3rIC" }, "outputs": [], "source": [ "visualize_gradient_descent(\n", " booth_loss, booth_grad, lr=0.01, start_theta=[-2, -7.5], bounds=[[-10, 10], [-10, 10]]\n", ")" ] }, { "cell_type": "markdown", "metadata": { "id": "NXsw4aJG3tDE" }, "source": [ "Как видим, все хорошо. Градиент без проблем попал в минимум. Попробуем поменять параметр `lr` и как это скажется на траектории." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "i18GBrw04vsk" }, "outputs": [], "source": [ "visualize_gradient_descent(\n", " booth_loss, booth_grad, lr=0.1, start_theta=[-2, -7.5], bounds=[[-10, 10], [-10, 10]]\n", ")" ] }, { "cell_type": "markdown", "metadata": { "id": "fKzGeQo85MYN" }, "source": [ "❓ **Вопрос** ❓\n", "> Как вы объясните такую траекторию градиентного спуска?\n", "\\\n", "Чем она отличается от прошлой траектории ?" ] }, { "cell_type": "markdown", "metadata": { "id": "MLK9s3MD51ue" }, "source": [ "**Ответ**" ] }, { "cell_type": "markdown", "metadata": { "id": "D5z4gk7n580N" }, "source": [ "Напишем уже пример функции посложнее, у которой будут локальные минимумы и глобальный в точке (0,0). Также запустим градиентный спуск и понаблюдаем.\n", "\n" ] }, { "cell_type": "code", "execution_count": 10, "metadata": { "id": "cRT68XYNGuJg" }, "outputs": [], "source": [ "def complex_oscillating_loss(theta):\n", " \"\"\"Глобальный минимум в (0,0) с множеством локальных минимумов.\n", "\n", " Формула: f(x,y) = x² + y² + 2*sin(5x) + 2*cos(5y)\n", " \"\"\"\n", " x, y = theta\n", " return x**2 + y**2 + 2 * np.sin(5 * x) + 2 * np.cos(5 * y)\n", "\n", "\n", "def complex_oscillating_grad(theta):\n", " x, y = theta\n", " dx = 2 * x + 10 * np.cos(5 * x)\n", " dy = 2 * y - 10 * np.sin(5 * y)\n", " return np.array([dx, dy])" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "HEekFSOF7Ate" }, "outputs": [], "source": [ "visualize_gradient_descent(\n", " loss_func=complex_oscillating_loss,\n", " grad_func=complex_oscillating_grad,\n", " lr=0.05,\n", " bounds=[[-3, 3], [-3, 3]],\n", " n_iters=50,\n", ")" ] }, { "cell_type": "markdown", "metadata": { "id": "rAVrwNPt7UUd" }, "source": [ "Предлагаем попробовать регулировать параметры `lr`, `start_theta` и посмотреть, сможет ли градиент сойтись к глобальному минимуму." ] }, { "cell_type": "markdown", "metadata": { "id": "kcC-mrMd7NvY" }, "source": [ "❓ **Вопрос** ❓\n", "> Как ведут себя траектории в примере со сложной функцией?" ] }, { "cell_type": "markdown", "metadata": { "id": "SVBPWb9Z7NvY" }, "source": [ "**Ответ**" ] }, { "cell_type": "markdown", "metadata": { "id": "ur9PqtsF6r_W" }, "source": [ "# Визуализация: L1-регуляризация, отбор признаков" ] }, { "cell_type": "markdown", "metadata": { "id": "2HsFHBCD7-c2" }, "source": [ "Вы уже услышали на лекции, что L1-регуляризация может занулять некоторые веса модели. Теперь предлагаем посмотреть, как именно зануляется градиент и как его выглядят траектории." ] }, { "cell_type": "markdown", "metadata": { "id": "s_xGN2lc8mpF" }, "source": [ "Напишем несколько вспомогательных функций." ] }, { "cell_type": "code", "execution_count": 12, "metadata": { "id": "iCVngRe86vlq" }, "outputs": [], "source": [ "def load_and_prepare_data(feature_indices):\n", " \"\"\"Загружает данные diabetes и подготавливает выбранные фичи.\"\"\"\n", " diabetes = load_diabetes()\n", " X = diabetes.data[:, feature_indices]\n", " y = diabetes.target\n", " feature_names = [diabetes.feature_names[i] for i in feature_indices]\n", " return X, y, feature_names" ] }, { "cell_type": "code", "execution_count": 13, "metadata": { "id": "iOnMtcyR69Aq" }, "outputs": [], "source": [ "def plot_lasso_coefficients(X, y, feature_names, alphas=np.logspace(-4, 1, 100)):\n", " \"\"\"Строит график изменения коэффициентов Lasso в зависимости от alpha.\"\"\"\n", " coefficients = []\n", " for alpha in alphas:\n", " model = Lasso(alpha=alpha, fit_intercept=False)\n", " model.fit(X, y)\n", " coefficients.append(model.coef_)\n", "\n", " coefficients = np.array(coefficients)\n", "\n", " plt.figure(figsize=(10, 6))\n", " for i in range(X.shape[1]):\n", " plt.plot(alphas, coefficients[:, i], label=feature_names[i])\n", "\n", " plt.xscale(\"log\")\n", " plt.title(\"Изменение коэффициентов Lasso в зависимости от регуляризации\")\n", " plt.xlabel(\"Alpha (логарифмическая шкала)\")\n", " plt.ylabel(\"Значение коэффициента\")\n", " plt.legend()\n", " plt.axhline(0, color=\"black\", lw=0.5, ls=\"--\")\n", " plt.grid(True)\n", " plt.show()" ] }, { "cell_type": "code", "execution_count": 14, "metadata": { "id": "_fVt9az8698i" }, "outputs": [], "source": [ "def calculate_loss_surface(X, y, alpha, w1_range, w2_range):\n", " \"\"\"Рассчитывает поверхность потерь с L1-регуляризацией.\"\"\"\n", " w1 = np.linspace(*w1_range, 100)\n", " w2 = np.linspace(*w2_range, 100)\n", " W1, W2 = np.meshgrid(w1, w2)\n", " loss = np.zeros_like(W1)\n", "\n", " for i in range(W1.shape[0]):\n", " for j in range(W1.shape[1]):\n", " y_pred = X @ [W1[i, j], W2[i, j]]\n", " mse = mean_squared_error(y, y_pred)\n", " loss[i, j] = mse + alpha * (abs(W1[i, j]) + abs(W2[i, j]))\n", "\n", " return W1, W2, loss" ] }, { "cell_type": "code", "execution_count": 15, "metadata": { "id": "NmYQOYXq7Fi8" }, "outputs": [], "source": [ "def plot_optimization_path(W1, W2, loss, path, feature_names):\n", " \"\"\"Визуализирует траекторию оптимизации на фоне контурного графика.\"\"\"\n", " plt.figure(figsize=(12, 8))\n", " plt.contour(W1, W2, loss, levels=20)\n", " plt.plot(path[:, 0], path[:, 1], \"ro-\", markersize=3, alpha=0.7)\n", " plt.scatter(path[0, 0], path[0, 1], c=\"blue\", s=100, label=\"Старт\")\n", " plt.scatter(path[-1, 0], path[-1, 1], c=\"red\", s=100, label=\"Финиш\")\n", "\n", " plt.title(\"Траектория градиентного спуска на поверхности потерь\")\n", " plt.xlabel(f\"Коэффициент {feature_names[0]}\")\n", " plt.ylabel(f\"Коэффициент {feature_names[1]}\")\n", " plt.legend()\n", " plt.colorbar(label=\"Значение функции потерь\")\n", " plt.grid(True)\n", " plt.show()" ] }, { "cell_type": "code", "execution_count": 16, "metadata": { "id": "GkDu81Li7BMI" }, "outputs": [], "source": [ "def gradient_descent(X, y, initial_weights, alpha, lr=0.001, n_iter=100):\n", " \"\"\"Реализует алгоритм градиентного спуска для Lasso регрессии.\"\"\"\n", " w = initial_weights.copy()\n", " path = [w]\n", "\n", " for _ in range(n_iter):\n", " y_pred = X @ w\n", " grad_mse = 2 / X.shape[0] * X.T @ (y_pred - y)\n", " grad_l1 = alpha * np.sign(w)\n", " grad = grad_mse + grad_l1\n", " w -= lr * grad\n", " path.append(w.copy())\n", "\n", " return np.array(path)" ] }, { "cell_type": "markdown", "metadata": { "id": "u3V42hmY8wDL" }, "source": [ "Использовать будем датасет `diabetes` из `sklearn`, но для облегчения оставим только два признака." ] }, { "cell_type": "code", "execution_count": 17, "metadata": { "id": "yQMqgD8e7NjC" }, "outputs": [], "source": [ "FEATURE_INDICES = [4, 1]\n", "X, y, feature_names = load_and_prepare_data(FEATURE_INDICES)" ] }, { "cell_type": "markdown", "metadata": { "id": "bvXZDzGS9aAu" }, "source": [ "Выберем `alpha = 0.3` и посмотрим на градиентный спуск." ] }, { "cell_type": "code", "execution_count": 18, "metadata": { "id": "umGpXVoF7W3h" }, "outputs": [], "source": [ "ALPHA = 0.3 # Параметр регуляризации L1\n", "INITIAL_WEIGHTS = [120, 250] # Начальные веса для градиентного спуска\n", "W1_RANGE = [-50, 500] # Границы для первого коэффициента\n", "W2_RANGE = [-50, 250] # Границы для второго коэффициента\n", "LEARNING_RATE = 5 # Скорость обучения\n", "ITERATIONS = 5000 # Количество итераций\n", "\n", "# 2. Расчет поверхности потерь\n", "W1, W2, loss = calculate_loss_surface(X, y, ALPHA, W1_RANGE, W2_RANGE)\n", "\n", "# 3. Оптимизация градиентным спуском\n", "path = gradient_descent(X, y, INITIAL_WEIGHTS, ALPHA, lr=LEARNING_RATE, n_iter=ITERATIONS)" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "gmreIhbH7JKh" }, "outputs": [], "source": [ "# 4. Визуализация результатов\n", "plot_optimization_path(W1, W2, loss, path, feature_names)" ] }, { "cell_type": "markdown", "metadata": { "id": "TBxDH6GW9Xc9" }, "source": [ "Видим, что минимум у функции потерь (Loss) находится в окрестности точки (0, 300)." ] }, { "cell_type": "markdown", "metadata": { "id": "X_Yg1IAh9qw2" }, "source": [ "Выберем значние `alpha` достаточно большим и посмотрим на градиентный спуск." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "OgxmsNxR7uus" }, "outputs": [], "source": [ "ALPHA = 20 # Параметр регуляризации L1\n", "INITIAL_WEIGHTS = [100, 100] # Начальные веса для градиентного спуска\n", "W1_RANGE = [-50, 120] # Границы для первого коэффициента\n", "W2_RANGE = [-50, 120] # Границы для второго коэффициента\n", "LEARNING_RATE = 0.1 # Скорость обучения\n", "ITERATIONS = 500 # Количество итераций\n", "\n", "\n", "W1, W2, loss = calculate_loss_surface(X, y, ALPHA, W1_RANGE, W2_RANGE)\n", "\n", "path = gradient_descent(X, y, INITIAL_WEIGHTS, ALPHA, lr=LEARNING_RATE, n_iter=ITERATIONS)\n", "\n", "plot_optimization_path(W1, W2, loss, path, feature_names)" ] }, { "cell_type": "markdown", "metadata": { "id": "pZNiBs_G93po" }, "source": [ "Видим, что минимум находится в окрестности (0, 0), что значит, что из-за больших штрафов нашей модели выгодно занулять все веса." ] }, { "cell_type": "markdown", "metadata": { "id": "WkNiRMCn90ni" }, "source": [ "Выберем значние `alpha` маленьким и посмотрим на градиентный спуск." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "f-gs-upq8FfB" }, "outputs": [], "source": [ "ALPHA = 0.01 # Параметр регуляризации L1\n", "INITIAL_WEIGHTS = [150, 300] # Начальные веса для градиентного спуска\n", "W1_RANGE = [50, 500] # Границы для первого коэффициента\n", "W2_RANGE = [0, 300] # Границы для второго коэффициента\n", "LEARNING_RATE = 5 # Скорость обучения\n", "ITERATIONS = 500 # Количество итераций\n", "\n", "\n", "W1, W2, loss = calculate_loss_surface(X, y, ALPHA, W1_RANGE, W2_RANGE)\n", "\n", "path = gradient_descent(X, y, INITIAL_WEIGHTS, ALPHA, lr=LEARNING_RATE, n_iter=ITERATIONS)\n", "\n", "plot_optimization_path(W1, W2, loss, path, feature_names)" ] }, { "cell_type": "markdown", "metadata": { "id": "FhgH7S41-X0G" }, "source": [ "Видим, что коэффиценты не нулевые и минимум в области (50, 350)" ] }, { "cell_type": "markdown", "metadata": { "id": "o74m4CfcRPY4" }, "source": [ "❓ **Вопрос** ❓\n", "> Как использование L1-регуляризации влияет на область минимума функции потерь и почему это приводит к обнулению части параметров модели, в зависимости от коэффициента регуляризации alpha?" ] }, { "cell_type": "markdown", "metadata": { "id": "vAr3Nh6rSDN4" }, "source": [ "**Ответ:**" ] } ], "metadata": { "colab": { "collapsed_sections": [ "ur9PqtsF6r_W" ], "provenance": [] }, "kernelspec": { "display_name": "stats", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.12.7" } }, "nbformat": 4, "nbformat_minor": 0 }