{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Phystech@DataScience " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Небольшое предисловие" ] }, { "attachments": { "photo_2025-03-28_12-31-03.jpg": { "image/jpeg": "" } }, "cell_type": "markdown", "metadata": {}, "source": [ "В погоне за сложными моделями машинного обучения, которые могут делать различные крутые штуки, многие аналитики незаслуженно забывают про статистику — фундамент, на котором стоит весь Data Science.\n", "\n", "![photo_2025-03-28_12-31-03.jpg](attachment:photo_2025-03-28_12-31-03.jpg)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Статистика делает тебя сильнее как аналитика, так как она даёт уверенность в результатах, учит критическому мышлению и помогает объяснять выводы бизнесу или научному сообществу. Даже самая продвинутая модель будет бесполезна, если мы неверно интерпретируем её предсказания.\n", "\n", "Так что давай вместе укреплять базу — ведь именно с неё начинается настоящий профессионализм в Data Science." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "# Bot check\n", "\n", "# HW_ID: phds_sem6\n", "# Бот проверит этот ID и предупредит, если случайно сдать что-то не то.\n", "\n", "# Status: not final\n", "# Перед отправкой в финальном решении удали \"not\" в строчке выше.\n", "# Так бот проверит, что ты отправляешь финальную версию, а не промежуточную.\n", "# Никакие значения в этой ячейке не влияют на факт сдачи работы.\n", "\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2022-09-09T09:27:15.824446Z", "start_time": "2022-09-09T09:27:04.991121Z" }, "id": "ndEYtj3bcRhF" }, "outputs": [], "source": [ "import numpy as np\n", "import matplotlib.pyplot as plt\n", "import scipy.stats as sps\n", "import seaborn as sns\n", "from matplotlib.lines import Line2D\n", "sns.set(font_scale=1.5)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Задача 1\n", "\n", "### Свойства оценок" ] }, { "cell_type": "markdown", "metadata": { "id": "aiqNNbQdcRhQ" }, "source": [ "### 1. Несмещенность оценок\n", "\n", "**1.** Пусть $X_1, ..., X_n$ — выборка из распределения $U[0, \\theta]$. Рассмотрим оценки $X_{(n)}, \\frac{n+1}{n}X_{(n)}, 2\\overline{X}$ параметра $\\theta$.\n", "\n", "Давайте попробуем определить какие из этих оценок являются несмещенными, не используя теоретических выкладок." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Для начала вспомним,в чем смысл несмещенности" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Ответ:**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь, чтобы решить задачу, визуализируем свойство немещенности." ] }, { "cell_type": "markdown", "metadata": { "id": "AQHcmOr8cRhQ" }, "source": [ "Реализуем выборку из равномерного распределения размером `sample_size`=100." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "5JoJRXcEcRhQ" }, "outputs": [], "source": [ "sample_size = 100\n", "X = sps.uniform.rvs(size=sample_size)" ] }, { "cell_type": "markdown", "metadata": { "id": "b4wmITktcRhR" }, "source": [ "\n", "В этом случае мы сгенерировали выборку из распределения $U[0, 1]$." ] }, { "cell_type": "markdown", "metadata": { "id": "eTSaPvKIcRhR" }, "source": [ "Реализуйте три функции, каждая из которых на вход берет несколько выборок, а на выход выдает массив оценок \n", "(первая функция - $X_{(n)}$, вторая функция - $\\frac{n+1}{n}X_{(n)}$, третья функция - $2\\overline{X}$) для каждой выборки." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "yhU9CTfGcRhR" }, "outputs": [], "source": [ "def estimate_X_n(X):\n", " \"\"\"\n", " Принимает на вход массив размером (n_samples, sample_size), выдает массив оценок размера (n_samples,)\n", "\n", " \"\"\"\n", " return <...>\n", "\n", "\n", "def estimate_X_n_corrected(X):\n", " \"\"\"\n", " Принимает на вход массив размером (n_samples, sample_size), выдает массив оценок размера (n_samples,)\n", " \"\"\"\n", " return <...>\n", " \n", "\n", "def estimate_2_mean(X):\n", " \"\"\"\n", " Принимает на вход массив размером (n_samples, sample_size), выдает массив оценок размера (n_samples,)\n", " \"\"\"\n", " return <...>" ] }, { "cell_type": "markdown", "metadata": { "id": "khGxlI4mcah4" }, "source": [ "Проверим, что ваши функции реализованы корректно (ячейка не должна выдавать ошибок)." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "gdlAXYgIcRhR" }, "outputs": [], "source": [ "X = np.array([[1, 3, 3902, 6], [2, 5, 69751, 89]])\n", "\n", "\n", "assert(sum(estimate_X_n(X) != np.array(( 3902, 69751))) == 0)\n", "assert(sum(estimate_X_n_corrected(X) != np.array((4877.5 ,87188.75))) == 0)\n", "assert(sum(estimate_2_mean(X) != np.array([ 1956. , 34923.5])) == 0)\n" ] }, { "cell_type": "markdown", "metadata": { "id": "A808SaBDcWYU" }, "source": [ "Зададим список оценок и разные параметры для отрисовки графика" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "rWZsy0TacRhR" }, "outputs": [], "source": [ "estimators = [\n", " (estimate_X_n, r'$X_{(n)}$', 'blue', 0.0),\n", " (estimate_X_n_corrected, r'$\\frac{n+1}{n}X_{(n)}$', 'purple', 0.1),\n", " (estimate_2_mean, r'$2\\overline{X}$', 'green', 0.2)\n", "]" ] }, { "cell_type": "markdown", "metadata": { "id": "XUWdaQC8cRhS" }, "source": [ "Мы хотим понять, являются ли оценки параметра $\\theta$ смещенными, для этого нам нужно провести множество экспериментов (сгенерировать выборку много раз, так как при каждой генерации получаются разные числа)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Напишем функцию построения таких графиков в общем виде: на вход функция может получать любые распределения (`distributions`) и любые оценки (`estimators`)" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "def est_plot(distribution, estimators, sample_size, sample_count):\n", " '''\n", " Построение графика разброса реализаций оценок и их средних значений.\n", "\n", " distribution -- распределение формата scipy.stats\n", " estimators -- список оценок и параметров для отрисовки графиков\n", " sample_size -- размер выборок\n", " sample_count -- количество генерируемых выборок\n", " '''\n", " X = distribution.rvs(size=(sample_count, sample_size))\n", " plt.figure(figsize=(15, 0.7*len(estimators)))\n", " for estimator, name, color, y in estimators:\n", " E = estimator(X)\n", " plt.scatter(E, np.zeros(sample_count) + y, alpha=0.1,\n", " s=100, color=color, label=name)\n", " plt.scatter(E.mean(), y, marker='*', s=300,\n", " color='w', edgecolors='black')\n", "\n", " plt.vlines(1, -1, 1, color='r')\n", " plt.title('Размер выборки = %d' % sample_size)\n", " plt.yticks([])\n", " plt.legend()\n", " plt.xlim((0.8, 1.2))\n", " plt.ylim((-0.1, 0.1 * len(estimators)))" ] }, { "cell_type": "markdown", "metadata": { "id": "AnM9dP-5cRhT" }, "source": [ "Постройте три графика, с помощью функции `est_plot`. В каждом эксперименте будем генерировать 500 выборок размера (10, 100, 500).\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "m0LVdT1OcRhT" }, "outputs": [], "source": [ "sample_size_list = (10, 100, 500) # размеры выборок\n", "sample_count = 500 # количество экспериментов\n", "\n", "for sample_size in sample_size_list:\n", " est_plot(sps.uniform, estimators, sample_size, sample_count)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Что можете сказать о поведении оценкок при различных размерах выборок?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Ответ:**" ] }, { "cell_type": "markdown", "metadata": { "id": "-_E243uTcRhT" }, "source": [ "**2.** Изучим поведение среднего оценок из первого пункта при росте размера $n$ выборки. Для вычисления зависимости нужно один раз сгенерировать выборки из п. 1.1 достаточно большого размера и посчитать оценки по префиксам, используя функции из `numpy`. Какие из оценок являются асимптотически несмещёнными (т.е. $\\forall \\theta \\in \\Theta\\colon \\mathsf{E}_\\theta \\widehat{\\theta} \\to \\theta$ при $n\\to +\\infty$)?" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "LAlpptyocRhT" }, "outputs": [], "source": [ "def mean_plot(distribution, estimators, n_grid, sample_count):\n", " '''\n", " distribution -- распределение формата scipy.stats\n", " estimators -- список оценок и параметров для отрисовки графиков\n", " n_grid -- массив значений размера выборки\n", " sample_count -- количество генерируемых выборок\n", " '''\n", " n_grid = n_grid.astype(int)\n", " X = distribution.rvs(size = (sample_count, len(n_grid)))\n", " plt.figure(figsize=(15, 3*len(estimators)))\n", " plt.hlines(1, 0, len(n_grid), color='r', label=r'$\\theta$')\n", " for estimator, name, color, y in estimators:\n", " E = np.array([np.mean(estimator(X[0:len(n_grid), 0:(n_grid[i]-1)])) for i in range(len(n_grid))])\n", " plt.plot(n_grid, E, color= color, label= name)\n", " plt.xlabel('размер выборки')\n", " \n", " plt.legend()\n", " plt.title('зависимость среднего оценок от размера выборки')\n", " plt.xlim((10, len(n_grid)))" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "id": "qBFolVF4cRhU" }, "outputs": [], "source": [ "n_grid = np.linspace(10, 300, 100)\n", "mean_plot(sps.uniform, estimators, n_grid, sample_count)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Сделайте выводы" ] }, { "cell_type": "markdown", "metadata": { "id": "dyeHuG9SdNKW" }, "source": [ "\n", "**Вывод:** " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Почему в лабораторных работах часто используют именно скорректированные оценки?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Ответ:** " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2. Состоятельность оценок\n", "\n", "Пусть $X_1, ..., X_n$ — выборка из распределения $Exp(\\theta)$. Как известно из теории, оценка $\\widehat{\\theta} = 1/\\overline{X}$ является *состоятельной* и *асимтотически нормальной* оценкой параметра $\\theta$ с асимптотической дисперсией $\\theta^2$. В этой задаче вам необходимо визуализировать данные свойства.\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Зададим параметры эксперимента\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "scrolled": true }, "outputs": [], "source": [ "theta = 2 # истинное значение параметра\n", "sample_size = 300 # размер выборок\n", "sample_count = 500 # количество выборок\n", "n_range = (np.arange(sample_size) + 1) # размеры подвыборок" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Сгенерируем множество выборок (количество выборок - `sample_count`, размер каждой выборки - `sample_size`)" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "# генерируем множество выборок,\n", "# параметр theta является обратным к параметру масштаба\n", "samples = <...>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Вычислим оценки в зависимости от размера выборки, усредняем по последней оси" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "estimation = <...>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Визуализируем для каждой выборки все оценки в зависимости от размера выборки.\n", "\n", "Что можно сказать о состоятельности данной оценки?" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "def est_plot(estimation, sample_count, sample_size, left=None, right=None, xlim = sample_size ):\n", " '''\n", " estimation -- массив оценок от размера выборки\n", " sample_count -- количество генерируемых выборок\n", " sample_size -- размер каждой выборки\n", " left, rigth -- границы доверительного интеравала, нужны будут далее\n", " xlim = область по x\n", " '''\n", " \n", " plt.figure(figsize=(15, 7))\n", " for i in range(sample_count):\n", " plt.plot(np.arange(sample_size) + 1, estimation[i], color='blue', alpha=0.05)\n", " if type(left) and type(right) is np.ndarray:\n", " \n", " plt.plot(np.arange(sample_size) + 1, left, color='black')\n", " plt.plot(np.arange(sample_size) + 1, right, color='black')\n", " labels = [r'$\\hat{\\theta}$', r'$\\theta$',\n", " 'Границы доверительного интервала']\n", " handels = [Line2D([0], [0], color='blue', lw=2),\n", " Line2D([0], [0], color='red', lw=2),\n", " Line2D([0], [0], color='black', lw=2)]\n", " \n", " else: \n", " labels = [r'$\\hat{\\theta}$', r'$\\theta$']\n", " handels = [Line2D([0], [0], color='blue', lw=2),\n", " Line2D([0], [0], color='red', lw=2),]\n", " \n", " plt.hlines(theta, 0 ,sample_size, color='red')\n", " plt.title('Поведение оценки для разных реализаций')\n", " plt.xlabel('Размер выборки')\n", " plt.ylim((0, 5))\n", " plt.legend(handels, labels)\n", " plt.xlim((0, xlim));" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "est_plot(estimation, sample_count, sample_size)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Ответ:**" ] } ], "metadata": { "colab": { "provenance": [] }, "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.11.5" }, "varInspector": { "cols": { "lenName": 16, "lenType": 16, "lenVar": 40 }, "kernels_config": { "python": { "delete_cmd_postfix": "", "delete_cmd_prefix": "del ", "library": "var_list.py", "varRefreshCmd": "print(var_dic_list())" }, "r": { "delete_cmd_postfix": ") ", "delete_cmd_prefix": "rm(", "library": "var_list.r", "varRefreshCmd": "cat(var_dic_list()) " } }, "types_to_exclude": [ "module", "function", "builtin_function_or_method", "instance", "_Feature" ], "window_display": false }, "vscode": { "interpreter": { "hash": "415525cc3f40ad8355b7c2a7d3b034c5d7bb85ff256d91eaa0aa6b53328ab0d3" } } }, "nbformat": 4, "nbformat_minor": 1 }