# Bot check

# HW_ID: phds_sem8
# Бот проверит этот ID и предупредит, если случайно сдать что-то не то.

# Status: not final
# Перед отправкой в финальном решении удали "not" в строчке выше.
# Так бот проверит, что ты отправляешь финальную версию, а не промежуточную.
# Никакие значения в этой ячейке не влияют на факт сдачи работы.

import numpy as np
import random
import scipy.stats as sps
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns
sns.set(font_scale=1.8)

# зафиксируем сид для воспроизводимости генерации
SEED = 42
np.random.seed(SEED)
random.seed(SEED)

sample = [-0.82899501, -0.56018104,  0.74729361,  0.61037027, -0.02090159,
          0.11732738,  1.2776649 , -0.59157139,  0.54709738, -0.20219265,
          -0.2176812 ,  1.09877685,  0.82541635,  0.81350964,  1.30547881,
          0.02100384,  0.68195297, -0.31026676,  0.32416635, -0.13014305,
          0.09699596,  0.59515703, -0.81822068,  2.09238728, -1.00601738,
          -1.21418861,  1.15811087,  0.79166269,  0.62411982,  0.62834551]

n = 30 
alpha = 0.05
z = sps.norm.ppf(1 - alpha/2)

theta_hat = <...>
theta_hat - z  / np.sqrt(n), theta_hat + z / np.sqrt(n)

sample = [ 0.12452627,  0.95075805,  0.77166076, -1.45365582, -0.49410224,
          1.66660296, -0.93194618, -0.42985368,  0.27260541,  1.46066343,
          -1.31198164,  0.20520295,  3.19213611,  0.55957285,  0.50613194, 
          0.05689217, -0.8558408 ,  0.12584525,  0.73918692, -0.05739113,
          0.76803961,  0.32823556,  0.05156772, -0.0566054 ,  0.60217298,
          2.21606323, -1.02851902, -0.56797192, -0.64263642,  0.95315636]

n = 30 

theta_hat = <...>
theta_hat - z  / np.sqrt(n), theta_hat + z  / np.sqrt(n)

# Функция для вычисления мощности построенного критерия
def get_power(theta, n, c):
    """
    param theta: значение параметра
    param n: количество элементов выборки
    param с: критическое значение

    return beta - мощность критерия
    """
    c = np.abs(c)
    
    # Для подсчета значений функции распределения из beta вам понадобятся функции cdf и sf для распределений из scipy.stats
    # ! Не забывайте, что параметр scale нормального распределения sps.norm принимает корень из дисперсии !
    beta = <...>
    
    return beta

n = 30
alpha = 0.05

# Зададим сетку параметров theta
grid = np.linspace(-1, 1, 200)

c = <...>
powers = get_power(grid, n, c)
plt.plot(grid, powers)

# Функция определяющая факт отвержения гипотезы
# Выводит 0, если гипотеза была отвергнута, 1 - в противном случае
def criterion(sample, alpha=0.05):
    t = np.mean(sample)
    n = len(sample)
    z = sps.norm.ppf(1 - alpha/2)
    return 1 - int(t - z  / np.sqrt(n) < 0 < t + z / np.sqrt(n))

sample = [ 0.12452627,  0.95075805,  0.77166076, -1.45365582, -0.49410224,
          1.66660296, -0.93194618, -0.42985368,  0.27260541,  1.46066343,
          -1.31198164,  0.20520295,  3.19213611,  0.55957285,  0.50613194,
          0.05689217, -0.8558408 ,  0.12584525,  0.73918692, -0.05739113,
          0.76803961,  0.32823556,  0.05156772, -0.0566054 ,  0.60217298,
          2.21606323, -1.02851902, -0.56797192, -0.64263642,  0.95315636]

# Задаем сетку параметров alpha
alphas = np.linspace(0, 1, 2000)

# Создаем массив, в который будет записывать результат проверки гипотезы в зависимости от alpha
is_rejected = []
for alpha in alphas:
  is_rejected.append(criterion(sample, alpha))

plt.plot(alphas, is_rejected)

<...>

sample = [0.11731702, 0.75253036, 0.32918642, 0.22823564, 0.04240622,
          0.04239907, 0.01495969, 0.50280772, 0.22977054, 0.30781252,
          0.00519983, 0.87588937, 0.44660739, 0.05967191, 0.05016975,
          0.05065286, 0.09068843, 0.18598196, 0.14138427, 0.08605575,
          0.23659272, 0.03755863, 0.08637888, 0.1140693 , 0.15223367,
          0.384484  , 0.05568397, 0.18050729, 0.22437618, 0.01189096]

alpha = 0.05
theta = 2 # тета из основной гипотезы
n = len(sample)

z = <...>

statistic = <...>
statistic

np.absolute(statistic) > z

<...>

<...>

def wald_test_two_sided(sample, theta, estimation_theta, estimation_sigma):
    """
    param sample: реализация выборки
    param theta: истинное значение параметра
    param estimation_theta: оценка параметра
    param estimation_sigma: оценка асимптотической дисперсии оценки estimation_sigma

    return statistic
    return p_value
    return conf_int - доверительный интервал
    """
    <...>

sample_cut = [0.11731702, 0.75253036, 0.32918642, 0.22823564, 0.04240622,
        0.04239907, 0.01495969, 0.50280772, 0.22977054, 0.30781252]

<...>

Phystech@DataScience ¶

Проверка гипотез¶

Построение критерия¶

Ошибки при проверке гипотез¶

Мощность критерия¶

P-value¶

Критерий Вальда¶

Двусторонняя альтернатива¶