import numpy as np
import pandas as pd
pd.options.mode.chained_assignment = None

import matplotlib.pyplot as plt
import seaborn as sns

# обратите внимание, что Scikit-Learn импортируется как sklearn
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn import metrics
from sklearn.metrics import r2_score
from typing import Tuple, Optional, Any, Dict, List
from datetime import datetime


import scipy.stats as sps

sns.set(font_scale=1.3, palette='Set2')
COLOR_1 = (0.5529411764705883, 0.6274509803921569, 0.796078431372549)  # цвета для графиков
COLOR_2 = (0.6509803921568628, 0.8470588235294118, 0.32941176470588235)
RANDOM_STATE = 42
CURR_DATE = str(datetime.now().date())

def generate_linear_data(n_samples: int = 100,
                         theta1: float = 3.0,
                         theta2: float = 4.0,
                         X_max: float = 10.0) -> Tuple[np.ndarray, np.ndarray]:
    """
    Генерирует данные для линейной модели y = features * theta1 + sin(features) * theta2 + ε, где ε ~ N(0, 2).

    :param n_samples: Количество выборок.
    :param theta1: Коэффициент для линейной зависимости.
    :param theta2: Коэффициент для зависимости от синуса features.
    :param X_max: Максимальное значение для генерации features.
    :return: Кортеж из двух массивов numpy: features и target_values.
    """
    # Генерация случайных значений для features
    features = np.random.uniform(low=0.0, high=1.0, size=(n_samples, 1)) * X_max  # случайные числа от 0 до X_max
    # Генерация шума
    noise = np.random.normal(loc=0.0, scale=2.0, size=(n_samples, 1))

    # Вычисление target_values согласно функции
    target_values = features * theta1 + np.sin(features) * theta2 + noise

    return features, target_values

n_samples = 60  # количество элементов в выборке
theta1 = 3  # коэффициент для линейной зависимости
theta2 = 4  # коэффициент при sin(x)
X_max = 3   # максимальное значение X

X_grid = np.linspace(0, X_max, n_samples) # равномерная сетка для X от 0 до X_max
X, y = generate_linear_data(n_samples=n_samples, theta1=theta1, theta2=theta2, X_max=X_max)

def plot_regression_results(X: np.ndarray,
                            y: np.ndarray,
                            theta1: float,
                            theta2: float,
                            X_grid: np.ndarray,
                            models: Dict[str, Optional[Any]],
                            features_grid_list: List[np.ndarray]) -> None:
    """
    Отображает результаты линейной регрессии вместе с истинной зависимостью и данными.

    :param X: Входные данные, массив numpy.
    :param y: Целевые значения, массив numpy.
    :param theta1: Коэффициент для линейной зависимости.
    :param theta2: Коэффициент для зависимости от синуса.
    :param X_grid: Cетка для отображения исходной зависимости.
    :param models: Словарь, где ключи — подписи, а значения — модели, реализующие метод predict (могут быть None).
    :param features_grid_list: Список массивов сетки признаков для каждой модели.
    """

    plt.figure(figsize=(10, 6))

    # Отображение данных
    sns.scatterplot(x=X.reshape(-1), y=y.reshape(-1), label="Данные",
                    alpha=0.7, s=80, color=COLOR_2)

    # Истинная зависимость
    sns.lineplot(x=X_grid, y=X_grid * theta1 + np.sin(X_grid) * theta2, label="Истинная зависимость",
                 linewidth=3, linestyle='--')

    # Предсказания каждой модели
    for (label, model), features_grid in zip(models.items(), features_grid_list):
        if model is not None:
            sns.lineplot(x=X_grid, y=model.predict(features_grid).reshape(-1),
                         label=f"Предсказание: {label}", linewidth=3)

    plt.title("Сравнение предсказаний моделей")
    plt.xlabel("Признак x")
    plt.ylabel("Таргет")
    plt.ylim(-2, 17)
    plt.legend()
    plt.show()

plot_regression_results(X, y, theta1, theta2, X_grid, {}, [])

model = LinearRegression(fit_intercept=True) # объявляем модель
model.fit(X, y) # обучаем на признаке x

LinearRegression()

LinearRegression()

model.intercept_, model.coef_

(array([1.49377888]), array([[3.92862336]]))

models = {
    "Линейная регрессия": model,
}
features_grids = [X_grid.reshape(-1, 1)]

plot_regression_results(X, y, theta1, theta2, X_grid, models, features_grids)

model_2 = LinearRegression(fit_intercept=True) # объявляем модель

data = pd.DataFrame({
    'X': X.flatten(),
    'X^2': X.flatten() ** 2
}) # создаем новый датасет с использованием X^2

data.head()

model_2.fit(data, y) # обучим модель на новых данных

LinearRegression()

LinearRegression()

models = {
    "Линейная регрессия": model,
    "Линейная регрессия с x^2": model_2
}
features_grids = [X_grid.reshape(-1, 1),
                  pd.DataFrame({'X': X_grid.flatten(), 'X^2': X_grid.flatten() ** 2})]

plot_regression_results(X, y, theta1, theta2, X_grid, models, features_grids)

data = pd.read_csv('./insurance_miptstats.csv', parse_dates=[0])
data.head()

data.shape

(1338, 7)

train, test = train_test_split(data, test_size=0.2, random_state=RANDOM_STATE)
train.shape, test.shape

((1070, 7), (268, 7))

train['age'] = (pd.Timestamp(CURR_DATE) - train['birthday']) / pd.Timedelta(days=365)

categorial_features = ['sex', 'smoker', 'region']  # категориальные признаки
real_features = ['age', 'bmi', 'children']  # вещественные признаки
target_feature = 'charges'  # целевой признак

for hue in categorial_features:
    g = sns.PairGrid(train[['bmi', 'age', 'charges', hue]],
                     hue=hue, diag_sharey=False, height=3)

    g.fig.set_size_inches(6,6)
    g.map_lower(sns.kdeplot, alpha=0.6)
    g.map_upper(plt.scatter, alpha=0.3)
    g.map_diag(sns.kdeplot, lw=3, alpha=0.6,
               common_norm=False)  # каждая плотность по отдельности должна давать 1 при интегрировании

    g.add_legend()

model_age = LinearRegression(fit_intercept=True) # объявляем модель
model_age.fit(train[['age']], train[target_feature]) # обучаем на признаке age

LinearRegression()

LinearRegression()

# Получаем возраст клиента по дате рождения
test['age'] = (pd.Timestamp(CURR_DATE) - test['birthday']) / pd.Timedelta(days=365)

y_pred = model_age.predict(test[['age']])

print(model_age.coef_[0].round(2))

240.47

pred33 = model_age.predict(pd.DataFrame({'age': [33]}))[0]
pred34 = model_age.predict(pd.DataFrame({'age': [34]}))[0]

print('Предсказание расходов.')
print(f'33 года: {pred33:.0f}')
print(f'34 года: {pred34:.0f}')

Предсказание расходов.
33 года: 10764
34 года: 11004

model_bmi = LinearRegression(fit_intercept=True)
model_bmi.fit(train[['bmi']], train[target_feature])
y_pred = model_bmi.predict(test[['bmi']])

print(f"Bmi coefficient: {model_bmi.coef_[0].round(2)}")

Bmi coefficient: 392.44

model_bmi_age = LinearRegression(fit_intercept=True)
model_bmi_age.fit(train[['bmi', 'age']], train[target_feature])
y_pred = model_bmi_age.predict(test[['bmi', 'age']])

print(model_bmi_age.coef_)

[330.40058921 223.55689301]

objects = pd.DataFrame({'bmi': [18, 19, 19, 18],
                        'age': [20, 21, 20, 21]})
preds =  model_bmi_age.predict(objects)
objects['charges_predicted'] = preds

objects

# Грид для предсказаний
bmi_range = np.linspace(17.75, 19.35, 200)
age_range = np.linspace(19.75, 21.25, 200)
bmi_grid, age_grid = np.meshgrid(bmi_range, age_range)
pred_grid = model_bmi_age.predict(pd.DataFrame({'bmi': bmi_grid.ravel(),
                                        'age': age_grid.ravel()})).reshape(bmi_grid.shape)

# Визуализация
plt.figure(figsize=(8, 5))
plt.grid(False)

# Градиент
im = plt.imshow(pred_grid, extent=(bmi_range.min(), bmi_range.max(), age_range.min(), age_range.max()),
           origin='lower', cmap='viridis', alpha=0.8, aspect='auto')

# Линии контуров
contour = plt.contour(bmi_grid, age_grid, pred_grid, colors='grey', linewidths=0.5)

# Отображение признаков
plt.scatter(objects['bmi'], objects['age'], color='red', edgecolor='black', zorder=5, s=80)
for i, row in objects.iterrows():
    plt.text(row['bmi'] + 0.01, row['age'] + 0.03,
             f" {row['charges_predicted']:.0f} ",
             fontsize=15, ha='left', color='white', zorder=6)

# Добавление стрелок с подписями
plt.arrow(18, 20, 1 - 0.06, 0, head_width=0.02, head_length=0.02, fc='lightblue', ec='lightblue', linewidth=2)
plt.text(18.5 - 0.1, 20.05, rf'$\widehat{{\theta}}_1 = {int(model_bmi_age.coef_[0])}$', fontsize=15, color='white')

plt.arrow(18, 20, 0, 1 - 0.06, head_width=0.02, head_length=0.02, fc='lightblue', ec='lightblue', linewidth=2)
plt.text(18.05, 20.5, rf'$\widehat{{\theta}}_2 = {int(model_bmi_age.coef_[1])}$', fontsize=15, color='white')

plt.arrow(18, 21, 1 - 0.06, 0, head_width=0.02, head_length=0.02, fc='lightblue', ec='lightblue', linewidth=2)
plt.text(18.5 - 0.1, 21.05, rf'$\widehat{{\theta}}_1 = {int(model_bmi_age.coef_[0])}$', fontsize=15, color='white')

plt.arrow(19, 20, 0, 1 - 0.06, head_width=0.02, head_length=0.02, fc='lightblue', ec='lightblue', linewidth=2)
plt.text(19.05, 20.5, rf'$\widehat{{\theta}}_2 = {int(model_bmi_age.coef_[1])}$', fontsize=15, color='white')

# Подписи осей
plt.title('Предсказание затрат')
plt.xlabel('BMI')
plt.ylabel('Age')

# Цветовая шкала
cbar = plt.colorbar(im, label='Предсказанные затраты')


# Добавление подписей к линиям контуров
plt.clabel(contour, inline=True, fontsize=8, fmt='%1.0f')

plt.show()

encoder = OneHotEncoder(drop='first', sparse_output=False)  # объявляем модель
train_cat = encoder.fit_transform(train[categorial_features])  # обучаем и кодируем
train_cat

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0.],
       ...,
       [1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 1.],
       [1., 0., 0., 0., 1.]])

encoder.categories_

[array(['female', 'male'], dtype=object),
 array(['no', 'yes'], dtype=object),
 array(['northeast', 'northwest', 'southeast', 'southwest'], dtype=object)]

X_train = np.hstack([train[real_features], train_cat])
X_train.shape

(1070, 8)

model_full = LinearRegression(fit_intercept=True)
model_full.fit(X_train, train[target_feature])

LinearRegression()

LinearRegression()

model_full.coef_

array([  257.14354577,   336.56325568,   423.94099187,   -25.48434935,
       23656.64811639,  -370.88646373,  -659.67773002,  -818.2905385 ])

model_full.intercept_

-13042.059944009723

# Получаем возраст клиента по дате рождения
test['age'] = (pd.Timestamp(CURR_DATE) - test['birthday']) / pd.Timedelta(days=365)

# Кодируем категориальные признаки с помощью метода transform обученного ранее кодировщика
test_cat = encoder.transform(test[categorial_features])

# Соединяем данные
X_test = np.hstack([test[real_features], test_cat])

train_data = [train[['age']], train[['bmi']], train[['bmi', 'age']], X_train]
test_data = [test[['age']], test[['bmi']], test[['bmi', 'age']], X_test]
models = [model_age, model_bmi, model_bmi_age, model_full]
model_names = ['age', 'bmi', 'age+bmi', 'все признаки']

train_preds = {}
test_preds = {}

for model, train_input, test_input, name in zip(models, train_data, test_data, model_names):
    train_pred = model.predict(train_input)
    test_pred = model.predict(test_input)

    train_preds[name] = train_pred
    test_preds[name] = test_pred

np.sqrt(((test[target_feature] - test_preds['все признаки']) ** 2).mean())

5793.112670753037

metrics.mean_squared_error(test[target_feature], test_preds['все признаки']) ** 0.5

5793.112670753037

metrics.mean_absolute_error(test[target_feature], test_preds['все признаки'])

4180.1207157432555

def mean_absolute_percentage_error(y_true, y_pred):
    return 100 * (np.abs(y_true - y_pred) / y_true).mean()

mean_absolute_percentage_error(test[target_feature], test_preds['все признаки'])

46.870457081881696

def get_regression_metrics_df(y_true: pd.Series, y_preds: Dict[str, List[float]]) -> pd.DataFrame:
    """
    Вычисляет метрики качества регрессионной модели для нескольких моделей:
    RMSE, MAE, MAPE, R2
    и выводит их в виде pandas DataFrame.

    Параметры:
    y_true -- истинные значения целевой переменной (pandas Series).
    y_preds -- словарь предсказанных значений целевой переменной для каждой модели (словарь, где ключи - имена моделей, а значения - списки предсказаний).

    Возвращает:
    DataFrame с метриками.
    """
    metric_names = ["RMSE",
                    "MAE",
                    "MAPE",
                    "R2"]

    # Подготовка данных для DataFrame
    data = []
    for model_name, y_pred in y_preds.items():
        rmse = metrics.mean_squared_error(y_true, y_pred) ** 0.5
        mae = metrics.mean_absolute_error(y_true, y_pred)
        mape = metrics.mean_absolute_percentage_error(y_true, y_pred)
        r2 = metrics.r2_score(y_true, y_pred)
        data.append([model_name, rmse, mae, mape, r2])

    # Создание DataFrame
    metrics_df = pd.DataFrame(data, columns=["Model"] + metric_names)

    return metrics_df

get_regression_metrics_df(test[target_feature], test_preds)

get_regression_metrics_df(train[target_feature], train_preds)

fig, axes = plt.subplots(1, 2, figsize=(18, 8))

title_fontsize = 18
label_fontsize = 18

sns.scatterplot(ax=axes[0], x=train['bmi'], y=train['charges'],
                hue=train['smoker'], alpha=0.6, s=150)
axes[0].set_title('Зависимость медицинских расходов от BMI (истинные данные)', fontsize=title_fontsize)
axes[0].set_xlabel('BMI', fontsize=label_fontsize)
axes[0].set_ylabel('Charges', fontsize=label_fontsize)

sns.scatterplot(ax=axes[1], x=train['bmi'], y=model_full.predict(X_train),
                hue=train['smoker'], alpha=0.6, s=150)
axes[1].set_title('Зависимость предсказаний медицинских расходов от BMI', fontsize=title_fontsize)
axes[1].set_xlabel('BMI', fontsize=label_fontsize)
axes[1].set_ylabel('Charges', fontsize=label_fontsize)

plt.tight_layout()
plt.show()

# для обучающей выборки
train['smoker_bmi'] = (train['smoker'] == 'yes') * train['bmi']


# для тестовой выборки
test['smoker_bmi'] = (test['smoker'] == 'yes') * test['bmi']

real_features.extend(['smoker_bmi'])

X_train = np.hstack([train[real_features], train_cat])
X_test = np.hstack([test[real_features], test_cat])

model_with_new_feature = LinearRegression(fit_intercept=True)
model_with_new_feature.fit(X_train, train[target_feature])

LinearRegression()

LinearRegression()

# Создаем подграфики
fig, axes = plt.subplots(1, 3, figsize=(36, 12))

# Первый график
sns.scatterplot(ax=axes[0], x=train['bmi'], y=train['charges'],
                hue=train['smoker'], alpha=0.6, s=170)
axes[0].set_title('Зависимость медицинских расходов от BMI', fontsize=20)
axes[0].set_xlabel('BMI', fontsize=20)
axes[0].set_ylabel('Charges', fontsize=20)

# Второй график
sns.scatterplot(ax=axes[1], x=train['bmi'], y=model_full.predict(np.hstack([train[real_features[:-1]], train_cat])),
                hue=train['smoker'], alpha=0.6, s=170)
axes[1].set_title('Зависимость предсказаний медицинских расходов от BMI', fontsize=20)
axes[1].set_xlabel('BMI', fontsize=20)
axes[1].set_ylabel('Charges', fontsize=20)

# Третий график
sns.scatterplot(ax=axes[2], x=train['bmi'], y=model_with_new_feature.predict(X_train),
                hue=train['smoker'], alpha=0.5, s=170)
axes[2].set_title('Зависимость предсказаний медицинских расходов от BMI с новым признаком', fontsize=20)
axes[2].set_xlabel('BMI', fontsize=20)
axes[2].set_ylabel('Charges', fontsize=20)

plt.tight_layout()
plt.show()

test_preds_with_new_feature = model_with_new_feature.predict(X_test)
test_preds['модель с новым признаком'] = test_preds_with_new_feature
get_regression_metrics_df(test[target_feature], test_preds)

# Инициализация и применение StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Обучение модели линейной регрессии
model_scaled = LinearRegression()
model_scaled.fit(X_train_scaled, train[target_feature])

LinearRegression()

LinearRegression()

# Коэффициенты модели
coefficients = model_scaled.coef_

# Признаки
encoded_features = encoder.get_feature_names_out()
feature_names = real_features + list(encoded_features)

df = pd.DataFrame({
    'Признак': feature_names,
    'Значение коэффициента': coefficients
})

df

fig, ax = plt.subplots(nrows=1, ncols=1, sharey=True, figsize=(8, 6), tight_layout=True)  # Один график


df_sorted = df.sort_values(by='Значение коэффициента', ascending=False)

ax.barh(df_sorted['Признак'], df_sorted['Значение коэффициента'])
ax.set_xlabel('Коэф.')
ax.set_title('Коэффициенты модели')

plt.show()

	X	X^2
0	1.731087	2.996661
1	2.990116	8.940793
2	2.383224	5.679758
3	1.704514	2.905367
4	2.206452	4.868432

	Model	RMSE	MAE	MAPE	R2
0	age	11659.381084	9172.410208	1.265044	0.124365
1	bmi	12210.039191	9784.652596	1.703504	0.039702
2	age+bmi	11464.256085	9221.883313	1.303051	0.153428
3	все признаки	5793.112671	4180.120716	0.468705	0.783830

	Model	RMSE	MAE	MAPE	R2
0	age	11528.038976	9042.863931	1.163218	0.079247
1	bmi	11777.698282	9067.951789	1.480413	0.038934
2	age+bmi	11356.453102	9022.142299	1.171528	0.106452
3	все признаки	6105.021537	4208.139727	0.422071	0.741770

	Model	RMSE	MAE	MAPE	R2
0	age	11659.381084	9172.410208	1.265044	0.124365
1	bmi	12210.039191	9784.652596	1.703504	0.039702
2	age+bmi	11464.256085	9221.883313	1.303051	0.153428
3	все признаки	5793.112671	4180.120716	0.468705	0.783830
4	модель с новым признаком	4572.470758	2750.922752	0.290165	0.865329

	Признак	Значение коэффициента
0	age	3707.567529
1	bmi	118.517407
2	children	561.827116
3	smoker_bmi	18612.936237
4	sex_male	-266.120775
5	smoker_yes	-8572.434745
6	region_northwest	-269.509658
7	region_southeast	-427.542403
8	region_southwest	-535.544448

Phystech@DataScience ¶

Линейная регрессия¶

1. Линейная регрессия на искусственных данных¶

2. Постановка задачи с использованием реальных данных¶

3. Обучение¶

Примеры с использованием одного или двух признаков¶

Обработка категориальных признаков¶

4. Тестирование и оценка качества¶

5. Преобразование признаков¶

6. Интерпретация результатов¶

	birthday	sex	bmi	children	smoker	region	charges
0	2001-12-20	female	27.900	0	yes	southwest	16884.92400
1	2003-03-18	male	33.770	1	no	southeast	1725.55230
2	1992-11-02	male	33.000	3	no	southeast	4449.46200
3	1987-07-27	male	22.705	0	no	northwest	21984.47061
4	1988-11-04	male	28.880	0	no	northwest	3866.85520

	bmi	age	charges_predicted
0	18	20	3889.012966
1	19	21	4442.970448
2	19	20	4219.413555
3	18	21	4112.569859

Phystech@DataScience¶

Линейная регрессия¶

1. Линейная регрессия на искусственных данных¶

2. Постановка задачи с использованием реальных данных¶

3. Обучение¶

Примеры с использованием одного или двух признаков¶

Обработка категориальных признаков¶

4. Тестирование и оценка качества¶

5. Преобразование признаков¶

6. Интерпретация результатов¶

Phystech@DataScience ¶