Логистическая регрессия¶
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
import seaborn as sns
sns.set_theme(style='dark', font_scale=1.3)
import warnings
warnings.filterwarnings('ignore')
Пульсары - это космические объекты, излучающие в различных диапазонах длины волны. Согласно современным астрофизическим теориям, пульсары представляют собой вращающиеся нейтронные звезды, обладающие магнитным полем, наклоненным относительно оси вращения.
В используемом датасете есть как примеры ложных обнаружений, так и примеры реальных пульсаров, подтвержденные учеными. Данные получены в результате The High Time Resolution Universe Pulsar Survey I.
Описание датасета
Сигнал от пульсаров представляет собой периодические импульсы.Для описания объекта используется integrated profile (интегральный профиль) — агрегирование сигнала за разные периоды вращения (см. картинку выше). У всех пульсаров разные интегральные профили, и обычно эта характеристика мало меняется во времени. В данном датасете интегральный профиль также усреднен по частоте.
Полный набор признаков датасета:
- Mean of the integrated profile.
- Standard deviation of the integrated profile.
- Excess kurtosis of the integrated profile.
- Skewness of the integrated profile.
- Mean of the DM-SNR curve.
- Standard deviation of the DM-SNR curve.
- Excess kurtosis of the DM-SNR curve.
- Skewness of the DM-SNR curve.
Целевая переменная: 9. Target class
В признаках встречается еще одна важная характеристика объекта: DM-SNR кривая. Подробнее о ней можно почитать в специализированных материалах.
Про коэффициенты эксцесса и асимметрии можно посмотреть здесь и здесь, формулы для выборочных коэффициентов асимметрии и эксцесса можно найти в английской версии этих статей.
Статья с подробным описанием процесса генерации данных.
Анемия — это состояние, при котором уровень гемоглобина в крови ниже нормы. Гемоглобин — это белок в эритроцитах, который переносит кислород из лёгких в ткани и органы. Анемия может быть вызвана различными причинами, включая дефицит железа, хронические заболевания, кровопотери или нарушения синтеза гемоглобина.
На изображении представлены лабораторные тесты, которые используются для оценки состояния железа и диагностики анемии. Вот краткое объяснение ключевых показателей:
Ключевые показатели:¶
Serum iron (Сывороточное железо):
- Низкий уровень указывает на дефицит железа.
- Нормальные значения: Мужчины: 60–170 мкг/дл, Женщины: 50–170 мкг/дл.
TSAT (Transferrin Saturation, %):
- Показывает, насколько насыщен трансферрин железом.
- Низкий уровень (<16%) указывает на дефицит железа.
Serum ferritin (Сывороточный ферритин):
- Показывает запасы железа в организме.
- Низкий уровень (<30 мкг/л) указывает на дефицит железа.
Примеры использования в таблице:¶
Показатель | Описание |
---|---|
Сывороточное железо (Serum iron) | ↓ — снижено при железодефиците и железодефицитной анемии. |
N↓↓ — может быть нормальным или значительно сниженным при функциональном дефиците железа. | |
Ферритин (Serum ferritin) | <30 — снижен при железодефиците. |
>100 — повышен при анемии хронических заболеваний. | |
Гемоглобин (Hb) | ↓ — снижен при анемии. |
N — нормальный уровень, если анемия отсутствует. | |
MCV (Mean Corpuscular Volume) | <80 — снижен (микроцитоз) при железодефицитной анемии. |
N — нормальный при отсутствии анемии. |
Подробнее с типами и их особенностями можно ознакомиться тут
Описание датасета
1. Hemoglobin: это белок в красных кровяных тельцах (эритроцитах), который отвечает за перенос кислорода из лёгких в ткани и органы, а также за возврат углекислого газа обратно в лёгкие.
Нормальные значения:
- Мужчины: 13.8—17.2 г/дл
- Женщины: 12.1—15.1 г/дл
2. MCH (Mean Corpuscular Hemoglobin): показывает среднее количество гемоглобина в одном эритроците.
3. MCHC (Mean Corpuscular Hemoglobin Concentration): показывает среднюю концентрацию гемоглобина в единице объёма эритроцитов.
4. MCV (Mean Corpuscular Volume): показывает средний объём одного эритроцита.
5. GENDER (Пол): указывает пол пациента (мужской или женский). В данном датасете пол уже закодирован как 0 и 1.
6. IDENTIFICATION (Идентификация): уникальный идентификатор пациента, который указывает на наличие/отсутствие заболевания.
Как можно заметить наши данные используются в классификации и выявлении различных типов анемии из реальной жизни.