import numpy as np
import pandas as pd
import scipy.stats as sps

df = pd.DataFrame(sps.norm.rvs(size=(10, 4)), 
                  columns=['A', 'B', 'C', 'D'])
df

df.describe()

df.mean()

A   -0.608022
B   -0.025875
C   -0.411343
D    0.156858
dtype: float64

df.corr()

df.apply(lambda x: x.max() - x.min())

A    2.551284
B    3.157239
C    2.833890
D    2.995285
dtype: float64

other = df[:4].copy()  # Полное копирование
other['flag'] = other['D'] > 0
other['D'] = other['D'] ** 2

df.append(other, ignore_index=True, sort=False)

pd.concat([df[:5], df[5:]])

left = pd.DataFrame({'key': ['A', 'A'], 
                     'lval': [1, 2]})
right = pd.DataFrame({'key': ['A', 'A'], 
                      'rval': [4, 5]})

left

right

pd.merge(left, right, on='key')

left = pd.DataFrame({'key': ['A', 'B'], 
                     'lval': [1, 2]})
right = pd.DataFrame({'key': ['A', 'B'], 
                      'rval': [4, 5]})

left

right

pd.merge(left, right, on='key')

left = pd.DataFrame({'lkey': ['A', 'B', 'C', 'A'], 
                     'value': range(4)})
right = pd.DataFrame({'rkey': ['A', 'B', 'D', 'B'], 
                      'value': range(4, 8)})

left

right

pd.merge(left, right, 
         left_on='lkey', right_on='rkey', how='outer')

pd.merge(left, right, 
         left_on='lkey', right_on='rkey', how='inner')

pd.merge(left, right, 
         left_on='lkey', right_on='rkey', how='left')

pd.merge(left, right, 
         left_on='lkey', right_on='rkey', how='right')

pd.merge(left, right, 
         left_on='lkey', right_on='rkey', how='inner') \
        .set_index('lkey')[['value_x', 'value_y']]

left.set_index('lkey') \
    .join(right.set_index('rkey'), rsuffix='_r', how='inner')

df = pd.DataFrame({
    'Животное' : ['Котик', 'Песик', 'Котик', 'Песик',
                  'Котик', 'Песик', 'Котик', 'Песик'],
    'Цвет шерсти' : ['белый', 'белый', 'коричневый', 'черный',
                     'коричневый', 'коричневый', 'белый', 'черный'],
    'Рост' : sps.gamma(a=12, scale=3).rvs(size=8),
    'Длина хвостика' : sps.gamma(a=10).rvs(size=8)
})

df

df.groupby('Животное').sum()

df.groupby('Животное').describe()

df.groupby(['Животное', 'Цвет шерсти']).sum()

df.groupby(['Животное', 'Цвет шерсти']).sum().index

MultiIndex([('Котик',      'белый'),
            ('Котик', 'коричневый'),
            ('Песик',      'белый'),
            ('Песик', 'коричневый'),
            ('Песик',     'черный')],
           names=['Животное', 'Цвет шерсти'])

df = pd.DataFrame({
    'Специальность' : ['Ветеринар', 'Ветеринар', 
                       'Психолог', 'Психолог'] * 6,
    'Врач' : ['Андрей', 'Сергей', 'Ирина'] * 8,
    'Диагноз' : ['Простуда', 'Простуда', 'Простуда', 
                 'Волнения', 'Волнения', 'Простуда'] * 4,
    'Доза' : sps.randint(low=1, high=6).rvs(size=24),
    'Продолжительность' : sps.randint(low=1, high=6).rvs(size=24)
})

df

pd.crosstab(df['Врач'], df['Диагноз'], margins=True)

pd.crosstab(df['Врач'], df['Диагноз'], 
            values=df['Доза'], aggfunc=np.mean)

pd.pivot_table(df, index=['Врач'])

pd.pivot_table(df, 
               values='Доза', 
               index=['Специальность', 'Врач'],
               columns=['Диагноз'], 
               aggfunc=np.sum)

pd.pivot_table(df, 
               values='Доза', 
               index=['Специальность', 'Врач'],
               columns=['Диагноз'],
               aggfunc=np.sum, 
               margins=True)

pd.pivot_table(df, 
               values=['Доза', 'Продолжительность'], 
               index=['Специальность', 'Врач'],
               columns=['Диагноз'], 
               aggfunc=[np.min, np.mean, np.max], 
               margins=True)

	A	B	C	D
0	-1.345702	1.583271	0.480914	-0.053891
1	-1.513222	0.389656	0.448918	-0.265700
2	0.817235	-1.573969	-0.080860	2.160590
3	-0.773110	0.569715	0.078057	-0.215249
4	-0.178111	0.286518	0.035825	0.805861
5	0.849732	-0.182298	-0.224015	0.208410
6	-1.701552	-0.586663	-1.313644	0.470541
7	-0.373508	-0.813824	-0.251265	-0.834696
8	-0.745802	-0.160359	-0.934386	-0.358681
9	-1.116177	0.229204	-2.352976	-0.348601

	A	B	C	D
count	10.000000	10.000000	10.000000	10.000000
mean	-0.608022	-0.025875	-0.411343	0.156858
std	0.898149	0.859838	0.882121	0.843477
min	-1.701552	-1.573969	-2.352976	-0.834696
25%	-1.288321	-0.485572	-0.763606	-0.327876
50%	-0.759456	0.034423	-0.152438	-0.134570
75%	-0.226960	0.363871	0.067499	0.405008
max	0.849732	1.583271	0.480914	2.160590

	A	B	C	D
A	1.000000	-0.524331	0.210587	0.522391
B	-0.524331	1.000000	0.240015	-0.474598
C	0.210587	0.240015	1.000000	0.154964
D	0.522391	-0.474598	0.154964	1.000000

	A	B	C	D	flag
0	-1.345702	1.583271	0.480914	-0.053891	NaN
1	-1.513222	0.389656	0.448918	-0.265700	NaN
2	0.817235	-1.573969	-0.080860	2.160590	NaN
3	-0.773110	0.569715	0.078057	-0.215249	NaN
4	-0.178111	0.286518	0.035825	0.805861	NaN
5	0.849732	-0.182298	-0.224015	0.208410	NaN
6	-1.701552	-0.586663	-1.313644	0.470541	NaN
7	-0.373508	-0.813824	-0.251265	-0.834696	NaN
8	-0.745802	-0.160359	-0.934386	-0.358681	NaN
9	-1.116177	0.229204	-2.352976	-0.348601	NaN
10	-1.345702	1.583271	0.480914	0.002904	False
11	-1.513222	0.389656	0.448918	0.070597	False
12	0.817235	-1.573969	-0.080860	4.668147	True
13	-0.773110	0.569715	0.078057	0.046332	False

	A	B	C	D
0	-1.345702	1.583271	0.480914	-0.053891
1	-1.513222	0.389656	0.448918	-0.265700
2	0.817235	-1.573969	-0.080860	2.160590
3	-0.773110	0.569715	0.078057	-0.215249
4	-0.178111	0.286518	0.035825	0.805861
5	0.849732	-0.182298	-0.224015	0.208410
6	-1.701552	-0.586663	-1.313644	0.470541
7	-0.373508	-0.813824	-0.251265	-0.834696
8	-0.745802	-0.160359	-0.934386	-0.358681
9	-1.116177	0.229204	-2.352976	-0.348601

Python для анализа данных ¶

Операции в pandas¶

1. Простые операции¶

2. Объединение таблиц¶

2.1 Функция `df.append`¶

2.2 Функция `pd.concat`¶

2.3 Функции `pd.merge` и `df.join`¶

Пример 1.¶

Пример 2.¶

Пример 3.¶

3. Группировка¶

Пример 1.¶

Пример 2.¶

4. Таблицы сопряженности (Crosstab) и сводные таблицы (Pivot table)¶

4.1 Функция `pd.crosstab`¶

4.2 Функция `pd.pivot_table`¶

4.3 Примеры¶

	Животное	Цвет шерсти	Рост	Длина хвостика
0	Котик	белый	33.756262	8.498897
1	Песик	белый	35.634198	7.056738
2	Котик	коричневый	30.892027	17.375188
3	Песик	черный	23.272997	4.179033
4	Котик	коричневый	33.002035	12.200925
5	Песик	коричневый	41.045798	14.026990
6	Котик	белый	42.275420	7.053550
7	Песик	черный	31.761933	10.652498

	Рост	Длина хвостика
Животное
Котик	139.925743	45.12856
Песик	131.714925	35.91526

		Рост	Длина хвостика
Животное	Цвет шерсти
Котик	белый	76.031682	15.552447
Котик	коричневый	63.894061	29.576113
Песик	белый	35.634198	7.056738
	коричневый	41.045798	14.026990
	черный	55.034930	14.831531

	Специальность	Врач	Диагноз	Доза	Продолжительность
0	Ветеринар	Андрей	Простуда	5	1
1	Ветеринар	Сергей	Простуда	5	2
2	Психолог	Ирина	Простуда	5	5
3	Психолог	Андрей	Волнения	3	5
4	Ветеринар	Сергей	Волнения	1	4
5	Ветеринар	Ирина	Простуда	5	3
6	Психолог	Андрей	Простуда	2	2
7	Психолог	Сергей	Простуда	4	1
8	Ветеринар	Ирина	Простуда	5	5
9	Ветеринар	Андрей	Волнения	2	4
10	Психолог	Сергей	Волнения	3	4
11	Психолог	Ирина	Простуда	3	5
12	Ветеринар	Андрей	Простуда	3	5
13	Ветеринар	Сергей	Простуда	5	4
14	Психолог	Ирина	Простуда	4	2
15	Психолог	Андрей	Волнения	5	5
16	Ветеринар	Сергей	Волнения	4	4
17	Ветеринар	Ирина	Простуда	1	2
18	Психолог	Андрей	Простуда	4	1
19	Психолог	Сергей	Простуда	3	4
20	Ветеринар	Ирина	Простуда	2	5
21	Ветеринар	Андрей	Волнения	5	5
22	Психолог	Сергей	Волнения	2	1
23	Психолог	Ирина	Простуда	3	4

Диагноз	Волнения	Простуда
Врач
Андрей	3.75	3.50
Ирина	NaN	3.50
Сергей	2.50	4.25

	Доза	Продолжительность
Врач
Андрей	3.625	3.500
Ирина	3.500	3.875
Сергей	3.375	3.000

	Диагноз	Волнения	Простуда
Специальность	Врач
Ветеринар	Андрей	7.0	8.0
	Ирина	NaN	13.0
	Сергей	5.0	10.0
Психолог	Андрей	8.0	6.0
	Ирина	NaN	15.0
	Сергей	5.0	7.0

		amin						mean						amax
		Доза			Продолжительность			Доза			Продолжительность			Доза			Продолжительность
	Диагноз	Волнения	Простуда	All	Волнения	Простуда	All	Волнения	Простуда	All	Волнения	Простуда	All	Волнения	Простуда	All	Волнения	Простуда	All
Специальность	Врач
Ветеринар	Андрей	2.0	3.0	2	4.0	1.0	1	3.500	4.0000	3.75	4.5	3.0000	3.750000	5.0	5.0	5	5.0	5.0	5
	Ирина	NaN	1.0	1	NaN	2.0	2	NaN	3.2500	3.25	NaN	3.7500	3.750000	NaN	5.0	5	NaN	5.0	5
	Сергей	1.0	5.0	1	4.0	2.0	2	2.500	5.0000	3.75	4.0	3.0000	3.500000	4.0	5.0	5	4.0	4.0	4
Психолог	Андрей	3.0	2.0	2	5.0	1.0	1	4.000	3.0000	3.50	5.0	1.5000	3.250000	5.0	4.0	5	5.0	2.0	5
	Ирина	NaN	3.0	3	NaN	2.0	2	NaN	3.7500	3.75	NaN	4.0000	4.000000	NaN	5.0	5	NaN	5.0	5
	Сергей	2.0	3.0	2	1.0	1.0	1	2.500	3.5000	3.00	2.5	2.5000	2.500000	3.0	4.0	4	4.0	4.0	4
All		1.0	1.0	1	1.0	1.0	1	3.125	3.6875	3.50	4.0	3.1875	3.458333	5.0	5.0	5	5.0	5.0	5

	key	lval
0	A	1
1	A	2

	key	rval
0	A	4
1	A	5

	key	lval	rval
0	A	1	4
1	A	1	5
2	A	2	4
3	A	2	5

	key	lval
0	A	1
1	B	2

Python для анализа данных¶

Операции в pandas¶

1. Простые операции¶

2. Объединение таблиц¶

2.1 Функция df.append¶

2.2 Функция pd.concat¶

2.3 Функции pd.merge и df.join¶

Пример 1.¶

Пример 2.¶

Пример 3.¶

3. Группировка¶

Пример 1.¶

Пример 2.¶

4. Таблицы сопряженности (Crosstab) и сводные таблицы (Pivot table)¶

4.1 Функция pd.crosstab¶

4.2 Функция pd.pivot_table¶

4.3 Примеры¶

Python для анализа данных ¶

2.1 Функция `df.append`¶

2.2 Функция `pd.concat`¶

2.3 Функции `pd.merge` и `df.join`¶

4.1 Функция `pd.crosstab`¶

4.2 Функция `pd.pivot_table`¶