import numpy as np

a = np.array([5, 7, -3, 4, 2, -4])
a, type(a)

(array([ 5,  7, -3,  4,  2, -4]), numpy.ndarray)

a[1]

np.int64(7)

a[1] = 3
print(a)

[ 5  3 -3  4  2 -4]

print(a > 0)
print(a[a > 0])

[ True  True False  True  True False]
[5 3 4 2]

a[a < 0] = 0
print(a)

[5 3 0 4 2 0]

a = np.zeros(3)
b = np.ones(3, dtype=np.int64)
print(a)
print(b)

[0. 0. 0.]
[1 1 1]

a = np.arange(0, 9, 2)
b = np.arange(0., 9, 2)
print(a)
print(b)

[0 2 4 6 8]
[0. 2. 4. 6. 8.]

a = np.linspace(0, 8, 5)
print(a)

[0. 2. 4. 6. 8.]

np.random.random(5)

array([0.28194415, 0.10660636, 0.3367799 , 0.66343749, 0.79696398])

np.random.choice(10, 4)

array([6, 9, 1, 5])

np.random.choice(10, 7, replace=True)

array([5, 0, 8, 3, 2, 2, 0])

a = ['spam', 'foo', 'bar']
np.random.choice(a, 2)

array(['foo', 'bar'], dtype='<U4')

a = np.array([0, 2, 1])
b = np.array([3, 2, 5])

print(a + b)
print(a - b)
print(a * b)
print(a / b)
print(a + 1)
print(2 * a)
print(a ** 2)

[3 4 6]
[-3  0 -4]
[0 4 5]
[0.  1.  0.2]
[1 3 2]
[0 4 2]
[0 4 1]

print(np.sin(a))

[0.         0.90929743 0.84147098]

print(a > b)
print(a == b)

[False False False]
[False  True False]

np.any(a == b), np.all(a == b)

(np.True_, np.False_)

print(a)
a += 1
print(a)

[0 2 1]
[1 3 2]

print(b)
b *= 2
print(b)

[3 2 5]
[ 6  4 10]

print(np.array([0.0, 0.0, 1.0, -1.0]) / np.array([1.0, 0.0, 0.0, 0.0]))

[  0.  nan  inf -inf]

/tmp/ipykernel_28824/3088186758.py:1: RuntimeWarning: divide by zero encountered in divide
  print(np.array([0.0, 0.0, 1.0, -1.0]) / np.array([1.0, 0.0, 0.0, 0.0]))
/tmp/ipykernel_28824/3088186758.py:1: RuntimeWarning: invalid value encountered in divide
  print(np.array([0.0, 0.0, 1.0, -1.0]) / np.array([1.0, 0.0, 0.0, 0.0]))

np.nan + 1, np.inf + 1, np.inf * 0, 1. / np.inf

(nan, inf, nan, 0.0)

print(b)
b.sum(), b.prod(), b.max(), b.min(), b.mean(), b.std()

[ 6  4 10]

(np.int64(20),
 np.int64(240),
 np.int64(10),
 np.int64(4),
 np.float64(6.666666666666667),
 np.float64(2.494438257849294))

print(np.sqrt(b))
print(np.exp(b))
print(np.log(b))
print(np.sin(b))
print(np.e, np.pi)

[2.44948974 2.         3.16227766]
[  403.42879349    54.59815003 22026.46579481]
[1.79175947 1.38629436 2.30258509]
[-0.2794155  -0.7568025  -0.54402111]
2.718281828459045 3.141592653589793

print(b.cumsum())

[ 6 10 20]

print(b)
print(np.sort(b))
print(b)

[ 6  4 10]
[ 4  6 10]
[ 6  4 10]

print(b)
b.sort()
print(b)

[ 6  4 10]
[ 4  6 10]

print(a)
print(b)
a = np.hstack((a, b))
print(a)

[1 3 2]
[ 4  6 10]
[ 1  3  2  4  6 10]

a = np.linspace(0, 1, 11)
print(a)

[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

print(a[2])

0.2

b = a[2:6]
print(b)

b[0] = -0.2
print(b)

print(a)

[0.2 0.3 0.4 0.5]
[-0.2  0.3  0.4  0.5]
[ 0.   0.1 -0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1. ]

b = a[1:10:2]
print(b)

[0.1 0.3 0.5 0.7 0.9]

b = a[::-1]
print(b)

[ 1.   0.9  0.8  0.7  0.6  0.5  0.4  0.3 -0.2  0.1  0. ]

b = a.copy()
b[2] = 0
print(b)
print(a)

[0.  0.1 0.  0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
[ 0.   0.1 -0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1. ]

print(a[[2, 3, 5]])

[-0.2  0.3  0.5]

b = a > 0
print(b)

[False  True False  True  True  True  True  True  True  True  True]

print(a[b])
print(a)
print(b)

[0.1 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
[ 0.   0.1 -0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1. ]
[False  True False  True  True  True  True  True  True  True  True]

a = np.array([[0.0, 1.0], [-1.0, 0.0]])
print(a)
print(a[1, 0])

[[ 0.  1.]
 [-1.  0.]]
-1.0

a.shape

(2, 2)

len(a)

2

print(a.ravel())

[ 0.  1. -1.  0.]

print(a + 1)
print(a * 2)
print(a + [0, 1])  # второе слагаемое дополняется до матрицы копированием строк
print(a + np.array([[0, 2]]).T)  # .T - транспонирование

b = np.array([[1.0, -5.0], [-3.0, 8.0]])
print(a + b)

[[1. 2.]
 [0. 1.]]
[[ 0.  2.]
 [-2.  0.]]
[[ 0.  2.]
 [-1.  1.]]
[[0. 1.]
 [1. 2.]]
[[ 1. -4.]
 [-4.  8.]]

print(a * b)

[[ 0. -5.]
 [ 3.  0.]]

print(a @ b)

[[-3.  8.]
 [-1.  5.]]

print(b @ a)

[[ 5.  1.]
 [-8. -3.]]

I = np.eye(4)
print(I)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]

print(I.reshape(16))

[1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1.]

print(I.reshape(2, 8))

[[1. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 1.]]

print(I[1])

[0. 1. 0. 0.]

print(I[:, 2])

[0. 0. 1. 0.]

print(I[0:2, 1:3])

[[0. 0.]
 [1. 0.]]

print(b.T)

[[ 1. -3.]
 [-5.  8.]]

a = np.array([[0, 1], [2, 3]])
b = np.array([[4, 5, 6], [7, 8, 9]])
c = np.array([[4, 5], [6, 7], [8, 9]])
print(a)
print(b)
print(c)

[[0 1]
 [2 3]]
[[4 5 6]
 [7 8 9]]
[[4 5]
 [6 7]
 [8 9]]

print(np.hstack((a, b)))

[[0 1 4 5 6]
 [2 3 7 8 9]]

print(np.vstack((a, c)))

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]

b

array([[4, 5, 6],
       [7, 8, 9]])

print(b.sum())
print(b.sum(axis=0))
print(b.sum(axis=1))

39
[11 13 15]
[15 24]

print(b.max())
print(b.max(axis=0))
print(b.min(axis=1))

9
[7 8 9]
[4 7]

np.trace(a)

np.int64(3)

X = np.arange(24).reshape(2, 3, 4)
print(X)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]

# суммируем только по нулевой оси, то есть для фиксированных j и k 
# суммируем только элементы с индексами (*, j, k)
print(X.sum(axis=0))

[[12 14 16 18]
 [20 22 24 26]
 [28 30 32 34]]

# суммируем сразу по двум осям, то есть для фиксированной i 
# суммируем только элементы с индексами (i, *, *)
print(X.sum(axis=(1, 2)))

[ 66 210]

# Самый простой случай
a = np.array([1, 2, 3])
b = np.array([2, 2, 2])
print(a * b)

[2 4 6]

# Умножение массива на число
print(a * 2)

[2 4 6]

# Умножение массивов разных длин
print(a * [2])

[2 4 6]

a = np.array([[ 0,  0,  0],
              [10, 10, 10],
              [20, 20, 20],
              [30, 30, 30]])

b = np.array([0, 1, 2])

print(a + b)

[[ 0  1  2]
 [10 11 12]
 [20 21 22]
 [30 31 32]]

b = np.array([1.0, 2.0, 3.0, 4.0])
a + b

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
Cell In[66], line 2
      1 b = np.array([1.0, 2.0, 3.0, 4.0])
----> 2 a + b

ValueError: operands could not be broadcast together with shapes (4,3) (4,)

a = np.array([0.0, 10.0, 20.0, 30.0])
b = np.array([1.0, 2.0, 3.0])
a.reshape((-1, 1)) + b

array([[ 1.,  2.,  3.],
       [11., 12., 13.],
       [21., 22., 23.],
       [31., 32., 33.]])

a = np.array([1,2,3,4,5,6,7,8,9,10])

b = a[np.newaxis, :] # добавление оси axis0
b.shape

(1, 10)

c = a[np.newaxis, :, np.newaxis]
c.shape

(1, 10, 1)

a = np.array([[0, 1], [2, 3]])

np.linalg.det(a)

np.float64(-2.0)

a1 = np.linalg.inv(a)
print(a1)

[[-1.5  0.5]
 [ 1.   0. ]]

print(a @ a1)
print(a1 @ a)

[[1. 0.]
 [0. 1.]]
[[1. 0.]
 [0. 1.]]

a = np.array([[1e-9, 0],[0, 0]])
np.linalg.inv(a)

---------------------------------------------------------------------------
LinAlgError                               Traceback (most recent call last)
Cell In[4], line 2
      1 a = np.array([[1e-9, 0],[0, 0]])
----> 2 np.linalg.inv(a)

File ~/torch-env/lib/python3.12/site-packages/numpy/linalg/linalg.py:561, in inv(a)
    559 signature = 'D->D' if isComplexType(t) else 'd->d'
    560 extobj = get_linalg_error_extobj(_raise_linalgerror_singular)
--> 561 ainv = _umath_linalg.inv(a, signature=signature, extobj=extobj)
    562 return wrap(ainv.astype(result_t, copy=False))

File ~/torch-env/lib/python3.12/site-packages/numpy/linalg/linalg.py:112, in _raise_linalgerror_singular(err, flag)
    111 def _raise_linalgerror_singular(err, flag):
--> 112     raise LinAlgError("Singular matrix")

LinAlgError: Singular matrix

%%time

sum_value = 0
for i in range(10 ** 8):
    sum_value += i
print(sum_value)

4999999950000000
CPU times: user 12.4 s, sys: 1.79 ms, total: 12.4 s
Wall time: 12.4 s

%%time

sum_value = sum(range(10 ** 8))
print(sum_value)

4999999950000000
CPU times: user 2.63 s, sys: 8.12 ms, total: 2.64 s
Wall time: 2.62 s

%%time

sum_value = np.arange(10 ** 8).sum()
print(sum_value)

4999999950000000
CPU times: user 103 ms, sys: 78.1 ms, total: 181 ms
Wall time: 192 ms

import scipy.stats as sps

%%time

N, M = 500, 1000
matrix = []
for i in range(N):
    matrix.append([sps.uniform.rvs() for j in range(M)])

min_col = [min([matrix[i][j] for i in range(N)]) for j in range(M)]
mean_min = sum(min_col) / N
print(mean_min)

0.003937677101331695
CPU times: user 13.2 s, sys: 86.1 ms, total: 13.2 s
Wall time: 13.2 s

%%time

N, M = 500, 1000
matrix = sps.uniform.rvs(size=(N, M))
mean_min = matrix.min(axis=1).mean()
print(mean_min)

0.0010190658049421483
CPU times: user 14.3 ms, sys: 2.98 ms, total: 17.2 ms
Wall time: 16.1 ms

Python для анализа данных ¶

Библиотека `numpy`¶

1. Одномерные массивы¶

1.1 Типы массивов, атрибуты¶

1.2 Индексация¶

1.3 Создание массивов¶

2. Операции над одномерными массивами¶

2.1 Математические операции¶

2.2 Сортировка, изменение массивов¶

2.3 Способы индексации массивов¶

3. Двумерные массивы¶

3.1 Создание, простые операции¶

3.2 Работа с матрицами¶

4. Тензоры (многомерные массивы)¶

4.1 Создание, простые операции¶

4.2. Broadcasting¶

5. Линейная алгебра¶

6. Производительность numpy¶

Python для анализа данных¶

Библиотека numpy¶

1. Одномерные массивы¶

1.1 Типы массивов, атрибуты¶

1.2 Индексация¶

1.3 Создание массивов¶

2. Операции над одномерными массивами¶

2.1 Математические операции¶

2.2 Сортировка, изменение массивов¶

2.3 Способы индексации массивов¶

3. Двумерные массивы¶

3.1 Создание, простые операции¶

3.2 Работа с матрицами¶

4. Тензоры (многомерные массивы)¶

4.1 Создание, простые операции¶

4.2. Broadcasting¶

5. Линейная алгебра¶

6. Производительность numpy¶

Python для анализа данных ¶

Библиотека `numpy`¶