О курсе, DS-поток. Что такое анализ данных. Обзор задач анализа данных на примере историй из Мурмурландии. Метод ближайшего соседа на примере решения задачи классификации на два класса. Примеры реальных задач: АБ-тестирование, распознавание лиц, генерация изображений, синтез речи, обучение с подкреплением.
Обзор применения инструментов ИИ в работе и учебе. Примеры использований, с чем надо быть осторожным. Использование ИИ в курсе, в домашних заданиях. Оформление домашних заданий.
Обучение с учителем: регрессия и классификация. Линейная и логистическая регрессии. Градиентный спуск и стохастический градиентный спуск. Энтропия и кросс-энтропия.
Нейрон. Связь нейрона с линейной регрессией. Полносвязный слой нейронной сети. Однослойные и двухслойные нейронные сети. Теорема Цыбенко. Обучение нейронных сетей. Примеры применения различных нейронных сетей.
Задача кластеризации: постановка задачи, особенности, требования к форме кластеров, метрики качества. Метод кластеризации KMeans. Понижение размерности с помощью метода главных компонент (PCA), проклятие размерности.
Вероятностные распределения и их свойства с практической точки зрения, генерация случайных чисел. Свойство независимости на практике применительно к понятию выборки, пример выборки, не являющейся независимой. Свойство отсутствия памяти. Пример исследования реальных данных, время ожидания автобуса по реальным данным. Марковские цепи. Условное математическое ожидание, условное распределение.
Задача оценки параметра. Cильно состоятельные оценки, выборочное среднее и выборочная дисперсия. Идея статистического сравнения качества моделей. Байесовские классификаторы, наивный Байес.