R и с чем его едят

R

R — язык программирования для статистической обработки данных и работы с графикой, но в тоже время это свободная программная среда с открытым исходным кодом. R применяется везде, где нужна работа с данными. Это не только статистика в узком смысле слова, но и «первичный» анализ (графики, таблицы), и продвинутое математическое моделирование.

Среда разработки

IDE(Integrated Development Environment) - интегрированная среда разработки. Можно сказать, что это красивая и удобная обложка для R.Такими инстсрументами являются RStudio, JGR, RKWard, SciViews-R. Мы будем использовать RStudio. Для тех, кто продвинется в изучении R и Python,можно работать с обоими языками в Jupyter notebook. Как его установить можно найти на страничке Филиппа

Установка R + RStudio, RStudio Cloud

Установка R и RStudio зависит от типа вашей операционной системы. Если у вас Windows, то, возможно, придётся помучиться. С другими ОС проблем быть не должно.

Windows

  1. Перед установкой R и RStudio желательно отключить антивирус.
  2. Скачать R и установить его. Путь к папке не должен содержать русских букв, поэтому рекомендую установить его в корень жесткого диска. Использование данной рекомендации продемонстрирована ниже.

install R

3. Скачать RStudio. Ссылки на скачивания находятся внизу страницы. На картинке показано куда нужно жмакнуть. Путь так же не должен содержать русских букв, поэтому устанавливаем в корень жесткого диска(как и в предыдущем пункте).

install RStudio

4. Наслаждаться!:3

Linux

  1. Откройте консоль(для этого зажмите Ctrl+Alt+T)
  2. Установите R. Для этого пропишите sudo apt-get install r-base
  3. Скачать RStudio и установить его.

macOS

  1. Скачать R и установить его.
  2. Скачать RStudio и установить его.

RStudio Cloud

RStudio Cloud это онлайн RStudio, где можно создавать общие проекты и работать вместе.

Datacamp, онлайн курсы и почиташки

Если вы хотите познавать и дальше этот прекрасный язык програмиирования, то следующая информация для вас!

Datacamp

Что же такое Datacamp? Datacamp - это платформа, состоящая из курсов по R, Python, SQL и другим полезным вещам.Один курс можно пройти за 4-5 часов. Каждый курс включает в себя несколько разделов. Структура этих разделов следующая: сначала, вы смотрите небольшое теоретическое видео(3-6 минут), после чего в интерактивном режиме выполняете задания, чтобы закрепить теорию.

  1. Introduction to R
  2. Intermediate to R
  3. Intermediate R - Practice
  4. Writing Functions in R

Онлайн курсы

По R много онлайн курсов, но большинство из них на английском языке.К счастью, есть и на русском языке. Самыми популярными площадками для онлайн курсов являются Coursera и Stepik. На первой есть курсы на английском, но я рекомендую пройти курсы на Stepik. Они на русском ,и проходить их лучше в том порядке, который я указал.

  1. Основы промированния на R
  2. Анализ данных в R
  3. Анализ данных в R. Часть 2

Почиташки

Ниже есть материалы, в которых можно найти много полезного :3

HSE Все о курсе

Призыв

Данная дисциплина предназначена для изучения языка программирования R и его использования для анализа данных. Дисциплина охватывает все стадии анализа данных, от сбора и обработки данных до обучения модели на этих данных. Уделено большое внимание визуализации данных, а также работе с данными в интернете.

R очень полезный инструмент, который может быть помочь вам в будущем. Курс будет ориентирован на тех, кто никогда не программировал, поэтому не бойтесь задавать вопросы мне или ассистенту.

Контрольные мероприятия и система оценивания

В течении семестра у нас будут следующие контрольные мероприятия:

  • 3 домашних задания – вес каждой домашки 0.15.
  • Контрольная работа – вес 0.25.
  • Экзамен – вес 0.3.

Оценка ставится по формуле:

round(0.15  ДЗ_1 + 0.15 ДЗ_2 + 0.15 ДЗ_3 + 0.25 КР + 0.3 ЭКЗ)

Контакты

Зарманбетов Ахмед (лектор и семинарист):

  • vk
  • Telegram – @ahmedushka7
  • Номер телефона – +7(961)146-70-23

Мидюкин Максим (семинарист)

  • vk
  • Telegram – @midiukin
  • Номер телефона – +7(926)932-58-23

HSE Лекции

Плейлист с лекциями [ссылка]


Лекция №2 (R Markdown)

Лекция №1 (Введение в R)

HSE Семинары

Раздел №4: крутим и вертим моделями

Посиделка 22-25

Посиделка 19-21

  • Небольшое интро в построение моделей и ML [ссылка]
  • Линейная регрессия [ссылка]
  • Линейная регрессия: простой пример [ссылка]
  • Полиномиальная регрессия [ссылка]
  • Линейная регрессия: анализируем walmart [ссылка]
Раздел №3: парсим всё что хотим

Посиделка 16-18

Пять стадий импорта:

  1. Импортируем простые файлики (txt, csv)! [ссылка]
  2. Работаем с excel файликами, базами данных и статистическими пакетами! [ссылка]
  3. Используем API через HTTP протокол!
  4. Парсим статические веб-страницы!
  5. Парсим динамические веб-страницы!
Раздел №2: данные - наше все

Посиделка № 14-15


Посиделка № 12 - 13


Посиделка № 10 - 11


Посиделка № 8 - 9


Посиделка №7

  • Импорт данных
  • Онлайн скрипт занятия [ссылка]
  • Дополнительный онлайн скрипт занятия [ссылка]
  • Краткая пдфка про readr [ссылка]
  • Условия заданий для отработки [ссылка]
  • Решение заданий для отработки [ссылка]
  • Скачать данные для семинара [ссылка]

Посиделка №6

  • Введение в анализ данных
  • Презентация [ссылка]
  • Онлайн скрипт занятия [ссылка]
  • Условия заданий для отработки [ссылка]
  • Решение заданий для отработки [ссылка]
Раздел №1: прогаем без боли

Посиделка № 4 - 5

  • Функция. Зачем нужна? Как задаётся?
  • Переменные, заданные в функции по умолчанию (дефолтные переменные). Глобальные и локальные переменные.
  • Рекурсия.
  • Онлайн скрипт занятия [ссылка].
  • Условия заданий для отработки [ссылка].
  • Решение заданий для отработки [ссылка] .

Посиделки № 2 - 3

  • Условные конструкции. Зачем нужны? Как задаются в R.
  • Циклы. If. For. While.
  • Матрицы. Способы задания и обращение к ним.
  • Онлайн скрипт занятия (циклы) [ссылка].
  • Онлайн скрипт занятия (условные конструкции) [ссылка].
  • Условия заданий для отработки [ссылка].
  • Решение заданий для отработки [ссылка] .

Посиделка № 1

  • Знакомство. Зачем нужен этот курс?
  • R и с чем его едят. Интерфейс RStudio.
  • R как калькулятор. Переменные. Массивы.
  • Онлайн скрипт занятия [ссылка] .
  • Условия заданий для отработки [ссылка] .
  • Решение заданий для отработки [ссылка] .

HSE Контрольные мероприятия

Домашки нужны для того, чтобы закрепить то, что мы делаем с вами на занятиях. Потому что R очень сложен в изучении для тех, у кого это первый язык программирования.

Правила игры:

  1. Отправляем решение домашек в виде архива, в котором находятся все нужные файлы.
  2. Название архива: HW_номер_фамилия_имя (например, HW_1_Zarmanbetov_Ahmed).
  3. Задачи нужно оформлять в R Markdown. Нужно стараться пояснять свой код. Это облегчает проверку дз, а также понимание того, что вы сами делали эту домашку.
  4. Отправляем домашку на Anytask. Зарегестрируйтесь и введите инвайт: E0ACtc8. Там будет задача Домашка №1, туда можно прикрепить ваш архив.
  5. Есть два дедлайна: мягкий и жесткий. В идеале, домашку нужно скинуть до мягкого дедлайна. Если вы скидываете ее после мягкого делайна, то за каждый день получаете штраф равный 1 баллу. После жесткого делайна домашки не принимаются. Все, кто не скинул домашку, получают 0 баллов.
  6. Домашка оценивается в 100 баллов. После чего перводится в оценку от 0 до 10: количество баллов делится на 10 и округляется до десятых. Это и есть итоговая оценка за домашку.
  7. Люди, которые попали под подозрение о списывании, должны будут защитить домашку. Если они не понимают, что происходит в их коде, то им ставится 0 за домашку.
  8. Если вы не понимаете условие задачи или хотите что-то спросить, то спрашивайте в чатике или пишите в личку.

Таблица результатов

Результаты домашек будут в гугл-таблице по ссылке.

Id Контрольное мероприятие Условие Решение Мягкий дедлайн Жесткий дедлайн
1 Домашняя работа №1 Условия задач и материалы Решение задач 09.10.2020 23:59 12.10.2019 23:59
2 Домашняя работа №2 Условия задач и материалы Решение задач NA NA
3 Домашняя работа №3 Условия задач и материалы Решение задач NA NA
4 Контрольная работа Условия задач и материалы Решение задач NA NA
5 Экзамен Условия задач и материалы Решение задач NA NA