Задание
Будем работать с набором данных, в котором находится информация о футбольных матчах немецкой высшей лиги (бундеслиги). Будем работать с файлом bundesliga_bad.csv.
Задание на импорт:
- Давайте подгрузим этот файл вслепую. Что получилось? Возникли ли какие-то проблемы?
- Решить все проблемы и подгрузить файлик! Посмотреть на структура датасета. Как подгрузилась дата? Какие названия переменных должны быть у этого файлика?
Задание на работу с датасетом:
- Есть хороший файлик bundesliga.csv. Давайте подгрузим его и будем работать с ним.
- Сколько наблюдений у нас есть и сколько переменных? Какого типа каждая переменная?
- Есть ли бесполезные переменные? Если да, то выкинуть их.
- За какой период есть наблюдения? Если что-то не получается, попробуйте использовать функцию
summary()
, чтобы понять в чем проблема. Попробуйте сначал без функции range
, а потом с ней.
- Сколько команд есть в нашем датасете?
- Сколько матчей сыграла каждая команда дома и в гостях? Какая команда сыграла наибольшее количество матчей?
- Сколько в среднем голов забивали хозяева и гости? Сколько голов в среднем забивали за игру?
- Сколько раз выиграли хоязева, гости? Сколько раз была ничья?
- Как выбрать 10 случайных матчей?
- Нарисуйте гистограмму голов хозяев и голов гостей. Используйте функцию
geom_bar()
. Мы еще особо не знакомы с визуализацией. Но давайте попробуем нарисовать следующий график.
# install.packages('tidyr')
# install.packages('ggplot2')
library(tidyr)
library(ggplot2)
foot %>%
gather('Who', 'Goals', c('HomeGoals', 'AwayGoals')) %>%
ggplot(aes(x = factor(Goals), fill = Who)) +
geom_bar(position=position_dodge()) +
xlab('Goals') +
ylab('Count')
- Какая команда побеждала чаще всего? Сколько раз она победила?
Дополнительно:
- Кто выиграл лигу в 2008 году и какое количество очков было? За победу начисляется 3 очка, за ничью 1, а за поражение 0 очков. кто выиграл лигу в 2008 году и какое количество очков было?