Задание

Будем работать с набором данных, в котором находится информация о футбольных матчах немецкой высшей лиги (бундеслиги). Будем работать с файлом bundesliga_bad.csv.

Задание на импорт:

  1. Давайте подгрузим этот файл вслепую. Что получилось? Возникли ли какие-то проблемы?
  2. Решить все проблемы и подгрузить файлик! Посмотреть на структура датасета. Как подгрузилась дата? Какие названия переменных должны быть у этого файлика?

Задание на работу с датасетом:

  1. Есть хороший файлик bundesliga.csv. Давайте подгрузим его и будем работать с ним.
  2. Сколько наблюдений у нас есть и сколько переменных? Какого типа каждая переменная?
  3. Есть ли бесполезные переменные? Если да, то выкинуть их.
  4. За какой период есть наблюдения? Если что-то не получается, попробуйте использовать функцию summary(), чтобы понять в чем проблема. Попробуйте сначал без функции range, а потом с ней.
  5. Сколько команд есть в нашем датасете?
  6. Сколько матчей сыграла каждая команда дома и в гостях? Какая команда сыграла наибольшее количество матчей?
  7. Сколько в среднем голов забивали хозяева и гости? Сколько голов в среднем забивали за игру?
  8. Сколько раз выиграли хоязева, гости? Сколько раз была ничья?
  9. Как выбрать 10 случайных матчей?
  10. Нарисуйте гистограмму голов хозяев и голов гостей. Используйте функцию geom_bar(). Мы еще особо не знакомы с визуализацией. Но давайте попробуем нарисовать следующий график.
# install.packages('tidyr')
# install.packages('ggplot2')
library(tidyr)
library(ggplot2)

foot %>% 
  gather('Who', 'Goals',  c('HomeGoals', 'AwayGoals')) %>%
  ggplot(aes(x = factor(Goals), fill = Who)) +
    geom_bar(position=position_dodge()) + 
    xlab('Goals') +
    ylab('Count')
  1. Какая команда побеждала чаще всего? Сколько раз она победила?

Дополнительно:

  1. Кто выиграл лигу в 2008 году и какое количество очков было? За победу начисляется 3 очка, за ничью 1, а за поражение 0 очков. кто выиграл лигу в 2008 году и какое количество очков было?