Установим и подгрузим пакеты, которые нам будут нужны для работы.
# packages <- c('readr', 'dplyr', 'ggplot2', 'tidyr', 'lubridate', 'stringr', 'naniar')
# install.packages(packages)
library(readr)
library(dplyr)
library(ggplot2)
library(tidyr)
library(lubridate)
library(stringr)
library(naniar)
Рассмотрим набор данных weather
.
## Observations: 286
## Variables: 35
## $ X <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 1…
## $ year <dbl> 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 20…
## $ month <dbl> 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, …
## $ measure <chr> "Max.TemperatureF", "Mean.TemperatureF", "Min.Temperatur…
## $ X1 <chr> "64", "52", "39", "46", "40", "26", "74", "63", "52", "3…
## $ X2 <chr> "42", "38", "33", "40", "27", "17", "92", "72", "51", "3…
## $ X3 <chr> "51", "44", "37", "49", "42", "24", "100", "79", "57", "…
## $ X4 <chr> "43", "37", "30", "24", "21", "13", "69", "54", "39", "3…
## $ X5 <chr> "42", "34", "26", "37", "25", "12", "85", "66", "47", "3…
## $ X6 <chr> "45", "42", "38", "45", "40", "36", "100", "93", "85", "…
## $ X7 <chr> "38", "30", "21", "36", "20", "-3", "92", "61", "29", "3…
## $ X8 <chr> "29", "24", "18", "28", "16", "3", "92", "70", "47", "30…
## $ X9 <chr> "49", "39", "29", "49", "41", "28", "100", "93", "86", "…
## $ X10 <chr> "48", "43", "38", "45", "39", "37", "100", "95", "89", "…
## $ X11 <chr> "39", "36", "32", "37", "31", "27", "92", "87", "82", "2…
## $ X12 <chr> "39", "35", "31", "28", "27", "25", "85", "75", "64", "2…
## $ X13 <chr> "42", "37", "32", "28", "26", "24", "75", "65", "55", "2…
## $ X14 <chr> "45", "39", "33", "29", "27", "25", "82", "68", "53", "2…
## $ X15 <chr> "42", "37", "32", "33", "29", "27", "89", "75", "60", "3…
## $ X16 <chr> "44", "40", "35", "42", "36", "30", "96", "85", "73", "3…
## $ X17 <chr> "49", "45", "41", "46", "41", "32", "100", "85", "70", "…
## $ X18 <chr> "44", "40", "36", "34", "30", "26", "89", "73", "57", "2…
## $ X19 <chr> "37", "33", "29", "25", "22", "20", "69", "63", "56", "3…
## $ X20 <chr> "36", "32", "27", "30", "24", "20", "89", "79", "69", "3…
## $ X21 <chr> "36", "33", "30", "30", "27", "25", "85", "77", "69", "3…
## $ X22 <chr> "44", "39", "33", "39", "34", "25", "89", "79", "69", "3…
## $ X23 <chr> "47", "45", "42", "45", "42", "37", "100", "91", "82", "…
## $ X24 <chr> "46", "44", "41", "46", "44", "41", "100", "98", "96", "…
## $ X25 <chr> "59", "52", "44", "58", "43", "29", "100", "75", "49", "…
## $ X26 <chr> "50", "44", "37", "31", "29", "28", "70", "60", "49", "3…
## $ X27 <chr> "52", "45", "38", "34", "31", "29", "70", "60", "50", "3…
## $ X28 <chr> "52", "46", "40", "42", "35", "27", "76", "65", "53", "2…
## $ X29 <chr> "41", "36", "30", "26", "20", "10", "64", "51", "37", "3…
## $ X30 <chr> "30", "26", "22", "10", "4", "-6", "50", "38", "26", "30…
## $ X31 <chr> "30", "25", "20", "8", "5", "1", "57", "44", "31", "30.3…
Преобразуйте дни месяца в переменную day
. Что может пойти не так? Попробуйте посмотреть дополнительные аргументы функции, которую вы используете для решения этой задачи.
Есть ли ненужные переменные? Если есть, то удалите их.
Что не так с переменной measure
? Исправьте это.
В колонке day
стоит перед каждым днём X. Уберите его и приведите переменную к числовому типу.
Хотелось бы получить одну переменную с датой. Сделайте это двумя способами.
Получите день недели для каждой даты.
Обратим внимание на переменную PrecipitationIn
. Выведите уникальные значения этой переменной. Видим, что есть непонятное значение T
. Оно означает очень низкое значение, поэтому замените его 0.
Посмотрите на структуру таблички. Какие типы у ваших переменных? Измените эти типы. Попробуйте использовать функцию mutate_at
.
Посмотрите на пропущенные значения. Выведите разные статистики. Что можно сделать с этими пропущенными значениями?