Установим и подгрузим пакеты, которые нам будут нужны для работы.
# packages <- c('readr', 'dplyr', 'ggplot2', 'tidyr', 'lubridate', 'stringr', 'naniar')
# install.packages(packages)
library(readr)
library(dplyr)
library(ggplot2)
library(tidyr)
library(lubridate)
library(stringr)
library(naniar)Рассмотрим набор данных weather.
## Observations: 286
## Variables: 35
## $ X <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 1…
## $ year <dbl> 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 20…
## $ month <dbl> 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, 12, …
## $ measure <chr> "Max.TemperatureF", "Mean.TemperatureF", "Min.Temperatur…
## $ X1 <chr> "64", "52", "39", "46", "40", "26", "74", "63", "52", "3…
## $ X2 <chr> "42", "38", "33", "40", "27", "17", "92", "72", "51", "3…
## $ X3 <chr> "51", "44", "37", "49", "42", "24", "100", "79", "57", "…
## $ X4 <chr> "43", "37", "30", "24", "21", "13", "69", "54", "39", "3…
## $ X5 <chr> "42", "34", "26", "37", "25", "12", "85", "66", "47", "3…
## $ X6 <chr> "45", "42", "38", "45", "40", "36", "100", "93", "85", "…
## $ X7 <chr> "38", "30", "21", "36", "20", "-3", "92", "61", "29", "3…
## $ X8 <chr> "29", "24", "18", "28", "16", "3", "92", "70", "47", "30…
## $ X9 <chr> "49", "39", "29", "49", "41", "28", "100", "93", "86", "…
## $ X10 <chr> "48", "43", "38", "45", "39", "37", "100", "95", "89", "…
## $ X11 <chr> "39", "36", "32", "37", "31", "27", "92", "87", "82", "2…
## $ X12 <chr> "39", "35", "31", "28", "27", "25", "85", "75", "64", "2…
## $ X13 <chr> "42", "37", "32", "28", "26", "24", "75", "65", "55", "2…
## $ X14 <chr> "45", "39", "33", "29", "27", "25", "82", "68", "53", "2…
## $ X15 <chr> "42", "37", "32", "33", "29", "27", "89", "75", "60", "3…
## $ X16 <chr> "44", "40", "35", "42", "36", "30", "96", "85", "73", "3…
## $ X17 <chr> "49", "45", "41", "46", "41", "32", "100", "85", "70", "…
## $ X18 <chr> "44", "40", "36", "34", "30", "26", "89", "73", "57", "2…
## $ X19 <chr> "37", "33", "29", "25", "22", "20", "69", "63", "56", "3…
## $ X20 <chr> "36", "32", "27", "30", "24", "20", "89", "79", "69", "3…
## $ X21 <chr> "36", "33", "30", "30", "27", "25", "85", "77", "69", "3…
## $ X22 <chr> "44", "39", "33", "39", "34", "25", "89", "79", "69", "3…
## $ X23 <chr> "47", "45", "42", "45", "42", "37", "100", "91", "82", "…
## $ X24 <chr> "46", "44", "41", "46", "44", "41", "100", "98", "96", "…
## $ X25 <chr> "59", "52", "44", "58", "43", "29", "100", "75", "49", "…
## $ X26 <chr> "50", "44", "37", "31", "29", "28", "70", "60", "49", "3…
## $ X27 <chr> "52", "45", "38", "34", "31", "29", "70", "60", "50", "3…
## $ X28 <chr> "52", "46", "40", "42", "35", "27", "76", "65", "53", "2…
## $ X29 <chr> "41", "36", "30", "26", "20", "10", "64", "51", "37", "3…
## $ X30 <chr> "30", "26", "22", "10", "4", "-6", "50", "38", "26", "30…
## $ X31 <chr> "30", "25", "20", "8", "5", "1", "57", "44", "31", "30.3…
Преобразуйте дни месяца в переменную day. Что может пойти не так? Попробуйте посмотреть дополнительные аргументы функции, которую вы используете для решения этой задачи.
Есть ли ненужные переменные? Если есть, то удалите их.
Что не так с переменной measure? Исправьте это.
В колонке day стоит перед каждым днём X. Уберите его и приведите переменную к числовому типу.
Хотелось бы получить одну переменную с датой. Сделайте это двумя способами.
Получите день недели для каждой даты.
Обратим внимание на переменную PrecipitationIn. Выведите уникальные значения этой переменной. Видим, что есть непонятное значение T. Оно означает очень низкое значение, поэтому замените его 0.
Посмотрите на структуру таблички. Какие типы у ваших переменных? Измените эти типы. Попробуйте использовать функцию mutate_at.
Посмотрите на пропущенные значения. Выведите разные статистики. Что можно сделать с этими пропущенными значениями?