Манипуляции с данными с помощью пакета dplyr: задания

Установим и подгрузим пакеты.

# install.packages('readr')
# install.packages('dplyr')
# install.packages('ggplot2')
library(readr)
library(dplyr)
library(ggplot2)

Задание №1

Будем работать с файликом counties.rds. Формат .rds это формат данных для R, который сохраняет ваш df в том виде, в котором вы его видели. Его очень легко подгрузить с помощью функции read_rds().

counties <- read_rds('data/counties.rds')

Этот набор данных, сформированный после переписи населения США в 2015 году.

Немножко информации о некоторых переменных:

state – название штата США (всего 50)
county – округ штата
region – регион
metro – есть ли метро
population – количество жителей
men – количество мужчин
women – количество женщин
unemployment – процент безработицы
land area – площадь округа
private_work, public_work, self_employed, family_work – процент работающих на частные компании, на государство, на себя и процент работающих в семейном бизнесе
employed – частный предприниматель
income – доход
walk – количество граждан (в %), которые ходят на работу пешком

Сколько наблюдений и переменных в нашем наборе данных? Что является наблюдением? Какое первое значение в переменной income?
Отберите наблюдения только для штатов California.
Отберите наблюдения только для штатов California и Florida.
Отберите наблюдения только для штатов California, Florida, Alabama и Indiana.
Отберите округа с количеством населения не меньше 20000 только для штатов California, Florida, Alabama и Indiana.
Отберите все округа кроме округов штата California.
Отсортируйте в алфавитном порядке названия штатов.
Отсортируйте в алфавитном порядке названия штатов и округов.
Отсортируйте округи в порядке убывания численности населения. Какой штат и округ имеют наибольшую численность населения?
Отберите переменные state, county, population и unemployment.
Отберите переменные state, county, region, metro, population, men и women.
Отберите переменные state, county, region, population, men и women.
Создать переменную unemployed_population, которая показывает количество безработного населения.
Создать логическую переменную pop_1kk, которая отвечает на вопрос: “Проживает ли в округе более 1000000 человек?”
В каком штате и каком округе больше всего (в %) люди работают на частные компании?
Найти все округа, где количество населения превышает 1000000 и отсортировать их по убыванию.
Найти все округа штата California, где количество населения превышает 1000000 и отсортировать их по убыванию.
Вывести все округа штата Texas, где население превышает 10000, и отсортировать их по убыванию количества работающих на частные компании.
Показать округи в порядке убыванию по количеству доли женщин в населении.
Показать округи в порядке убыванию по количеству доли мужчин в населении только для округов, где живет по крайней мере 10000 человек.
Показать сколько округов находится в каждом регионе. Отсортировать по убыванию.
Найти наименьшую численность округа, наибольшую безработицу и средний доход по всем округам.
Создать переменную плотность населения (density) и высчитать ее для каждого штата. Найти штат с наибольшей плотностью.
Найти численность населения каждого штата.
Проверить, находится ли какой-то штат в нескольких регионах.
Найти среднее и медианное значени численности штата для каждого региона.
Вывести 2 самых больших округа по количеству населения (в %), которое ходит пешком до работы, для каждого региона.
Найти штат с наибольшим средним доходом для каждого региона.

Задание №2

Будем работать с файлом babynames.rds. Давайте подгрузим его.

babynames <- read_rds('data/babynames.rds')

Этот датасет показывает количество детей, которым дали определенное имя в определенный год.

glimpse(babynames)

## Observations: 1,756,284
## Variables: 3
## Groups: year [138]
## $ year   <dbl> 1880, 1880, 1880, 1880, 1880, 1880, 1880, 1880, 1880, 188…
## $ name   <chr> "Aaron", "Ab", "Abbie", "Abbott", "Abby", "Abe", "Abel", …
## $ number <int> 102, 5, 71, 5, 6, 50, 9, 12, 27, 81, 21, 652, 24, 23, 104…

За какой период времени имеются наблюдения?
Нарисовать график: по оси x год, по оси y количество детей, которые родились в этот год.
Давайте увидим что-то интересное. Посмотрим как “Игра Престолов” влияет на ее поклонников. Посмотрим на динамику имя Arya и Emilia.
Вывести самое популярное имя за каждый год.
Посмотреть на графики для имен Steven, Thomas и Matthew.
Вывести для каждого имени год, в котором его доля от всех имен была наибольшей.
Создать колонку, которая будет показывать долю для каждого имени относительно максимального значения для этого имени за весь период.

Манипуляции с данными с помощью пакета dplyr: задания

Зарманбетов Ахмед

Задание №1

Задание №2