Установим и подгрузим пакеты.
# install.packages('readr')
# install.packages('dplyr')
# install.packages('ggplot2')
library(readr)
library(dplyr)
library(ggplot2)
Будем работать с файликом counties.rds. Формат .rds это формат данных для R, который сохраняет ваш df в том виде, в котором вы его видели. Его очень легко подгрузить с помощью функции read_rds()
.
Этот набор данных, сформированный после переписи населения США в 2015 году.
Немножко информации о некоторых переменных:
state
– название штата США (всего 50)county
– округ штатаregion
– регионmetro
– есть ли метроpopulation
– количество жителейmen
– количество мужчинwomen
– количество женщинunemployment
– процент безработицыland area
– площадь округаprivate_work
, public_work
, self_employed
, family_work
– процент работающих на частные компании, на государство, на себя и процент работающих в семейном бизнесеemployed
– частный предпринимательincome
– доходwalk
– количество граждан (в %), которые ходят на работу пешкомСколько наблюдений и переменных в нашем наборе данных? Что является наблюдением? Какое первое значение в переменной income
?
Отберите наблюдения только для штатов California
.
Отберите наблюдения только для штатов California
и Florida
.
Отберите наблюдения только для штатов California
, Florida
, Alabama
и Indiana
.
Отберите округа с количеством населения не меньше 20000 только для штатов California
, Florida
, Alabama
и Indiana
.
Отберите все округа кроме округов штата California
.
Отсортируйте в алфавитном порядке названия штатов.
Отсортируйте в алфавитном порядке названия штатов и округов.
Отсортируйте округи в порядке убывания численности населения. Какой штат и округ имеют наибольшую численность населения?
Отберите переменные state
, county
, population
и unemployment
.
Отберите переменные state
, county
, region
, metro
, population
, men
и women
.
Отберите переменные state
, county
, region
, population
, men
и women
.
Создать переменную unemployed_population
, которая показывает количество безработного населения.
Создать логическую переменную pop_1kk
, которая отвечает на вопрос: “Проживает ли в округе более 1000000 человек?”
В каком штате и каком округе больше всего (в %) люди работают на частные компании?
Найти все округа, где количество населения превышает 1000000 и отсортировать их по убыванию.
Найти все округа штата California, где количество населения превышает 1000000 и отсортировать их по убыванию.
Вывести все округа штата Texas, где население превышает 10000, и отсортировать их по убыванию количества работающих на частные компании.
Показать округи в порядке убыванию по количеству доли женщин в населении.
Показать округи в порядке убыванию по количеству доли мужчин в населении только для округов, где живет по крайней мере 10000 человек.
Показать сколько округов находится в каждом регионе. Отсортировать по убыванию.
Найти наименьшую численность округа, наибольшую безработицу и средний доход по всем округам.
Создать переменную плотность населения (density
) и высчитать ее для каждого штата. Найти штат с наибольшей плотностью.
Найти численность населения каждого штата.
Проверить, находится ли какой-то штат в нескольких регионах.
Найти среднее и медианное значени численности штата для каждого региона.
Вывести 2 самых больших округа по количеству населения (в %), которое ходит пешком до работы, для каждого региона.
Найти штат с наибольшим средним доходом для каждого региона.
Будем работать с файлом babynames.rds. Давайте подгрузим его.
Этот датасет показывает количество детей, которым дали определенное имя в определенный год.
## Observations: 1,756,284
## Variables: 3
## Groups: year [138]
## $ year <dbl> 1880, 1880, 1880, 1880, 1880, 1880, 1880, 1880, 1880, 188…
## $ name <chr> "Aaron", "Ab", "Abbie", "Abbott", "Abby", "Abe", "Abel", …
## $ number <int> 102, 5, 71, 5, 6, 50, 9, 12, 27, 81, 21, 652, 24, 23, 104…
За какой период времени имеются наблюдения?
Нарисовать график: по оси x год, по оси y количество детей, которые родились в этот год.
Давайте увидим что-то интересное. Посмотрим как “Игра Престолов” влияет на ее поклонников. Посмотрим на динамику имя Arya
и Emilia
.
Вывести самое популярное имя за каждый год.
Посмотреть на графики для имен Steven
, Thomas
и Matthew
.
Вывести для каждого имени год, в котором его доля от всех имен была наибольшей.
Создать колонку, которая будет показывать долю для каждого имени относительно максимального значения для этого имени за весь период.