Установим и подгрузим пакеты.

Задание №1

Будем работать с файликом counties.rds. Формат .rds это формат данных для R, который сохраняет ваш df в том виде, в котором вы его видели. Его очень легко подгрузить с помощью функции read_rds().

Этот набор данных, сформированный после переписи населения США в 2015 году.

Немножко информации о некоторых переменных:

  • state – название штата США (всего 50)
  • county – округ штата
  • region – регион
  • metro – есть ли метро
  • population – количество жителей
  • men – количество мужчин
  • women – количество женщин
  • unemployment – процент безработицы
  • land area – площадь округа
  • private_work, public_work, self_employed, family_work – процент работающих на частные компании, на государство, на себя и процент работающих в семейном бизнесе
  • employed – частный предприниматель
  • income – доход
  • walk – количество граждан (в %), которые ходят на работу пешком

  • Сколько наблюдений и переменных в нашем наборе данных? Что является наблюдением? Какое первое значение в переменной income?

  • Отберите наблюдения только для штатов California.

  • Отберите наблюдения только для штатов California и Florida.

  • Отберите наблюдения только для штатов California, Florida, Alabama и Indiana.

  • Отберите округа с количеством населения не меньше 20000 только для штатов California, Florida, Alabama и Indiana.

  • Отберите все округа кроме округов штата California.

  • Отсортируйте в алфавитном порядке названия штатов.

  • Отсортируйте в алфавитном порядке названия штатов и округов.

  • Отсортируйте округи в порядке убывания численности населения. Какой штат и округ имеют наибольшую численность населения?

  • Отберите переменные state, county, population и unemployment.

  • Отберите переменные state, county, region, metro, population, men и women.

  • Отберите переменные state, county, region, population, men и women.

  • Создать переменную unemployed_population, которая показывает количество безработного населения.

  • Создать логическую переменную pop_1kk, которая отвечает на вопрос: “Проживает ли в округе более 1000000 человек?”

  • В каком штате и каком округе больше всего (в %) люди работают на частные компании?

  • Найти все округа, где количество населения превышает 1000000 и отсортировать их по убыванию.

  • Найти все округа штата California, где количество населения превышает 1000000 и отсортировать их по убыванию.

  • Вывести все округа штата Texas, где население превышает 10000, и отсортировать их по убыванию количества работающих на частные компании.

  • Показать округи в порядке убыванию по количеству доли женщин в населении.

  • Показать округи в порядке убыванию по количеству доли мужчин в населении только для округов, где живет по крайней мере 10000 человек.

  • Показать сколько округов находится в каждом регионе. Отсортировать по убыванию.

  • Найти наименьшую численность округа, наибольшую безработицу и средний доход по всем округам.

  • Создать переменную плотность населения (density) и высчитать ее для каждого штата. Найти штат с наибольшей плотностью.

  • Найти численность населения каждого штата.

  • Проверить, находится ли какой-то штат в нескольких регионах.

  • Найти среднее и медианное значени численности штата для каждого региона.

  • Вывести 2 самых больших округа по количеству населения (в %), которое ходит пешком до работы, для каждого региона.

  • Найти штат с наибольшим средним доходом для каждого региона.

Задание №2

Будем работать с файлом babynames.rds. Давайте подгрузим его.

Этот датасет показывает количество детей, которым дали определенное имя в определенный год.

## Observations: 1,756,284
## Variables: 3
## Groups: year [138]
## $ year   <dbl> 1880, 1880, 1880, 1880, 1880, 1880, 1880, 1880, 1880, 188…
## $ name   <chr> "Aaron", "Ab", "Abbie", "Abbott", "Abby", "Abe", "Abel", …
## $ number <int> 102, 5, 71, 5, 6, 50, 9, 12, 27, 81, 21, 652, 24, 23, 104…
  • За какой период времени имеются наблюдения?

  • Нарисовать график: по оси x год, по оси y количество детей, которые родились в этот год.

  • Давайте увидим что-то интересное. Посмотрим как “Игра Престолов” влияет на ее поклонников. Посмотрим на динамику имя Arya и Emilia.

  • Вывести самое популярное имя за каждый год.

  • Посмотреть на графики для имен Steven, Thomas и Matthew.

  • Вывести для каждого имени год, в котором его доля от всех имен была наибольшей.

  • Создать колонку, которая будет показывать долю для каждого имени относительно максимального значения для этого имени за весь период.