В пакете datasets
есть некоторые наборы данных, с которыми мы будем работать. Давайте установим и подгрузим пакет.
# install.packages('datasets')
library(datasets)
Задание №1
Рассмотрим датасет trees
.
Чтобы узнать о нем побольше, выспользуемся справкой.
- Посмотрите структуру данных и опишите какие типы переменных в нем присутствуют.
- Посмотрите на 15 первых элементов
- Выведите названия всех переменных и посмотрите на значение элементов 6-30 по всем переменным.
- Выведите описательные статистики по всем переменным
- Давайте перекодируем наши данные!
- Cоздадим дамми-переменную для диаметра дерева: разделив выборку на две части, и зашифруем как
TRUE
, если диаметр больше среднего и FALSE
, если меньше среднего и сохраним в новую переменную Wide_Tree
- Cоздадим дамми-переменную для высоты дерева: разделив выборку на две части, и зашифруем как
TRUE
, если диаметр больше медианного значения и FALSE
, если меньше него и сохраним в новую переменную Tall_Tree
.
- Давайте посмотрим, сколько в каждой из категорий попало наблюдений.
- Выведем более подробные статистики для нашего датасета.
- А теперь посмотрим на статистики, разделив по подгруппам по переменной
Wide_Tree
.
Задание №2
А теперь рассмотрим датасет swiss
.
Чтобы узнать о нем побольше, выспользуемся справкой.
- Посмотрим на структуру данных.
- Посмотрим на последние 3 элемента.
- Выведем статистики по всем переменным.
- Построим гистограммы распределения для детской смертности и для процента католиков в кантоне.
- Построим диаграмму рассеяния между образованием призывников и оценками за итоговую аттестацию призывников.
- Построим диаграмму рассеяния между процентом населения, занятого сельским хозяйством и образованием призывников.