Введение в анализ данных: задания

В пакете datasets есть некоторые наборы данных, с которыми мы будем работать. Давайте установим и подгрузим пакет.

# install.packages('datasets')
library(datasets)

Задание №1

Рассмотрим датасет trees.

data(trees)

Чтобы узнать о нем побольше, выспользуемся справкой.

?trees

Посмотрите структуру данных и опишите какие типы переменных в нем присутствуют.
Посмотрите на 15 первых элементов
Выведите названия всех переменных и посмотрите на значение элементов 6-30 по всем переменным.
Выведите описательные статистики по всем переменным
Давайте перекодируем наши данные!
- Cоздадим дамми-переменную для диаметра дерева: разделив выборку на две части, и зашифруем как TRUE, если диаметр больше среднего и FALSE, если меньше среднего и сохраним в новую переменную Wide_Tree
- Cоздадим дамми-переменную для высоты дерева: разделив выборку на две части, и зашифруем как TRUE, если диаметр больше медианного значения и FALSE, если меньше него и сохраним в новую переменную Tall_Tree.
Давайте посмотрим, сколько в каждой из категорий попало наблюдений.
Выведем более подробные статистики для нашего датасета.
А теперь посмотрим на статистики, разделив по подгруппам по переменной Wide_Tree.

Задание №2

А теперь рассмотрим датасет swiss.

data(swiss)

Чтобы узнать о нем побольше, выспользуемся справкой.

?swiss

Посмотрим на структуру данных.
Посмотрим на последние 3 элемента.
Выведем статистики по всем переменным.
Построим гистограммы распределения для детской смертности и для процента католиков в кантоне.
Построим диаграмму рассеяния между образованием призывников и оценками за итоговую аттестацию призывников.
Построим диаграмму рассеяния между процентом населения, занятого сельским хозяйством и образованием призывников.