В пакете datasets есть некоторые наборы данных, с которыми мы будем работать. Давайте установим и подгрузим пакет.
# install.packages('datasets')
library(datasets)
Задание №1
Рассмотрим датасет trees.
Чтобы узнать о нем побольше, выспользуемся справкой.
- Посмотрите структуру данных и опишите какие типы переменных в нем присутствуют.
- Посмотрите на 15 первых элементов
- Выведите названия всех переменных и посмотрите на значение элементов 6-30 по всем переменным.
- Выведите описательные статистики по всем переменным
- Давайте перекодируем наши данные!
- Cоздадим дамми-переменную для диаметра дерева: разделив выборку на две части, и зашифруем как
TRUE, если диаметр больше среднего и FALSE, если меньше среднего и сохраним в новую переменную Wide_Tree
- Cоздадим дамми-переменную для высоты дерева: разделив выборку на две части, и зашифруем как
TRUE, если диаметр больше медианного значения и FALSE, если меньше него и сохраним в новую переменную Tall_Tree.
- Давайте посмотрим, сколько в каждой из категорий попало наблюдений.
- Выведем более подробные статистики для нашего датасета.
- А теперь посмотрим на статистики, разделив по подгруппам по переменной
Wide_Tree.
Задание №2
А теперь рассмотрим датасет swiss.
Чтобы узнать о нем побольше, выспользуемся справкой.
- Посмотрим на структуру данных.
- Посмотрим на последние 3 элемента.
- Выведем статистики по всем переменным.
- Построим гистограммы распределения для детской смертности и для процента католиков в кантоне.
- Построим диаграмму рассеяния между образованием призывников и оценками за итоговую аттестацию призывников.
- Построим диаграмму рассеяния между процентом населения, занятого сельским хозяйством и образованием призывников.