Summary and Schedule
Мета Data Carpentry полягає в тому, щоб навчити дослідників базовим поняттям, навичкам та інструментам роботи з даними, для того щоб вони могли виконувати більше завдань за менший час і з меншими зусиллями. Наведені нижче уроки розроблені для тих, хто зацікавлений у роботі з соціологічними даними у середовищі R.
Це вступ до R, розроблений для учасників без попереднього досвіду програмування. Ці уроки можна проводити протягом півдня, повного дня або дводенного семінару (див. Примітки для інструктора із рекомендованими планами уроків). Вони починаються з базової інформації про синтаксис R та інтерфейс RStudio, а далі охоплюють: імпорт CSV-файлів, структуру датафрейму, роботу з факторами, додавання й видалення рядків і стовпців, обчислення описових статистик для датафрейму, а також короткий вступ до побудови графіків.
Початок роботи
Тренінги Data Carpentry мають практичний характер, тому учасників заохочують працювати на власних комп’ютерах, щоб забезпечити правильне налаштування інструментів для ефективного робочого процесу.
Ці уроки не передбачають попереднього знання відповідних навичок чи інструментів.
Щоб розпочати, дотримуйтесь інструкцій у вкладці “Setup”, щоб завантажити дані на свій комп’ютер і виконати всі інструкції з встановлення.
Якщо ви викладаєте цей урок на семінарі, будь ласка, перегляньте Примітки для інструктора, щоб отримати корисні поради.
| Setup Instructions | Download files required for the lesson | |
| Duration: 00h 00m | 1. Перед тим як почати |
Як орієнтуватися в RStudio? Як взаємодіяти з R? Як керувати робочим середовищем? Як встановити пакети? |
| Duration: 00h 40m | 2. Введення до R |
Які типи даних доступні в R? Що таке об’єкт? Як можна присвоювати іменам об’єкти різних типів даних? Які арифметичні та логічні оператори можна використовувати? Як можна отримати підмножини з векторів? Як в R трактувати відсутні значення? Як ми можемо впоратися з відсутніми значеннями в R? |
| Duration: 02h 00m | 3. Починаємо з даних |
Що таке датафрейм? Як я можу прочитати повний файл csv в R? Як я можу отримати основну зведену інформацію про мій набір даних? Як я можу змінити спосіб обробки R рядків у моєму наборі даних? Чому мені потрібно, щоб текстові рядки оброблялися інакше? Як у R представлені дати і як можна змінити їхній формат? |
| Duration: 03h 20m | 4. Маніпулювання даними за допомогою пакету dplyr |
Як вибрати певні рядки та/або стовпці з датафрейму? Як об’єднати кілька команд в одну команду? Як створювати нові стовпці або видаляти наявні стовпці з датафрейму? |
| Duration: 04h 00m | 5. Маніпулювання даними за допомогою пакету tidyr | Як я можу переформатувати датафрейм відповідно до своїх потреб? |
| Duration: 04h 40m | 6. Візуалізація даних за допомогою ggplot2 |
Які компоненти ggplot? Які основні відмінності між базовими графіками R, lattice та ggplot? Як створити діаграми розсіювання, коробкові та стовпчикові? Як змінити естетику (наприклад, колір, прозорість) графіка? Як створити кілька графіків одночасно? |
| Duration: 06h 35m | 7. Getting started with R Markdown (Optional) |
What is R Markdown? How can I integrate my R code with text and plots? How can I convert .Rmd files to .html? |
| Duration: 07h 20m | 8. Обробка даних JSON (необов’язково) |
Що таке формат JSON? Як я можу перетворити JSON в датафрейм в R? Як я можу перетворити масив записів JSON у таблицю? |
| Duration: 08h 05m | Finish |
The actual schedule may vary slightly depending on the topics and exercises chosen by the instructor.
Інструкції з налаштування
R та RStudio встановлюються окремо. R — це базове середовище для статистичних обчислень, але працювати лише з R не дуже зручно. RStudio — це графічне інтегроване середовище розробки (IDE), яке робить роботу з R значно простішою та більш інтерактивною. Перед встановленням RStudio необхідно встановити R. R буде автоматично запускатися у фоновому режимі під час користування RStudio. Окремо запускати R не потрібно.
Після встановлення обох програм вам потрібно встановити пакет
tidyverse безпосередньо з RStudio. Пакет
tidyverse — це потужна колекція
інструментів для аналізу даних у R (докладніше дивіться
на сайті
tidyverse). Дотримуйтесь інструкцій
нижче для вашої операційної системи, а потім виконайте інструкції зі
встановлення tidyverse.
Windows
Якщо у вас уже встановлені R та RStudio
- Відкрийте RStudio та натисніть “Help” > “Check for updates”. Якщо доступна нова версія, закрийте RStudio та завантажте найновішу версію RStudio.
- Щоб перевірити, яку версію R ви використовуєте, запустіть RStudio —
версія R буде показана в першому повідомленні в консолі. Або ж ви можете
ввести
sessionInfo(), що також покаже версію R, яку ви використовуєте. Перейдіть на сайт CRAN і перевірте, чи доступна новіша версія. Якщо так, ви можете оновити R за допомогою пакетаinstallr, виконавши:
R
if( !("installr" %in% installed.packages()) ){install.packages("installr")}
installr::updateR(TRUE)
Якщо у вас не встановлено R та RStudio
- Завантажте R з сайту CRAN.
- Запустіть файл
.exe, який був щойно завантажений. - Перейдіть на сторінку завантаження RStudio.
- У розділі Installers виберіть RStudio x.yy.zzz - Windows. Vista/7/8/10 (де x, y та z — номери версій).
- Двічі клацніть на файлі, щоб установити його.
- Після встановлення відкрийте RStudio, щоб переконатися, що він працює коректно і не з’являються повідомлення про помилки.
macOS
Якщо у вас уже встановлені R та RStudio
- Відкрийте RStudio та натисніть “Help” > “Check for updates”. Якщо доступна нова версія, закрийте RStudio та завантажте найновішу версію RStudio.
- Щоб перевірити, яку версію R ви використовуєте, запустіть RStudio —
версія R буде показана в першому повідомленні в консолі. Або ж ви можете
ввести
sessionInfo(), що також покаже версію R, яку ви використовуєте. Перейдіть на сайт CRAN і перевірте, чи доступна новіша версія. Якщо так, будь ласка, завантажте та встановіть її. У будь-якому випадку переконайтеся, що у вас встановлена версія R не нижче 3.2.
Якщо у вас не встановлено R та RStudio
- Завантажте R з сайту CRAN.
- Виберіть файл ‘.pkg’ для останньої версії R.
- Двічі клацніть на завантаженому файлі для встановлення R.
- Також непогана ідея встановити XQuartz (потрібно для деяких пакетів).
- Перейдіть на сторінку завантаження RStudio.
- У розділі Installers виберіть RStudio x.yy.zzz - Mac OS X 10.6+ (64-bit) (де x, y та z — номери версій).
- Двічі клацніть на файлі, щоб установити його.
- Після встановлення відкрийте RStudio, щоб переконатися, що він працює коректно і не з’являються повідомлення про помилки.
Linux
- Дотримуйтесь інструкцій для вашого дистрибутива від CRAN, там наведено
інформацію про встановлення найновішої версії R для поширених
дистрибутивів. Для більшості дистрибутивів можна скористатися менеджером
пакетів (наприклад, для Debian/Ubuntu виконати
sudo apt-get install r-base, а для Fedorasudo yum install R), але ми не рекомендуємо цей спосіб, оскільки версії R, встановлені таким чином, зазвичай застарілі. У будь-якому разі переконайтеся, що у вас встановлена версія R не нижче 3.2. - Перейдіть на сторінку завантаження RStudio.
- У меню Installers виберіть версію, яка відповідає вашому
дистрибутиву і встановіть її вашим обраним методом (наприклад, у
Debian/Ubuntu виконайте
sudo dpkg -i rstudio-x.yy.zzz-amd64.debу терміналі). - Після встановлення відкрийте RStudio, щоб переконатися, що він працює коректно і не з’являються повідомлення про помилки.
- Перед встановленням пакета “tidyverse”, користувачам
Ubuntu (та споріднених дистрибутивів) може знадобитися
встановити наступні залежності:
libcurl4-openssl-dev libssl-dev libxml2-dev(наприклад:sudo apt install libcurl4-openssl-dev libssl-dev libxml2-dev).
Для всіх операційних систем
**Після встановлення R і RStudio вам потрібно встановити пакети
tidyverse та here. **
Після запуску RStudio на консолі введіть:
install.packages ("tidyverse"), а потім натисніть клавішу Enter. Коли пакет буде встановлено, введітьinstall.packages ("here"), а потім клавішу Enter. Обидва пакети тепер повинні бути встановлені.Зауважте, що у цьому уроці використовується файл
SAFI_clean.csv. Пряме посилання для завантаження цього файлу: https://github.com/datacarpentry/r-socialsci/blob/main/episodes/data/SAFI_clean.csv. Ці дані є дещо очищеною версією результатів опитування SAFI Survey Results, доступних на figshare. Інструкції щодо завантаження даних за допомогою R наведені в епізоді Перед тим як почати.Епізод json використовує
SAFI.json. Цей файл доступний на GitHub тут.