Впорядковані дані (Tidy Data) – що це?

Впорядковані дані (Tidy Data) або охайні дані – це добре структуровані дані, які не потребують додаткової очистки та маніпуляцій для їхньої обробки машиночитним способом. Такі набори даних організовані так, що кожна змінна є стовпчиком, а кожне спостереження є рядком. 

Впорядковані дані (Tidy Data) — це структурований підхід до організації даних для зручності аналізу.”

Хедлі Вікхем у “Журналі статичного програмного забезпечення” зазначає: “Всі впорядковані набори даних схожі, натомість кожен брудний набір брудний по-своєму”. Автор також наводить досить популярну статистику: “80% аналізу даних – це час витрачений на їхню підготовку”. Саме тому важливо забезпечити не лише наявність інформації, але й високу якість та структурованість даних.

Безумовно усі набори даних відрізняються, бо несуть різну інформацію. Проте відомий дата-вчений Джефф Лік у своїй книзі “Елементи аналітичного стилю даних” підсумовує чотири головні характеристики будь-яких чистих даних:

  1. Кожна змінна (variable), яку ви вимірюєте, повинна бути в одному стовпці.
  2. Кожне окреме спостереження (observation) цієї змінної – в окремому рядку.
  3. Для кожного “виду” змінної має бути одна таблиця.
  4. Якщо у вас є декілька таблиць – вони повинні включати стовпець (ідентифікатор) у таблиці, завдяки якому їх можна поєднати.

<img decoding=

Отже, що ж таке Впорядковані дані (Tidy Data)?

У простому розумінні, значна частина даних – це таблиці. Таблиця – це впорядкована сукупність стовпчиків та рядків. 

Один рядок таблиці – це одна одиниця Ваших даних, мовою статистики, одне спостереження

Один стовпчик – це одна змінна, тобто значення, яке змінюється від рядка до рядка.

Як приклад впорядкованих даних, можемо розглянути інформацію про студентів університету. Кожен студент – це окреме спостереження, яке має свої унікальні характеристики – це і є змінні. Такими змінними можуть виступати ім’я, стать, вік, колір волосся, дата народження, гастрономічні смаки тощо.

Тобто, стандарт охайних даних розроблений того, щоб полегшити початкове сприйняття даних та їхній подальший аналіз, а також для спрощення розвитку інструментів аналізу даних, які добре працюють в сукупності.