Крім поділу на структуровані та неструктуровані, у світі існує і ціла низка класифікацій даних. Так, відповідно до інформації, які несуть певні файли, зазвичай виділяють:
- Текстові дані;
- Табличні або структуровані дані;
- Графічні;
- Аудіо;
- Відео;
- Геопросторові;
- Архівні та інші дані.
Текстові дані
Текстові дані – це представлення інформації в обчислювальній системі у вигляді послідовності друкованих символів. Іншими словами, якщо більшість місця у вашому наборі займає простий текст – ви маєте справу з текстовими даними. Прикладом текстових даних можуть бути звіти, нормативно-правові акти, логи, рішення чи розпорядження органів влади, нотатки тощо.
Публікуються текстові дані передусім у відкритих форматах TXT, RTF та ODT. Органам влади також дозволяються використовувати формати DOCX та PDF (із несканованим зображенням).
Категорично не підходять для текстових даних формати JPG, JPEG, PNG, GIF, TIFF, а також PDF зі сканованим зображенням. Публікація текстових даних у цих форматах унеможливлює їх обробку автоматизованими засобами, оскільки їх потрібно додатково оцифровувати.
Єдиний державний портал відкритих даних дає цілком слушну рекомендацію для розпорядників. Якщо ви плануєте публікувати багато типових наборів даних у текстових форматах, наприклад, рішень міської ради, є сенс додатково створити табличку у форматі CSV, у якій буде подано перелік цих рішень. Наприклад, зі зазначенням дати ухвалення, ідентифікаційного номера, заголовку чи опису одним реченням та назви файлу, у якому міститься повний текст рішення чи посилання на нього.
У такому випадку користувачі будуть легко знаходити інформацію, яка їм потрібна, а розпорядник не засмічуватиме ресурс публікації купую папок, які насправді є одним набором.
Якщо більшість місця у вашому наборі займає простий текст – ви маєте справу з текстовими даними.
Табличні або структуровані дані
Табличні або структуровані дані – це впорядкована сукупність стовпців та рядків, наприклад, усім звичні таблиці Excel. Тобто варто запам’ятати, якщо у вашому наборі даних є таблиці, значить, ви маєте справу зі структурованими даними.
Найчастіше структуровані дані зустрічаються у відкритому форматі CSV. Часто також зустрічається формат XLS(X).
Часто програмні та інформаційні системи дають змогу експортувати дані у форматах XML або JSON, тому їх часто використовують розпорядники для публікації набору даних.
Втім, найкраще формати XML і JSON підходять для ієрархічних даних, про це ми поговоримо трішки далі.
Якщо ваші дані не є ієрархічними за природою, для їх публікації буде достатньо формату CSV.
Для публікації структурованих (табличних) даних категорично не підходять формати: DOC(X), RTF, PDF, JPG, JPEG, TIFF, PNG.
місто | підприємство | дата | прибуток |
---|---|---|---|
Київ | ДП “Комунсервіс” | 2017-06-02 | 14439934 |
Київ | ДП “Комунсервіс” | 2016-04-01 | 1122014 |
Київ | ДП “Комунсервіс” | 2018-01-23 | 2000000 |
Львів | ДП “Львівкартон” | 2016-11-01 | 1567890 |
Львів | ДП “Львівкартон” | 2019-08-23 | 768431 |
Харків | ДП “Льодова арена” | 2015-03-11 | 2300943 |
Харків | ДП “Льодова арена” | 2012-02-14 | 5487643 |
Графічні дані
Якщо набір даних є фотографією чи зображенням, будьте певні – ви маєте справу зі графічними даними. Прикладом таких даних можуть бути фото архівних документів, генеральні плани міст тощо.
Графічні зазвичай публікуються у відкритих форматах PNG, JPG чи JPEG.
Часто буває, що текстові чи навіть структуровані дані оприлюднюються у вигляді графічних. Тоді для розпізнавання тексту потрібно використовувати технології OCR (Оптичне розпізнавання тексту). Мабуть, найвідомішою у цій сфері програмою є ABBYY FineReader.
Геопросторові дані
Геопросторові дані — це інформація, що визначає географічне положення та характеристики об'єктів та/або їхні кордони на поверхні Землі.
Якщо набір даних містить інформацію про розташування певних об’єктів із зазначенням широти й довготи, або опис меж певних територій із використанням полігонів, ви маєте справу з геопросторовими даними.
Прикладом геопросторових даних можуть бути генеральні плани населених пунктів, схеми планування територій і плани зонування територій, межі виборчих округів та дільниць, відомості з Держгеокадастру, маршрути й дані про місцезнаходження громадського транспорту тощо.
Геопросторові дані передусім публікуються у відкритих форматах GeoJSON, SHP, рідше GPX, GeoTIFF.
Проте бувають випадки, коли певні набори можуть бути збагачені геоданими, а саме географічними координатами, що позначають точне розташування об’єкта, наприклад, інформація про розташування виборчих дільниць. Такі набори даних публікуються у звичайних табличних форматах CSV чи XLSX.
Архівні дані
Архіви — файли, що містить у собі один або декілька файлів та метадані. Файли можуть бути як стиснені (без втрат), так і мати початковий розмір та структуру. Метадані можуть містити інформацію про початковий розмір файлів, інформацію про формат файлів, структуру директорій, коментарі до файлів тощо.
Архіви файлів створюються за допомогою спеціалізованих програм — архіваторів, які можуть бути як окремими програмами, так і частиною інших програм. Якщо ваш набір даних міститься у файлі великого розміру, або ви публікуєте багато типових файлів, що є частиною одного набору даних, є сенс використовувати для публікації архіви даних. Вони допомагають зменшити розмір набору даних і завантажити велику кількість типових файлів за один раз.
Для публікації архівів даних насамперед треба використовувати відкриті формати ZIP та 7z. Не варто використовувати для публікації архівів даних формат RAR, який є пропрієтарним, адже тоді користувачі потребуватимуть додаткової програми для витягування файлів.