Тернопільські журналісти нарешті мають те, на що чекали так довго

рррррррррррррррррррррр

Презентовано «Відкритий посібник з відкритих даних», який допомагатиме журналістам у розслідуваннях.

«Відкритий посібник з відкритих даних» - це своєрідний довідник, який може стати майданчиком для роботи журналістів з відкритими  даними.

Про це сказав на презентації «Відкритого посібника з відкритих даних», яка відбулась в Укрінформі, керівник напрямку журналістика даних Texty.org.ua Анатолій Бондаренко.

«База відкритих даних може стати цінним матеріалом для проведення журналістських розслідувань», - сказав він.

Як приклад Бондаренко навів оприлюднену базу даних про державні закупівлі з 2008 року. «Це майданчик роботи з даними, який стане у нагоді журналістам», - наголосив він.

Виконавчий директор Українського центру суспільних даних Андрій Горбаль зазначив, що «Відкритий посібник з відкритих даних» створено в рамках проекту тренінгів «Відкриті дані для громадських організацій, журналістів», що його здійснювали Український освітній центр реформ та Український центр суспільних даних за підтримки Посольства США в Україні.

За його словами, мета посібника надати базове розуміння щодо роботи з даними. Надати, зокрема, основні джерела відкритих державних даних. Він є відкритим і відповідні спеціалісти можуть вносити уточнення, розширювати його.

Посібник охоплює такі теми: способи фіксації даних, види спостережень; відкриті дані, державні дані, великі дані, гуртові дані (краудсорсинг): формати даних - csv, xml, json, геодані; отримання даних, очищення, структурування; базові поняття статистики і аналізу даних; способи візуалізації даних, в т.ч. на мапах; приклади практичного використання різних систем збору і аналізу даних.

«Відкриття даних - це право кожного на прийняття осмислених і зважених рішень у всіх галузях свого життя», - зазначив Горбаль.

Посібник доступний за адресою.

Значну частину посібника присвячено роботі журналіста над тими чи іншими даними. Зокрема, читача привертають до того факту, що він сам щойно побував у ролі кінцевого споживача чиїхось публікацій і тому з очевидністю відчуває, як саме треба ділитися результатами своєї роботи з даними, щоби не збільшувати кількість страждань і непорозумінь.

У посібнику, зокрема, приділено увагу поширенню відкритих даних. Автори пишуть, що будь-яка діяльність має початок і кінець. Кінець чогось одного є початком чогось іншого. Робота з даними завершується публікацією. Ця публікація може стати одним із джерел або й відправною точкою іншого дослідження, тому варто подбати про її коректність і зручність її використання.

Звичайно, можна зосередитися на ідеї, що кожна публікація орієнтована на певну аудиторію, і відповідно до того подавати дані, обмежуючись, наприклад, для публікації, орієнтованої на масового читача, просто візуалізацією із посиланням на джерело даних, наприклад «візуалізація за даними Держстату». Але якщо комусь із читачів захочеться перевірити ці дані, таке посилання на джерело допоможе дуже незначною мірою.

В паперових публікаціях такий підхід виправданий обмеженістю обсягів видання і необхідністю дотримання орієнтованого на певну читацьку аудиторію стилю. Але оприлюднення інформації в Інтернеті позбавлене таких обмежень, тому цілком резонно подбати не лише про зручність масового (і неприскіпливого) читача, але і про інтереси читача вдумливого, якому може бути цікаво отримати не лише висновки з даних, а й самі дані, бажано разом із інформацією, ким, коли і за якою методикою їх зібрано.

Хорошою практикою є публікувати не лише свої висновки і візуалізації, а й дані, з яких їх отримано, методики і засоби їх обробки, тощо. Ідеальна публікація мала б давати проникливому читачеві (чи вже, скоріше, користувачеві) змогу, за бажання, відтворити авторський аналіз, перевірити методику і переконатися у авторських висновках чи зробити свої. Відтворюваність експерименту є важливим критерієм його науковості, а журналістика даних є як не науковою, то принаймні наукуватою діяльністю. Але саме до цієї частини діяльності руки можуть не дійти, і не завжди можливо приділити їй достатню увагу.

Багато публікаторів даних, наприклад, державні структури на порталі data.gov.ua, системно нехтують не лише використанням для поширюваних даних машиночитаних форматів, перетворюючи портал на репозиторій сканів документів з мокрою печаткою (в чому є свій сенс, до речі), але й наданням про ці дані інформації, про те, як їх отримано і за якою процедурою.

Найбільше, що ми можемо зробити для того, аби наблизитися до ідеалу — робити якісні дослідження і правильно публікувати дані — подавати приклад, аби з часом це ставало звичкою і нормою.

Отож, як варто викладати дані, щоби це було реально круто?

1) Треба давати доступ до сирих даних. Якщо початковою точкою були скани документів, потрібні ці скани. Якщо заміри записувалися у бінарний файл, потрібен він. Якщо дані було розкидано по жахливо плутаних ексельних табличках і вордових документах, потрібен весь цей мотлох.

2) Треба давати очищений набір даних, такий, що з ним можна працювати одразу.

3) До нього має бути чіткий опис всіх змінних і значень.

4) Має бути описано, яким чином із сирих даних отримано чистий датасет, якщо для цього застосовувалися скрипти, варто поширити і ці скрипти.

5) Якщо є інформація про те, як, ким і за якою методикою зібрано дані, вона необхідна, якщо її немає, варто вказати, що її нема і з якої причини.

Проте, не всі етичні проблеми публікації результатів роботи з даними стосуються того, як зручно поширювати дані. Деякі дані поширювати неетично або заборонено.

Які дані не можна поширювати і як бути, коли вони потрібні?

З викладеного вище може скластися враження, що етика поширення даних полягає у відкритості, і чим відкритіше поширено дані, тим така дія етичніша. І з відкритими даними це саме так і є.

Але не будь-які дані є відкритими, і поширення не будь-яких даних етичне і взагалі припустиме. Крім даних, що становлять державну або службову таємницю, заборонено поширювати також особисті дані людей.

До наборів даних, за якими стоять конкретні люди, особисті дані яких не має бути поширено, застосовуються техніки деперсоналізації. Зокрема, з даних має бути усунуто не лише імена, адреси й інші ідентифікатори, що однозначно вказують на конкретних людей, а й дані, що можуть вказати на це опосередковано. Зрозуміло що робота з деякими наборами даних після такої обробки стає малозмістовною, а то й позбавленою сенсу.

Слід пам'ятати, що згоди на обробку особистих даних не означають згоди на їх відкрите поширення.

Наостанок, варто згадати, що головне в даних — мета, з якою їх збирають, обробляють і поширюють, і вибір журналіста - мати цю мету гідною і робити її досяжною, - стверджують автори

«Відкритого посібника з відкритих даних».

Пдготував Орест Сарматський

Фото – з відкритих джерел

Вибір читачів за тиждень

Відео