---
title: "Как открываются данные"
description: "С момента написания предыдущего поста об открытых данных со мною связались из Комитета по правовой с..."
author: "masaniy"
published: "2013-04-19T04:29:35+00:00"
modified: "2013-07-19T04:20:41+00:00"
locale: "ru"
canonical_url: "https://yvision.kz/post/kak-otkryvayutsya-dannye-347891"
markdown_url: "https://yvision.kz/post/kak-otkryvayutsya-dannye-347891/markdown"
site_name: "Yvision.kz"
---

# Как открываются данные

> С момента написания предыдущего поста об открытых данных со мною связались из Комитета по правовой с...

![Как открываются данные](https://storage.yvision.kz/images/user/masaniy/7M7Doc3ti90l8WYlL6XhuQt0IDEdto.jpg)

С момента написания [предыдущего поста](http://yvision.kz/post/346487) об открытых данных со мною связались из [Комитета по правовой статистике и специальным учетам Генеральной прокуратуры Республики Казахстан](http://pravstat.prokuror.kz/rus) и выразили желание начать публиковать массивы данных о преступности в удобном формате. Я конечно был рад слышать об этом. Однако они озвучили свою проблему - сложность определить данные значимые для населения. Я задумался над их желанием и проблемой. Эта статья стала результатом моих размышлений на тему публикации открытых данных и я постараюсь кратко ответить как, в каком формате и какие данные необходимо публиковать.

**Как публиковать открытые данные?**

На этот вопрос в принципе уже есть ответ в виде [10 принципов](http://sunlightfoundation.com/policy/documents/ten-open-data-principles/), но я хотел бы остановится на следующих моментах:

*1. Автоматизация работы с данными*

Одним из немаловажных моментов публикации открытых данных является возможность автоматизации работы с ними. Поскольку данные постоянно обновляются и дополняются, поэтому потребителям данных нужно постоянно заниматься их поиском, мониторингом и выгрузкой. Это значит, что формы поиска подобные [этим](http://service.pravstat.kz/portal/page/portal/POPageGroup/Services/Pravstat) не подойдут, поскольку выгрузку и поиск данных очень трудно автоматизировать. Для автоматизированной работы с массивами данных государственным источника информации(сайтам) лучше использовать существующий или создать свой [API](https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%82%D0%B5%D1%80%D1%84%D0%B5%D0%B9%D1%81_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D0%BF%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9), например с использованием [веб-служб](http://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%B1-%D1%81%D0%BB%D1%83%D0%B6%D0%B1%D0%B0).

*2. Описание данных*

При публикации массива данных очень важно описать эти данные(как и кем, и когда они были получены, а так же в каком формате публикуются). Это описание очень важно, поскольку дает понять об информационной ценности массива данных, его структуре(формат) и достоверности. Например, как на сайте [Бюро юридической статистики](http://bjs.gov/index.cfm?ty=dcdetail&iid=245) правительства США. Их сайт не идеален, но статистические показатели там описаны.

*3. Лицензионное соглашение*

Немаловажным моментом является указание лицензионного соглашения, которое регламентирует использование этой информации. Существует множество [лицензионных соглашений](http://opendefinition.org/licenses/) по использованию информации, но я бы рекомендовал использовать лицензионное соглашение [Open Database License](http://opendatacommons.org/licenses/odbl/1.0/), которая была специально создана для таких целей.

Учитывая вышесказанное, лучший вариант для публикации данных это конечно специальная платформа или портал открытых данных с удобным [API](https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%82%D0%B5%D1%80%D1%84%D0%B5%D0%B9%D1%81_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D0%BF%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9), уведомлением пользователей по RSS, который позволяет автоматизировать работу с массивами данных. Например, бесплатный движок [CKAN](http://ckan.org/) с открытым исходным кодом, который создан специально для таких целей.

**В каком формате публиковать открытые данные?**

Поскольку данные, которые будет публиковать Комитет по правовой статистике и специальному учету Генеральной прокуратуры, являются статистическими, то одним из лучших вариантов является специализированный формат под названием [SDMX](http://sdmx.org) или Statistical Data and Metadata Exchange.

Стандарт SDMX определяет форматы для обмена агрегированных статистических данных и метаданных, необходимых для понимания того, как эти данные структурированы. По сути это [XML-формат](ru.wikipedia.org/wiki/XML) определенной структуры.

Этот стандарт принят на вооружение крупнейшими мировыми финансовыми и статистическими организациями :
- Банк международных расчетов (Bank for International Settlements - BIS);
- Европейский Центральный Банк (European Central Bank - ECB);
- Статистическое бюро европейского сообщества (Statistical Office of the European Communities - EUROSTAT);
- Международный валютный фонд (International Monetary Fund - IMF);
- Организация экономического сотрудничества и развития (Organization for Economic Co-operation and Development - OECD);
- Статистический департамент ООН (United Nations Statistical Division);
- Мировой банк (World Bank).

Для более подробной информации можно посетить сайт самой инициативы [http://sdmx.org](http://sdmx.org)

Ярким примером этой инициативы является [сайт Единой межведомственной информационно-статистической системы Российской Федерации](http://www.fedstat.ru/).

Однако у стандарта SDMX есть недостатки. Когда вам захочется использовать информацию из нескольких источников или наборов данных, то у вас возникнут определенные трудности с их связыванием для более глобального анализа. Например, будут сложно объединить и связывать информацию о текущей экономической ситуации в стране(данные возможно предоставит Минфин) с информацией об экономических преступлениях(данные предоставит Комитет по правовой статистике).

Одним из решений данной проблемы является использование другого формата под названием [RDF](http://ru.wikipedia.org/wiki/Resource_Description_Framework) и подхода к публикации данных [Linked data](http://semanticfuture.net/linked-data/intro/basics/) или связанные данные. Этот способ позволяет связать разнородные данные в [семантическую паутину](http://ru.wikipedia.org/wiki/%D0%A1%D0%B5%D0%BC%D0%B0%D0%BD%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%BF%D0%B0%D1%83%D1%82%D0%B8%D0%BD%D0%B0) для последующей машинной обработки этих данных.

Использование же одновременно этих двух форматов для публикации сделает эти данные буквально "бесценным" источником информации.

**Какие данные публиковать государственным органам?**

Все данные которые собирают, используют и обрабатывают государственные органы очень важны, поскольку их анализ позволит сделать государство более понятным для простых граждан. На мой взгляд есть следующие виды данных, которые могут быть использованы для анализа:

*1. Структура государственных органов и его служащие*

Не знаю, имеет ли Комитет по правовой статистике право собирать данные о структуре Генеральной прокуратуры вплоть до информации о каждом сотруднике, но эти данные крайне важны, поскольку позволят проанализировать зарплату, количество, состав и возраст государственных служащих, а так же их рабочую нагрузку

*2. Бюджет государственных органов*

Мониторинг эффективности бюджета государственных органов и национальных программ является одним из важных составляющих контроля общества за деятельностью государства. Например, эта информация может дать возможность построить такой интересный информационный ресурс, как [сайт описывающий бюджет Австралии](http://theopenbudget.org/).

*3. Данные позволяющие оценить деятельность государственных органов и процессов в обществе*

Если говорить о деятельности прокуратуры, то все данные о преступлениях, преступниках, жертвах преступлений важны.

Конечно я понимаю, что таких данных может быть достаточно большое количество и все данные сразу невозможно выложить в открытый доступ. Но нужно с чего-то начинать, и я могу предложить сразу несколько интересных идей по созданию сервисов и приложений на основе открытых данных комитета по правовой статистике.

*Социальный портрет преступника*

Такой веб-сайт может предоставить информацию о том, кем является среднестатистический преступник:
- какие преступления он чаще совершает;
- сколько ему лет;
- где он скорее всего проживает;
- какой среднестатистический срок он отбывает;
- и т.д.

Подобную информацию можно наблюдать на текущем [портале правовой статистики](http://crimestat.ru) Генеральной прокуратуры РФ. Однако этот сайт имеет ряд недостатков, в том числе и форму поиска открытых данных, с помощью которой крайне тяжело автоматизировать поиск и сбор данных.

*Коррупционер*

Хищения государственной собственности, взятки и прочие прелести такого явления, как коррупция, являются ржавчиной, которые разъедают саму материю государства, и Республика Казахстан не является исключением. Поэтому тема коррупции является очень актуальной и обсуждаемой в обществе. Буквально в прошлом году [Казахстан и Гондурас показали одинаковый уровень коррупции](http://tengrinews.kz/kazakhstan_news/kazahstan-i-gonduras-pokazali-odinakovyiy-uroven-korruptsii-224773/). Борьба с этим явлением должна вестись по всем фронтам, и поэтому очень важно чтобы государство и общество вместе вели непримиримую борьбу с коррупцией, в том числе и на информационном фронте. Посему очень важно чтобы все преступники и преступления связанные с коррупцией максимально освещались в СМИ, ведь страна должна знать своих "героев". Каждый гражданин должен видеть на сколько пагубно коррупция влияет на государство и на каждого из нас, а наказание неотвратимо, и каждый кто совершит подобное преступление будет "висеть" на этой своеобразной доске позора. Информация о таких преступниках и преступлениях, по моему мнению, должна быть как можно более полной с указанием ФИО, должности, сумм и прочих подробностей. Информационный сервис, который я предлагаю создать, мог бы поведать о следующих фактах:
- личности преступников поименно с указанием нанесенного ущерба государству;
- размер средней взятки;
- размер денежных средств похищенных у государства;
- география коррупции;
- социальный портрет коррупционера;
- основные коррупционные схемы;
- и т.д.

*Суициду.нет*

На сегодняшний день среди стран СНГ [Казахстан занимает второе место по числу детских самоубийств](http://total.kz/society/2012/07/30/po_chislu_detskih_suicidov_kazah). Подобный факт не может ни удручать. Для того чтобы эффективно бороться с этим явлением, общество и государство должны работать вместе. Поэтому создание информационного ресурса поднимающего такую тему, на котором оглашена статистика суицидов, по моему мнению, должно дать дополнительный стимул обществу, общественным организациям и государственным органам для борьбы с суицидами в том, числе среди детей.

*Демография.кз*

Так же не маловажной темой в дополнение к предыдущему информационному ресурсу, станет сайт, который рассказывает о демографической ситуации в стране. На эту ситуацию влияют как самоубийства, так и убийства.

*Обращения граждан*

Информация об обращениях граждан в государственные органы и реакция на них со стороны государственных органов могут дать проанализировать проблемы граждан и работу самих государственных органов.

Это лишь малая часть сервисов и информационных ресурсов, которые можно создать, используя открытые данные и сэкономить государству значительную сумму денежных средств, а так же помочь обществу лучше понять государство, и побудит граждан более активно участвовать в общественной жизни.

*4. Классификаторы и справочники*

Для того чтобы проанализировать публикуемые данные или создавать свои приложения на основе открытых данных важным условием является публикация государственных классификаторов и справочников в машиночитаемом виде.

**Для того чтобы определить более полный список данных значимых для населения, которыми обладают государственные органы, я бы предложил устроить конференцию по открытым данным и открытости(онлайн или оффлайн или одновременно), на которую пригласил бы заинтересованные общественные организации, сотрудников государственных органов, IT-специалистов и всех желающих для высказывания своего мнения о том, какие данные и в каком объеме нужно и хотелось бы открыть, а так же о политике открытости государственных органов в Республике Казахстан.**

*P.S.*

*А для тех кто все-таки захочет публиковать данные и думает с чего-то начать, то я предлагаю ознакомится с небольшим [руководством по открытым данным](http://opendatahandbook.org/ru/). Это руководство отвечает на вопросы зачем, как и что — зачем и как «открывать» данные, и что значит открытость.*

---

Source: [https://yvision.kz/post/kak-otkryvayutsya-dannye-347891](https://yvision.kz/post/kak-otkryvayutsya-dannye-347891)