常见问题
为何要做数据开放性普查?
从2009年起,由美国、英国带头的开放数据运动席卷全球,意图将公共数据通过开放的数据格式和开放的授权条款来开放给公众使用。在2012年底,我国上海、北京两市相继推出了自己城市的数据开放门户(上海,北京),而之后,国家统计局也上线了其全新改版的数据门户——「国家数据」。那么在这些工作中,有多少和我们生活息息相关与城市发展关系紧密的关键性数据集被开放了呢?又有哪些数据虽然还未开放,但却公开可访问?在这些走在前面的城市外,又有哪些城市的数据公开和开放做的较好?这一系列问题,便是此次普查所期望回答的。我们相信,普查的结果将会帮助民众更好地利用起现有的公开的或是开放的数据资源,也可以进一步帮助政府了解目前工作的成果,更好地开展下一步的数据开放工作。
为何数据开放那么重要?
数据开放意味着数据可以被任何人使用,且不限使用用途。这就能极大地鼓励创新,并将数据真正转换为有用的知识和服务。开放数据运动自2009年起,已经展现了其在社会创新和经济发展上的巨大能量,并在近期的麦肯锡研究报告中被认为能够每年创造3-5万亿美金的价值。一个很好凸显开放数据能量的例子是如今广为人知的 Climate Corporation(直译为气象公司),这家企业通过利用政府开放的气象数据、土壤数据来帮助农民更好规划农作物的种植,规避恶劣天气的影响,其最终被以10亿美金的价格收购。如果想要了解更多,请参看我们编制的 「10分钟了解开放数据」
普查数据是如何搜集的?
我们诚挚邀请您作为志愿者来和我们共同完成这项普查。此次的普查将会如2013年国家级普查一样,通过众包的方式,由志愿者调查一个城市或者简简单单一个数据集来完成数据搜集。众包数据搜集后,将由我们邀请的专家来评审数据,最终将您提交的数据作为最终数据显示在普查结果中。
为什么我所在城市不在普查范围?
目前的城市选择是基于之前的志愿者调查问卷,如果你想要提议新的城市,请在此注册,我们会尽快添加你的城市。
为什么我感兴趣的数据集不在普查范围?
目前的数据集选择是基于之前的志愿者调查问卷,如果你想要提议新的数据集,请在此注册,我们会尽快添加该数据集。
目前我们包含了以下数据集:
Dataset | Details |
---|---|
空气质量 | 空气质量相关如AQI, PM2.5等数据 |
城市行政区划 | 城市行政区划数据明确描绘了行政区块的划分和边界。 |
学校地理位置 | 学校地理位置数据包含该城市中小学、大学的地理位置信息。 |
建筑工程许可证 | 政府颁发的建筑工程许可证数据。 |
政府办事机构名录 | 政府办事机构名录包含例如城市派出所地理位置信息等政府机构位置信息。若能找到完整名录最好,或至少能找到某一类(比如派出所、社保办理点)政府机构地理位置数据亦可表明存在。 |
医疗机构地理位置 | 医疗机构地理位置数据至少包含了公立医院地理位置信息,其他亦可包含如社区卫生服务中心地理位置信息等。 |
城市公共交通线路 | 城市公共交通线路数据包含公共汽车线路数据和地铁线路数据等。在您调查时,至少需要能找到一种城市级别公共交通线路数据比如公共汽车线路数据,才能说该数据集存在。 |
我要如何向该普查贡献数据呢?
如果你要贡献数据,请在首页点击蓝色的「Contribute data to the census」
当你点击该按钮后,将会见到下面的页面:
在进入数据录入页面后,你会看到以下内容:
按照提示填写所有内容后,点击下方的绿色「submit」按钮提交,即可完成一项数据录入,恭喜!
但请注意,你的数据不会立刻显示在首页,而需经过编辑的审核,故请耐心等待!
这项普查的得分是如何计算的呢?
我们的普查问卷中包含了以下问题以及其相应分值:
Question | Details | Weighting |
---|---|---|
是否开放授权? | 这个问题考察该数据集是否按照 https://opendefinition.org/od/simplified-chinese/ 的相应规定采用了开放授权协议。所谓开放授权意味着数据集可以被任何人用作任何用途,这也包括了商业用途。任何人在这一授权下都能够自由、免费地使用数据,或将数据与其他数据聚合再发布。授权协议至多规定必须署名或按相同方式授权来限制使用。 |
30 |
是否机器可读? | 数据机器可读指的是数据所用的文件格式是容易被计算机处理的。要注意即使数据是电子介质存储的但不一定机器可读,比如PDF格式是电子的,但其很难通过计算机来处理数据。这是因为对于计算机而言,很难理解PDF文档中数据的格式信息,而无法自动提取出其中的数据(即使你人是能读懂的)。如果相同的数据被放在一个CSV或者其他电子表格文档里,那么计算机就可以轻易处理了。请注意:对于不同的数据,会有不同的合适的机器可读格式。比如对于地理位置信息,shape格式等就较为合适。但一般而言, HTML(即普通网页)和PDF都不被认为机器可读。 |
15 |
数据是否免费? | 这里关心的是这个数据是否免费,如果收费请在后面的注释部分说明 |
15 |
是否完整获取? | 数据完整获取指的是数据可以被完整得下载或访问。一般而言如果数据不能被完整获取,那么就意味着你只能获得一部分你数据(比如,你只能通过输入关键字搜索来访问到整个数据库中的一部分数据) |
10 |
数据是否按时更新且目前是最新版本? | 该问题考察数据集是否在发布后定期更新。比如,对于建筑许可证数据,是否及时更新而包括了最新工程。如果有任何的不确定,请在后面的注释部分指出。 |
10 |
数据是否在线? | 这里关心的是是否能够通过官方途径在线访问或获得这个数据集。如果可以,请在之后填写相应网络链接地址。 |
5 |
数据是否提供在数字媒介下? | 这个问题主要判断数据是否提供在数字媒介下(即是否存储在计算机或某种电子存储介质上) |
5 |
公开可获取? | 这个问题主要侧重于数据集的「公开性」。数据集并不需要免费,但必须能够让在政府之外的人可以访问(比如数据可以购买到,又或者你能从网上下载到包含数据的PDF,又或者你能得到包含数据的纸质文件等等,那么这个数据集就是公开的)。但请注意,只能通过信息公开方式才能获取的数据并不能被认为「公开」。 |
5 |
数据是否存在? | 这个数据是否存在?它可以是以任何形式存在(书籍、纸档文件、在线网页、可下载的CSV等等)。如果这个数据集完全不存在,那么其他问题都不用回答了 |
5 |