知识开放,开启数字中国的一把钥匙
——吴建中馆长在复旦大学的演讲
思想者小传
吴建中 现任澳门大学图书馆馆长、中国图书馆学会副理事长兼学术研究委员会主任、国际图联图书馆建筑与设备委员会常委。曾任上海图书馆馆长、上海科技情报研究所所长。2016年至2017年为上海市人民政府参事,2005年至2010年任上海世博会主题演绎顾问。出版著作20余本,发表论文300余篇。
2017年12月8日,中共中央政治局就实施国家大数据战略进行集体学习。习近平总书记强调,推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国。
谈到大数据战略,不得不提全球开放运动。今天,开放已经成为一种全球共识。从开放获取到开放数据再到开放科学,一场以知识共享为特征的开放运动不断向纵深发展。其意义不仅在于知识的开放和共享,更重要的是它有望改变科学研究范式和知识交流生态,提升科技创新能力,推进经济社会发展。
但是,我们是否准备好了呢?几年前,《每个图书馆员都应知道的十大技术》 主编肯·弗纳姆针对图书馆严重滞后于互联网发展现象说过这样一段话:“当你在谈论电子书、大数据或物联网的时候,图书馆里根本就没有这方面的资源”,我们还处在闷头“做自己的事”的阶段。确实,国内大部分图书馆目前仍处于印刷型资源为主体的阶段,开放数据也好,开放科学也好,似乎还很遥远。
如何看待大数据时代的知识开放和共享?它背后有着怎样的全球发展逻辑?我们又该从何处着手?下面,我围绕相关话题和大家作一些分享。
开放获取论文,占总出版量的四分之一强
开放获取,不是现在才有的。当世界上第一本科学期刊面世时,学术开放的精神就形成了,并延续数百年。
以前我们常说,大学是一个地区的学术中心,图书馆则是大学的心脏。学术成果不仅在大学集聚,而且记录并存储于图书馆之中。但近百年来,学术商业化现象愈演愈烈,大学研究人员创造的科研成果及其版权,分散于学会协会和商业出版机构中。这造成科技期刊无序涨价、科研成果只对付费读者开放、数据只能通过专门系统或软件打开等现象,严重影响了知识的开放和共享。
2013年,美国政府、非营利机构和大学等的科研投入为1580亿美元,占美国当年研发总和的三分之一。但相关研究成果不仅为出版社免费获取,而且其版权也被出版社所拥有。对此现象,美国科学公共图书馆创办者迈克尔·艾森揶揄道:纳税者在对科学研究纳税的同时,还要为阅读这些成果付费。由此,一场开放获取运动应运而生。
如今,开放获取运动的成果如何?欧盟委员会在一份报告中指出,全球同行评议论文数的40%实现免费获取,在一些国家和一些领域已经超过50%的“临界点”。2017年12月5日,英国大学协会开放获取协调组发表《向开放获取转型监测报告》。调查显示,全球研究论文在出版后立即进入开放获取模式的,2014年占比为18%,2016年上升为25%。从总体上看,开放获取论文占全球总出版量的四分之一强,近年来还有逐步加快发展的趋势。
这两年,还兴起了混合开放获取运动。这是开放与收费论文之间的过渡型方式,体现了出版界对开放获取期刊转型的一种支持。根据《混合开放获取的增长状况》里的数据,混合模式的期刊数从2009年2000种增长至2016年约10000种,论文数从2009年的8000篇发展至2016年的45000篇。
同时,著作者、学会协会也积极参与和推动开放获取。例如,英国皇家学会于2017年11月28日宣布,该协会从1665年到1996年出版的1278卷(45883篇论文)电子版纸质期刊,将在2018年1月24日前全部免费开放。
哈佛大学图书馆咨询委员会曾于2012年发表一份报告,提出应对大学图书馆经费危机的最佳解决方案是推进期刊的开放获取。按现有趋势发展,不出20年应可基本实现学术论著开放和共享的目标。在此基础上,大学不仅将实现学术中心地位的回归,而且会进一步推动经济、科技与文化的发展。
研究数据与论著,应置于同等重要的位置
开放数据,不是现在才开始的。早在上世纪50年代,作为国际地理年期间全球联手开展极地科学考察的一个部分,国际科学联合会建立了世界数据中心。
2004年,经济合作与发展组织成员国的科技部长签署联合声明,要求凡是由政府及公费支撑的研究成果都要向公众开放。2007年,该组织又颁布 《公共资助科研数据开放获取的原则与指南》,对研究数据的开放提出具体要求。2011年,欧盟委员会颁布《开放数据:创新、增长和透明治理的引擎》报告,要求欧盟及其成员国建立法律机制、采取财政措施,促进在开放数据领域的合作。
开放数据的关键是格式的规范和开放。2013年6月,八国集团首脑在北爱尔兰峰会上签署《开放数据宪章》,提出开放数据五项原则:开放数据是基本原则;注重质量与数量;让所有人使用;为改善治理而发布数据;发布数据以激励创新。
数据为什么如此受到重视?30年前发表在《美国经济评论》上的一篇名为《实证经济学的反响:货币、信用和银行》的论文,就曾指出数据不可复制的严重问题。作者经过对经济学论文中数据是否可复制的查验发现,很多情况下读者难以得到来自研究人员的数据和编码。即使得到了,某些结果仍不可复制。
为此,作者建议,应当通过说服经济学领域杂志编辑,向著作者索取数据和计算机编码的拷贝,以提高实验结果的可重复性。
开放科学重视数据的开放,强调数据的活用和再利用,并把研究数据与论文、论著置于同等甚至更为重要的位置。开放科学不仅倡导论文的开放获取,而且认为论文中的数据开放也是不可缺少的。
美国科学公共图书馆从2014年3月开始要求数据公开,著作者要签署数据可获取声明,并注明数据在哪里、如何利用。当然,个人隐私等数据例外。
目前,同行评议及期刊编辑审核的重点是论文结论,一般很少会关注研究过程中的数据。只有在著作者面临争议或撤稿的情况下,才会去调查研究数据的真伪。而随着开放运动的持续深入推进,科研期刊要求著作者提交数据可获取声明将成为常态。
明日的文化传统,建在今日的数字信息上
研究数据管理是开放运动的产物。它将研究数据看作与论著同等的科学发现产品,并通过数据的收集、加工、传播、保存等,形成一整套开放型数据生产与传播价值链。起初,它与机构知识库并行发展。因此,有人把它们分别比喻为Paper (以纸质出版为主体的论文)和Product(以数据为主体的作品)。
在发达国家,由开放运动而催生的机构知识库已进入深入发展阶段。机构知识库成为一种常态,并开始新的升级探索——研究数据管理。日本国立情报学研究所2017年11月7日发布信息,宣布该所与欧洲核子研究中心、日本国立物质材料研究所合作,联合开发下一代机构知识库系统。该系统不仅保持原有的机构知识库功能,而且着力于研究数据管理,力图将二者融合为一体。
日前,欧洲研究图书馆协会发布2018年至2022年发展规划,提出研究型图书馆的几个发展方向。其中包括:开放获取将处于主流地位;研究数据可查、可取、可互联和可再用;数字技能为更开放透明的研究生命周期奠定基础;明日的文化传统将建立在今日的数字信息上。
研究论文与研究数据合为一体,也在引领开放科学向纵深发展。通过与其他研究团队共享数据以减少重复试验,不仅有助于研究效率的提高,而且有助于确保研究成果的质量和透明度。它背后的一个基本信条是,所有的理论都应该经得起批评,而且可重复。
因此,开放运动的最终目的在于通过利用现代科技手段,促进学术成果的揭示、开放和再利用,形成有利于知识共享、大众创新和经济发展的科研环境。
起初,开放运动推进的重点是论文和数据的开放,现在则包含相互利用研究基础设施和共享研究方法等。2015年10月,经济合作与发展组织发布《让开放科学成为现实》,标志着开放科学正式进入相关国家的政策领域。2017年3月,欧盟委员会发布《开放科学监测报告》,并开设专门网站。开放科学、开放创新和向世界开放,是欧盟研究、科学和创新政策的三大重心。2017年12月8日,经济合作与发展组织的世界科学论坛和国际科学联合会世界数据系统发表《协调和支持国际研究数据网络》,呼吁共同推进全球数据网络建设,以推动开放科学的发展。
不少国家还将开放科学看作科技创新的抓手。芬兰教育文化部明确提出,要成为全球开放科学的领先国家。其中的目标之一就是,将公共资金资助的研究成果和数据公开,并明确开放方式。
完善数字基础设施,改变“数据孤岛”现象
开放为每一个人增加了参与科学发展和创新的机会。抓住这一机遇,某种程度上就抓住了开启数字中国大门的钥匙。
鉴于开放与创新之间的关系,我们可以从以下几个方面着手:
第一,加大宣传力度,增强开放共享意识。
目前,知识开放共享的最大障碍是用户意识不足。也就是说,科研人员存有疑虑,缺乏参与知识共享的积极性。一项关于中国机构知识库建设现状的调查结果显示,机构知识库内容的存缴以个人提交的比例最低。另一项调查也表明,科研人员缴存科研成果的积极性不高,大部分高校倾向于从其他系统采集数据。
这并非国内特有的现象,国外在推进数据管理的过程中也遇到类似问题。日本一家权威机构对1398名科研人员的开放数据认知度调查显示,科研人员在开放数据上顾虑重重:其中,排在第一位的是“不被引用而被利用的可能性”,占87.8%; 排在第二位的是“担心被人抢先发表”,占84.6%。由此可见,这是一个全球科技界普遍存在的问题。对此,有必要采取相应的扶持措施以增强开放和共享意识,让更多的科研人员自愿参与数据管理。
第二,制定积极政策,推进开放科学发展。
根据联合国教科文组织的科学报告,到2030年,科学不仅使用数据来创造,科学发现的基本产出也是数据。报告明确提出“对未来可持续发展影响最大的将是大数据和开放”,并强调将以此作为核心战略推进2030可持续发展目标的实现。
21世纪是数据为主导的世纪。数据将在经济、社会、科技和文化等所有领域发挥重要作用。由于开放数据是任何人都可以自由利用和再发布的数据,故政策和规范尤为重要。按美国白宫2014年5月9日发布的开放数据政策,开放数据有以下几个要素,即公共性、可获取性、描述充分、可再利用、完整性、及时性、可控的再发布等。为规范开放数据,日本开放数据流通推进联盟也于2014年12月发布《社会资本信息开放数据化和二次利用促进指南》,对如何发布开放数据和推进数据二次利用提出了具体要求。
开放科学是科学发展的新范式,也是深化科技创新的新动力。我们的政府和科研机构应着眼未来、谋篇布局,为抢占下一轮发展制高点奠定基础。
第三,整合各类资源,建设数字基础设施。
在开放数据和开放科学的推进过程中,建立和完善数字基础设施是当务之急。开放出来的数据不仅是为了得到验证,而且可通过再利用催生新的研究成果。建设整合的数字基础设施,不仅有利于改变“数据孤岛”现象,增强信息交流,让更多的人参与科学研究,形成共同攻克难关的良好环境,而且能让研究过程中的数据和成果实现共享,提高科研及其成果的转化效率。
第四,培育专业人才,提升数据管理水平。
人才是事业发展的保障。作为一项新的事业,开放数据和开放科学能否顺利开展,很大程度上有赖于专业队伍的水准。由于它涉及多个领域、行业,因此对从事这一工作的专业人员来说,不仅要有精深的专业技能,而且要有良好的沟通交流能力。目前我们要着力于加强专业队伍建设,加大人才培养力度,培育一批既懂得数字技术又善于数据管理的人才,为推进开放数据、促进开放科学、助力开放创新打下基础。