动维不仅是执行者、更是思想者
动维如何将您的想法落地,从产品策划到开发实施,再到技术运维
首页 > 动维视野 > 动维观点
在这个数据驱动科研的时代,软件开发理应被视为重要的学术成果
发布时间:2021-12-10 11:55:50

学术研究的核心“产品”是什么?大多数人在被问到这个问题时,给出的答案都是研究论文、训练有素的科学家、书籍、甚至是数据。但是这些答案却漏掉了目前大部分研究的关键组成部分:软件。


众所周知,现代物理学的很多研究要依赖于专业软件的开发,无论是用于会产生大量数据的实验,如大型强子对撞机,还是用于对早期宇宙中暗物质分布建模的超级计算机模拟,无不如此。罗素集团大学的调查显示,有超过90%的英国学者使用软件。大约70%的人表示,如果没有软件的帮助,他们的研究是不可能实现的,而且一半以上的受访者就在开发自己的软件。那么,为什么在物理学研究中,软件的作用没有获得应有的关注呢?


这个问题的部分原因在于,在描述现代数据密集型研究时,科研论文的效果越来越不能令人满意。自1665年《哲学交流》期刊首次出版以来,学术出版的总体情况并没有大幅度的改变。学者们将自己的观点写下来,并在以期刊(纸质或电子版)为中心的体系下将思考的结果与同行们一起分享,这个解决方案我们已经使用了300多年了。


然而,现代物理学(及许多其他学科)的全方位活动根本无法用文本、几个方程和一些图表来完整描述。为了完整地描述任何个别结果的来源,研究人员不仅需要分享他们的想法和结果(可能以论文的形式),还要分享他们收集的数据,并进行分析,才能得出结论。


不仅仅要分享论文的这个想法并不新鲜。统计学家Jonathan Buckheit和David Donoho在1995年就提出:“有关计算结果的论文是一种广告,而不是学术成果。实际的成果应该包括产生最终结果的完整的软件环境、代码和数据。“Buckheit和Donoho认为关于“计算科学”(同样的论据也适用于物理学领域)的论文缺乏足够的、完整的工作描述。它们只是对登在期刊上的研究的一种“广告”。如果第三方想要正确地理解该研究,他们需要看到促使该文章出炉的所有组成部分。(Wavelets and Statistics,New York:Springer,pp 55-81)。


期刊出版问题    

  

将软件纳入现代研究的结构体系,似乎应该将研究人员分享成果的方法摆上优先的位置。从表面上看,要求研究人员分享他们研究的更完整的描述,这一点很难提出反对意见。但实际上存在着一些限制因素。其中最大的障碍可能是,对于许多研究人员,特别是那些处在职业初期阶段的研究人员来说,发表尽可能多的论文的压力几乎盖过了其他所有活动的重要性。在同行评议的论文之外发表其他东西需要更多的时间和精力,大多数研究人员承受不起。


但在未来,越来越多的研究成果将由数据和软件来描述,这就越来越迫切地需要至少在论文中能够找到所参考的软件,并最终建立能够发表这些工具的理想的群体规范。


实际上,这样做要面临很多挑战。首先,研究人员应该如何在论文中引用软件尚不明确。论文是研究思想的静态“快照”,而流行的软件包的生命周期通常长达数年,并且使用不同的版本号多次发布,使用工具的行为也存在细微的差别。因此许多人认为,在引用时只提及软件名称和位置(比如在哪里获取该软件)和软件版本的用处很小。另一个障碍是,即使作者想引用一款软件,许多期刊也不允许他们在引用目录中列出论文之外的其他类内容。最后,大多数学术领域缺乏文化上的规范,比如缺乏专门发表研究软件的期刊,这也就意味着花时间去发表软件,一般不被认为是可信赖的研究成果。说白了,如果发表软件对研究人员的事业没有大的贡献,他们凭什么还要在发表论文之外花时间去这样做?


在大型物理项目的协作中,要对所有研究成果(包括软件和数据)进行共享。这可能是出于以下一些因素:首先,项目合作规模如此之大,以至于有人专门投入大量时间用于编写软件进行数据分析和精简,因此他们在发布研究成果时“多走了一段”。第二,这些实验结果在科学上具有重大的影响力,科学界对发表所有研究结果(代码,数据,论文)的期望较高。第三,有兴趣重现这些巨大成果的人群很广泛,所以如果该项目发布软件工具,使其他人能够验证数据分析的过程,对于更广泛的社区来说效率更高。


2016年2月,激光干涉引力波天文台(LIGO)合作项目的成员宣布首次发现了引力波,该项目是最近大型研究成果的合作发表的一个很好的范例。当这一结果宣布时,研究人员不仅公布了描述探测结果的论文,而且还发布了用于分析数据的所有软件。此外,该协作项目还创建了一个完整的在线分析环境,“LIGO开放科学中心”(LIGO Open Science Center)在互动式在线环境中利用这些软件。该研究发表了研究成果的所有内容,任何人只要有时间、有兴趣,都可以深入研究LIGO团队的分析,从而增加了科学界对这一突破性成果的信心。



将眼光投向学术界之外


在过去几十年中,关于开发和分享影响个人、企业和学术界的软件文化规范发生了重大转变。企业对闭源专有软件的依赖已经逐步让位于开源软件的开发,即使是微软这样的专有软件巨头,也将开源视作技术开发的未来。


 “开源”一词的描述范围不止一件事。严格来说,开源软件已经是在大量许可下可公开共享的软件,这些许可中规定了可以修改、重新使用和共享代码的条件。这些代码可作哪些用途取决于许可内容,但是所有许可都允许出于任何目的使用软件。这与图片的使用许可相反,后者可以约定指定图片不能用于商业目的。


除了作为许可和法律用语之外,“开源”一词通常用于描述开源项目的文化,开源文化强调以开放和协作的方式开展研究,重点是提高透明度,努力鼓励更多人群的参与。因此,开源的许多原则与“开放科学运动”和学术界的核心原则更为一致。


开源的成功不仅取决于软件开发商和企业的免费分享成果的良好意愿,而且还依赖于各种因素的有机开发的“生态系统”。如果开源软件在物理学领域蓬勃发展,物理学家就应考虑采用其中的一些关键成分。


数据科学人才的外流


在学术界中,特别是数据密集型和计算机密集型科学中,我们旨在解决的许多问题至少在功能上与数据量巨大的行业非常相似。这导致了在两个领域中取得成功所需的技能存在越来越多的重叠。我们通常将能够从数据中收集、分析和生成知识的人统称为“数据科学家”,任何大型的数据驱动型企业都很愿意雇用这些人。他们同样可能是不错的物理学家。


华盛顿大学数据科学研究人员杰克·范德普拉斯(Jake VanderPlas)在2013年的博客文章《大数据人才外流:为什么科学会陷入困境》中总结了学术界面临的问题的本质。他写道:“要成为一名成功的科学研究人员所需的技能,与在产业界获得成功所需的技能越来越难以区分。”


范德普拉斯是一名天文学家,是开放源码工具的高产贡献者,学术界的学者和产业界的数据科学家都会使用他研发的这些工具。他在一篇博客文章中提到了一些因素,任何对我们的大学的长期状况感到担忧的人都应该加以关注。首先,最有可能在开源软件开发上花费大量时间的人可能会遭受学术生涯上的挫折,这些人是学术界之外最值得雇佣的人才。第二,这些人对开源事业的贡献是非常显眼的,因为这些工具在相关产业中非常重要。第三,产业界的工作薪水往往比博士后的工资高出两三倍,使得许多最优秀、最聪明的年轻学者都离开了学术界。


也许有些人认为,这种“人才外流”表明大学体系正适合我们的经济运行,可以为产业界训练出技术熟练的工人队伍。不过遗憾的是,很多现代研究都是高度数据驱动化的,这些研究需要具备这些技能的人,才能充分利用现代实验中庞大的数据流。


激励的不平衡


目前的情况是,大多数学术领域都采用一维信用模式,其中学术论文是主要因素。确实存在针对发表研究成果其他部分(如软件和数据)的激励措施,但目前尚不存在于个人研究人员的层面。


那些具备优质数据和分析过程的论文应该更容易理解和重现,进而应该增强人们对任何新结果的信心。虽然与其他一些学科相比,物理学相对而言没有受到什么损害,但如果不增加透明度,许多领域就会出现对“黑匣子”内的研究方法抱有过多的信任,这些不透明的研究方法将数据分配到分析程序中,并且发布结果是没有什么关键性评论。一些人将其描述为重现性“危机”,近年来,尤其是生物科学领域的一些高调的新成果研究论文被撤稿,导致一些科学和医疗期刊出版商,如PLOS,要求作者在提交论文时要一并附上软件和数据。


在物理学和天文学领域,期刊出版商到目前为止采用这种要求的步调相对较慢。但情况也在发生变化:由IOP出版的美国天文学会旗下的《天文学》和《天体物理学》期刊(IOP也是《物理世界》的出版方)现在允许发表描述应用于天体物理学的研究软件的论文。同时,Elsevier出版的《天文与计算》期刊专门介绍关于天文学、计算机科学和信息技术的课题。


图片


另外,有越来越多的期刊专门发表关于软件的论文,如《开放研究软件学报》、《软件X》和《开源软件》),笔者是《开源软件》期刊主编。虽然这些解决方案与奖励研究成果的所有组成部分的学术生态系统不同,但这是朝着正确方向迈出的一步。


物理实验的规模越来越大,数据集越来越复杂。因此,大量的现代研究将有赖于可以让科学共同体共同使用的高质量的软件和数据产品。如果我们要继续充分利用这些实验,就需要培养并维持一个具备广泛技能的员工队伍,包括数据分析、可视化和理论。要实现这一点,我们需要重新思考什么才是“重要”的学术贡献。


动维专业的技术研发企业 www.dongweinet.cn


上一篇
官方平台

官方微博

微信公众号

电话咨询
13811180443
服务时间:09:00-22:00
在线咨询