引言
“天文学,是像数学一样的基础学科,而越是基础学科,就越难直接应用。”
“我们没有想过盈利,这些技术目前来看也不太可能直接应用到其他领域。”
“不管是优图还是腾讯公司层面,不是做的每件事情都要考虑它的经济价值或者收入,它代表了一个社会向善的进展或者路径。”
如果说人工智能的发展是人类对于未来的一次探索,那么这场探索之中必然会出现大量的分歧。比如说,人工智能对于人类就业而言是利是弊?人工智能究竟是先抓产业还是先抓科研?从实验室走出来的技术究竟如何落地?应用科学与基础科学哪一边才是AI真正的乐园?当这些问题逐一呈现在我们面前时,人工智能的样貌就会变得更加清晰,可全貌却会因此而与人渐行渐远。
不同的路径会得到不同的答案,我们无法去评价究竟怎样的路才是未来最合适的路,可我们却可以回头看一下起点。AI的初心是否改变过?关于科技向善的目的,我们是否动摇过?关于未来的道路,我们是否断舍离过?在《蜘蛛侠》里有一句话,叫做“能力越大,责任越大”。这句话与如今AI发展的格局不谋而合,当一家AI企业取得的成就越是明朗时,他们对于未来的向往就越是清晰。也正是因为这一原因,我们才在2021世界人工智能大会上分别听到了来自国家天文台、腾讯优图的技术专家们,讲出来开头的几句评语。
7月9日,2021世界人工智能大会“腾讯论坛”在上海世博中心举办,聚焦“人工智能与可持续发展”主题,腾讯云在人工智能领域的“三大底层AI平台”正式发布,成为本届世界人工智能大会的关注焦点。同时,腾讯与国家天文台合作的“探星计划”宣布正式启动—— 基于优图实验室计算机视觉技术、腾讯云的计算及存储能力,帮助中国天眼FAST提升脉冲星搜索效率,并辅助快速射电暴和近密双星系统中脉冲星搜索,助力天文探索。未来,双方还将联合AI+天文成果进展,开展天文科普、科学成果发布、联合IP打造等系列活动。
九天摘星梦,摘得脉冲星
“天文学,是像数学一样的基础学科,而越是基础学科,就越难直接应用。”中国科学院国家天文台研究员、FAST首席科学家李菂在接受采访时发出了这样的感慨,尽管他已经在天文学领域深耕多年,但他依然认为这一学科没有任何实用性,其无法脱离基础研究的性质,尤其是在同腾讯的合作中,大量的天文学研究对腾讯优图的研发人员而言,就像是在提一些不太合理的要求。
那么脉冲星究竟是怎样的存在,为什么我们一定要去做这样的天文研究呢?李菂表示,中国一直有着世界一流的脉冲星研究团队,早在宋代中国就有关于超新星爆炸的脉冲星研究记录。但是中国的优势一直在于脉冲星的理论研究和模型研究,但是在观测方面始终缺乏设备。脉冲星是高能天体,其有高磁场、高密度、快速旋转的特征,有包括光学、高能的各种信号。
而这一情况在过去十年来有了根本性变化,我们第一次有了自己的天文卫星,有了地面大型的观测站,有了手机蓝牙射频通讯波段和世界上最大的天线……这与中国过去的基建投入、科学投入和GDP的增长是完全一致的。也因此,国内天文学发展开始从理论研究的社团发生转变,脉冲星的研究甚至完全转向了观测研究,并且取得了独特的领先性,这也可以作为一个天文学的指标。
在2016年建成以前,全球发现的脉冲星已经接近3000颗,这一领域还诞生了两位诺贝尔物理学奖,可是中国却限于观测设备从未发现过任何一颗脉冲星。可是在2016年中国天眼FAST投入应用后,中国仅通过FAST就发现了超350颗脉冲星,占全球10%。不过,脉冲星的发现也并非易事,尽管我们有了观测设备,但甄别脉冲星的辐射信号和物理现象工作依然复杂,而当信号穿过宇宙空间时会有大量的色散现象,最终出现变频,而通过处理得到特征后继续反推星际空间中存在的物质,才可以帮助限定距离并进一步分析相关信息。这其中尤其是信号处理和频谱分析,工作量大且繁琐,而在接入了FAST之后数据量更是惊人,再加上天文团队在计算、编程方面能力的限制,这些点就成为限制天文研究的核心问题。
好在,人工智能的发展具有很强的普惠性,其不仅仅会对于产业和生活提供良好的帮助,对于天文学这类的基础学科一样可以有立竿见影的效果。“借助AI技术能力,3天就可以处理完原来人工需要1年才能完成的数据工作量。”腾讯云副总裁、腾讯优图实验室总经理吴运声表示,通过腾讯云+AI的辅助,FAST脉冲星搜索效率将得到显著提升,数据处理效率提升120倍。
与数据赛跑,与AI共赢
“我们没有想过盈利,这些技术目前来看也不太可能直接应用到其他领域。”在被问及这场合作是否对于其他领域应用有所帮助时,腾讯优图实验室副总经理黄飞跃的答案显得比较出人意料。我们都知道,实验室里的技术一旦被拿出来是必然要应用的,但是腾讯优图却有一点反其道而行之,他们将已经应用十分成熟的技术重新拿回了实验室,用来帮助天文学的探索,而且目前看也不太可能创造任何的利润。
在解释这场看似“荒唐”的合作时,黄飞跃表示,腾讯优图的定位,一方面会做很多的原生自发的科技探索,尤其是在计算机视觉领域;而另一方面则是很多科技向善的活动,也就是偏科研性的探索。而AI和CV在天文学领域的应用虽然无法直接创造利润,但技术在其中确实产生了很大的价值,同时对于整个社会而言,进行科技的前沿探索是有着重要意义的。
在腾讯优图接触到天文台团队时发现,这里绝非是AI的荒漠。李菂的团队在场景、数据、业务等多个方面都打造了成熟的机器学习的算法模型。而优图则在此基础上与天文台展开合作,首先进行的是数据的预处理。因为天文台一天采集到的原始数据大约有500T,每周有3000万张的信号图片,数据量巨大,这500T数据的转换及数据提取难度非常高。同时,在做一系列的原始信号处理时,其需要进一步的加速,而在合作之后到现在,其处理加速性能提升了一倍以上,预处理更快。
在信号处理的过程中,优图会用机器学习的方式来寻找疑似样本,再交给专业的人员看确认信号来提升召回率和准确率。在合作之后,双方还然后通过新的算法实现提升,如今其准确率提升也达到了1倍以上,并降低了后期专业人士的人为筛选的工作量。
AI探星的过程并非不简单,首先深度学习最核心的是要有海量的已标注数据作为训练数据,再利用训练数据来调和整优化模型。可是天文领域标注的训练数据相对偏少,训练面临很多困难;其次,同样的天体信号用不同的望远镜和设备观测,得到的数据和展现形式并不完全一样。
这两个难点的突破主要是基于原有的技术积累,比如之前的人脸、人体检测、工业检测等,这使得其优图的模型能够针对海量缺少标注的数据实现自监督的学习,最终形成无标注自监督的解决方案,从而减少有标签数据的依赖性;另外对不同场景,不同的设备拍出来的数据也可以跨域学习的概念,从而将不同的设备数据整合起来统一来帮助训练。此外,海量的数据带来的问题不仅仅是训练的问题,还有存储和计算。此次合作中,双方将海量的数据存储到了腾讯云上,并借用腾讯云的计算资源和优图的技术人员共同完成技术升级。
星辰大海,寻找未来
“不管是优图还是腾讯公司层面,不是做的每件事情都要考虑它的经济价值或者收入,它代表了一个社会向善的进展或者路径。”吴运声在谈及未来时表示,探星计划在推出时确实有一个难题要解决,而解决难题需要提出新的思路和新的想法,而这种全新领域的探索对于AI技术的发展确实有一定的帮助,一旦突破了这些问题,就会实现该领域的技术提升。
在探星计划开展的几个月里,双方已经取得了一定的成果,并发现了一些脉冲星。而且,国内发现脉冲星的效率要远高于其他的机构。
当然,对于腾讯优图而言,除了在各个产业领域沉淀价值,星辰大海也是未来发展的重要方向。FAST是中国独有的万人计划,在中国已有的基础设施和大数据规模之下,FAST每天有大量的数据和宇宙信号待处理,结合腾讯云已有的大数据计算能力能够得到很好的解决。此外,传统的搜星算法有很多新的理念和概念,在人工智能里面用到的多模态技术迁移到探星领域会是非常好的思路。这种交叉学科能够同时发挥基础设施的优势,又有计算资源和算法的优势发挥,其结合后会得到非常好的成果。
吴运声表示,AI+云会有两个方向,一个是助力产业升级,另一个是助力信息数字化建设。因此,腾讯在过去的几年中发布了大量的单点解决方案,并投入了海量的精力帮助客户构建AI解决方案,实现产业升级。但这种做法有很多限制,不仅仅是自身资源的问题,还有整体AI能力的规模化和影响力的扩大。因此,在WAIC之上,腾讯打造了自己的基础设施,开放了三大AI底层平台-TI ONE、TI Matrix和TI DataTruth,提供包括算法开发、模型训练、数据标注和数据处理等一站式开放能力,为企业或个人开发者提供一站式的智能化、数据化和移动化服务,满足客户降本增效、灵活可用的诉求。
在数字化建设方面,腾讯云对外开放了超过300项的AI原子能力,外部用户可以直接来访问,并根据过去的积累,推出了超过50个相对来讲比较成熟的解决方案,也是一样可以直接拿来使用的产品。而这些方式都是腾讯通过过去几年的发展,得到的一些沉淀和思考。而这些在整体的思路上,也便如笔者在开头所提到的,通往AI和未来的路各不相同,但大家终将殊途同归。
在此次大会上,腾讯公司高级执行副总裁、腾讯云与智慧产业CEO汤道生在开场致辞中表示,人工智能的最大价值是“服务于人”,要让更多的跨界人才,把AI带到更多的行业,产生更大的社会价值。笔者也一样认可这一观点,AI的发展无论是产业支持、生态支持亦或是走向科研或者天文领域,其最终的结果必然是“服务于人”,可能是当下人的生活,亦可能是未来人的诗与远方,大海星辰。