新智元引荐
来历:爱思美谱(ID:acemap_)
指导老师 | 傅洛伊 王新兵
【新智元导读】Acemap团队结合之前对Nature杂志引证联系数据可视化的技能与当时数据集的特色,对之前技能进行提高,并进行斗胆立异,完结了论文数量达4328431篇的核算机全范畴引证联系数据的可视化,全方位提醒了核算机范畴会议和期刊之间的星系结构。来新智元 AI 朋友圈和AI大咖们一同评论吧。
前面推文扼要介绍了上海交通大学Acemap团队对Nature杂志引证联系数据可视化与展示的进程。到此,咱们已对超大规模学术网络可视化进程有了开端的了解。但是,怎么对论文数量更多,引证联系愈加扑朔迷离的核算机范畴论文引证联系数据进行可视化,成为摆在咱们面前的一个难题。
Acemap团队再次集合此问题,结合之前对Nature杂志引证联系数据可视化的技能与当时数据集的特色,对之前技能进行提高,并进行斗胆立异,完结了论文数量达4328431篇的核算机全范畴引证联系数据的可视化,全方位提醒了核算机范畴会议和期刊之间的星系结构。
核算机全范畴引证联系可视化“难”在哪里
数据量翻倍,引证联系愈加杂乱
本次可视化的数据集抽取了Acemap数据库中整个核算机范畴中4328431篇论文,以及他们之间的引证联系。下表为与前次可视化数据集的比照状况:
由上表可以明显地看出:CS全范畴数据集是之前数据集的2.1倍,连边数是之前10.5倍,均匀到单篇论文的连边数是之前的5倍。这种数据量的剧增直接对现在大多数布局算法造成了灾难性的成果,直接导致这些算法无法进行布局。但是,尽管有些布局算法可以处理这种数据体量,但得到的可视化成果仅仅数据在微观层次的集合作用展示,而当图扩大到某些特定的程度,图的内部结构将是一片紊乱,无任何信息量可以表现。因而,此次可视化进程不只“难”在怎么将数据可视化出来,更“难”在怎么使得可视化成果可以在微观和微观层次统筹,使其在不同层次均能展示满足的信息,而不至于一片“混沌”。
引证联系杂乱化后社区发现堕入“困境”
此次数据集单篇论文的连边数是之前数据集的5倍,这直接导致这张图变得更稠密。当咱们运用社区发现算法对网络进行聚类时,呈现了无法得到适宜数量的聚类,聚类作用难以解说等问题。总归,咱们运用社区发现的方法对CS全范畴数据集进行聚类时,并没有正真取得令人满意的成果。
考虑国际的组成,得到解决问题的创意
国际中有四种根本作用力,正是这四种根本作用力,造就了咱们现在的国际,当然这儿咱们不谈四种相互作用怎么造就了国际,只谈怎么根据国际的规则来规划咱们的布局算法。
国际中四种相互作用
在进行核算机全范畴引证联系可视化的进程中,咱们以论文宣布的会议或期刊作为分类的根据。当完结论文分类后,咱们想要以这种分类作用为导向,作为可视化微观展示的全体作用。当咱们按照之前可视化Nature数据集的方法来进行布局时,在全图的全体布局过程中呈现了严峻的问题,之前集合在一同的点,被布局算法拉扯到“土崩瓦解”,一点点没能得到咱们预期的聚类作用,之前的算法彻底不适合于此数据集的可视化。
之前的力引导算法模型傍边只存在一种方式的力,考虑到国际中存在四种不同方式的作用力,咱们咱们都以为,想要坚持聚类作用,在保存原有力的基础上,有必要参加一种聚类之间的作用力,使聚类坚持满足的“刚性”,避免被布局算法拉扯到“土崩瓦解”。
核算机范畴会议和期刊星系结构的提醒
咱们按照前面的思路,对核算机全范畴引证联系数据进行可视化,得到全范畴星系图,可以从图中看出,研讨内容相似的会议或许期刊以相似星系的作用集合在一同,小聚类盘绕大聚类散布,颇有星系之感。
核算机全范畴星系图
咱们以核算机视觉范畴星系散布进行举例剖析:
核算机视觉范畴会议和期刊星系散布
图为核算机视觉范畴在星系图中的部分扩大,首要咱们咱们可以清楚的定位核算机视觉三大尖端会议:CVPR、ICCV、ECCV在图中的方位,一起咱们也能发现CV范畴其他的会议或期刊,如IJCV、PR、CVGIP等。呈现这种现象的原因是咱们通过剖析不同会议或期刊之间的引证联系,然后得到他们之间的相关性,并将这种相关性用于核算聚类之间的力的巨细,即相关性越大,聚类之间的引力越大,然后表现出空间上的接近。
除此之外,咱们还可以精确的通过图给咱们直观的感觉,定性给出一个衡量会议或期刊影响力的index,像CVPR、ICCV、ECCV这样的会议,咱们咱们可以确定这些会议为恒星级会议,而在他们周围盘绕的会议可以确定为行星级会议。
相同,这种以相似星系会聚的现象也呈现在网络与人工智能范畴,其作用如下图所示:
网络(左)与人工智能(右)范畴会议和期刊星系散布
微观层面,不再“混沌”
从前在对Nature杂志引证联系数据进行可视化时,首要重视点在于怎么改进算法,使得算法可以有效地对更多的数据进行可视化,而在图细节的展示上并没有太多重视,仅仅在图制作完结后进行了去重操作。在核算机全范畴星系图的制作进程中,咱们觉得展示图的部分特征相同重要。所以咱们在对聚类进行布局时就已参加了去重过程,而且对聚类内部不同论题的论文烘托不同的色彩,然后得到较好的聚类内部展示作用。
由微观到微观缩放作用动态展示
TIT内部星系结构
上图展示了信息论范畴CCF A类期刊TIT聚类内部的结构。当咱们逐步扩大进入该期刊的内部时,星系内部的结构逐步展示出来,不同的色彩代表不同的主题,每个主题之中会存在一个比较大的节点,一起会盘绕相同色彩的较小的节点,然后向咱们展示了一种论文之间的星系结构!
结语——无垠的国际是想象力终究的归宿
无论是不同聚类之间,仍是聚类内部的论文之间,都存在有相似星系的结构存在,然后一起组成了巨大的“学术国际”。但是,国际自负爆破以来,阅历了大约150亿年的演化,从奇点演化成了咱们现在的国际。咱们不由要问,“学术国际”的“大爆破”从何时开端?但是通过若干年的演化,又将变成什么姿态?看来,这全部的全部,要从国际中寻觅答案了,无垠的国际依然是想象力终究的归宿!
本文经授权转载自爱思美谱(ID:acemap_)