年11月,北京智源人工智能研究院联合数据评测平台 Biendata,共同发布了粒子碰撞数据集,其中包含数百万条高能对撞中所产生的喷注信息(质量、能量、方向等),以及相关的碰撞事件信息和喷注中粒子的信息。
与此同步地,我们开放了“高能对撞粒子分类挑战赛”(11月-次年2月),总奖金为10万元。比赛和数据可于下方链接查看,或点击“阅读原文”。
比赛地址:
/competition/jet/
下面就来了解一下这次比赛吧!
背景
宇宙中大多数物质由原子构成,原子又由原子核和电子组成。其中,电子是基本粒子,但原子核又可分为质子和中子,并可进一步分为夸克和胶子。这些夸克和胶子的相互作用非常强烈,以至于只有通过极高能量的质子对撞才能让它们摆脱束缚。在高能碰撞时可以产生包括夸克和中子在内的大量粒子,向某个方向射出,这些粒子团被称为喷注(jet)。
喷注可以分为:1)胶体喷注,2)轻夸克喷注,3)魅夸克喷注,4)美夸克喷注。由于它们的不同内在特性(如质量和色量子数),不同种类的喷射经历不同的衰变过程,其内部结构也在实验中显示出不同的观测值。
尽管在理论物理模拟中可以很容易地识别出喷注的味道,但目前在实验中没有可靠的方法可以对所测量的真实喷注进行分类。因此,开发一种稳健的算法来识别喷注味道,将让我们可以更直接地比较实验测量和基本粒子理论。
比赛任务
本次比赛提供粒子碰撞数据集,其中包含对撞中产生的喷注信息(质量、能量、方向等),以及相关的碰撞事件信息和喷注中所包含的粒子信息,要求选手根据喷注的性质(如喷注所含的粒子数、喷注能量、喷注质量、喷注方向),以及喷注中所有粒子的特征(方向、质量、能量等)和对应的碰撞事件,把喷注分成四类中的一类。
本次比赛分为简单赛道和复杂赛道,依次进行。简单赛道只要求选手根据喷注属性的数据集进行分类;复杂赛道在此基础上,又加入喷注所含粒子的属性文件和碰撞事件文件,数据的体量和维度剧增,难度也相应加大。简单赛道和复杂赛道的测试集一样,只是提供的数据维度不同。
简单赛道(11月30日至12月25日)
选手根据喷注的性质(喷注所含的粒子数、喷注能量、喷注质量、喷注方向)进行分类。(简单赛道开放时间较短,建议提前报名参赛)
复杂赛道(12月25日至次年2月15日)
选手根据喷注的性质、喷注中所有粒子的特征、以及喷注所在的碰撞事件进行分类。
粒子碰撞数据集
本数据集共包含200多万条喷注信息,分为EVENT、JET、PARTICLE三类文件,三者为上下层级关系,一个碰撞事件(EVENT)会产生若干个喷注(JET),而一个喷注中会包含若干个粒子(PARTICLE)。EVENT文件是对碰撞事件的描述,JET文件详细说明了喷注的属性,PARTICLE文件进一步描述了喷注中所含各个粒子的属性。
这三类数据的结构可以通过以下方式直观理解:
- Event 1: Event 1的属性
- - Event1 中的喷注1(jet1)
- - - 喷注1中的粒子1数据
- - - 喷注1中的粒子2数据
- - - ……
- - Event2中的喷注2(jet2, event1)
- - ……
- ……
具体而言,在EVENT文件中,“event_id”字段是碰撞事件的编号,“number_of_jet_in_this_event”字段表示碰撞事件中产生的喷注数量。
Event 文件样例
在JET文件中,“jet_id”字段是喷注的编号,“number_of_jet_in_this_event”字段表示碰撞事件中产生的喷注数量,“jet_px”、“jet_py”、“jet_pz”字段表示喷注的方向,“jet_energy”表示喷注的能量,“jet_mass”表示喷注的质量,“event_id”表示该喷注所在的碰撞事件,“label”表示喷注属于的类别。
Jet 文件样例
在PARTICLE文件中,“Particle_category”字段是粒子的标签号,“particle_px”、“particle_py”、“particle_pz”字段表示粒子的方向,“particle_energy”表示粒子的能量,“Particle_mass”表示粒子的质量,“jet_id”表示该粒子所在的喷注。
Particle 文件样例
同类研究
自开始,物理学界开始尝试将深度学习引入喷注分类任务中。在此过程中可以发现,最新的机器学习技术创新可以相当显著地提升模型性能。
目前,已有多种机器学习技术已经在相关数据集上得到应用。,麻省理工学院的研究团队将模拟喷注数据中粒子的密度转化为二维图片,并用卷积神经网络等计算机视觉技术对图片进行分类。同年,多个团队报道利用喷注衰变产生的树状演变结构,可以采用自然语言处理中的RNN及LSTM网络,显著提升分类的准确率。一篇发表的论文表明,如果考虑一些物理学家设计的变量作为特征,最高能把胶子-夸克分类的ROC AUC数值提升超过10%左右,达到0.899。
相较于其它数据集,智源“粒子碰撞数据集”的喷注数达到200多万条,而且细分为四类,并包含具体粒子的详细信息,在数量和颗粒度上达到了较高的水准。
参考文献:
[1]P.T. Komiske, E.M. Metodiev and M.D. Schwartz, Deep learning in color: towardsautomated quark/gluon jet discrimination, JHEP 01 () 110 [arXiv:1612.01551][INSPIRE].
[2]S. Egan, W. Fedorko, A. Lister, J. Pearkes and C. Gay, Long Short-Term Memory(LSTM) networks with jet constituents for boosted top tagging at the LHC,arXiv:1711.09059 [INSPIRE].
[3]Cheng, T. Recursive Neural Networks in Quark/Gluon Tagging, Comput. Softw. BigSci. 2 (), no. 1 3. arXiv preprint arXiv:1711.02633.
参赛方式
点击阅读原文链接或扫描下图中的二维码直达赛事页面,注册网站-下载数据,即可参赛。
友情提示:因涉及到数据下载,强烈建议大家登录 PC 页面报名参加。
智源人工智能系列竞赛
年 9 月,智源人工智能算法大赛正式启动。本次比赛由北京智源人工智能研究院主办,清华大学、北京大学、中科院计算所、旷视、知乎等协办,总奖金超过 100 万元,旨在以全球领先的科研数据集与算法竞赛为平台,选拔培育人工智能创新人才。
北京智源人工智能研究院院长、北京大学教授黄铁军介绍:智源的中心任务是在北京建成全球最优的人工智能创新生态,核心是选拔培育人工智能顶尖人才和发展潜力大的青年学术英才。研究院副院长刘江也表示:“我们希望不拘一格来支持人工智能真正的标志性突破,即使是本科生,如果真的是好苗子,我们也一定支持。”而人工智能大赛就是发现有潜力的年轻学者的重要途径。
本次智源人工智能算法大赛有两个重要的目的,一是通过发布数据集和数据竞赛的方式,推动基础研究的进展。特别是可以让计算机领域的学者参与到其它学科的基础科学研究中。二是可以通过比赛筛选、锻炼相关领域的人才。截止到目前,智源人工智能系列大赛已开展 5 场,分别涵盖了神经生物学、自然语言处理、机器视觉等领域。在年底前,智源研究院还将陆续发布 5 道赛题,敬请大家期待!
目前正在角逐的比赛:
智源-知乎看山杯专家算法发现大赛
/competition/zhihu/
智源-超高清晰电镜图像分割挑战赛 神经元识别大赛
/competition/urisc/
- 往期文章 -
如果觉得《智源「高能对撞粒子分类挑战赛」开启 品鉴宇宙粒子的独特味道》对你有帮助,请点赞、收藏,并留下你的观点哦!