背景介绍
随着过去几年深度学习的飞速发展,由大数据驱动的深度学习已经面临瓶颈,对知识的理解和推理能力的需求已经成为人工智能领域迫在眉睫的任务。作为人类知识最为富集的领域,理解和推动科技行业的进步对人工智能技术提出了更高的要求。如果可以搭建智能模型,对科技信息中的信息和知识进行提取、理解和分析,不仅能让我们更高效地利用海量的科技信息,还能在人工智能技术自身的领域获得突破。
本次比赛的数据来自国内顶尖的科技信息情报分析引擎AMiner。AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家和地区的800多万独立IP访问,数据下载量230万次,年度访问量超过1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。
竞赛协议
2021未来杯高校AI挑战赛 选手报名协议
报名与组队
- 全部参赛选手必须在大赛官网成功注册并参与报名后才能视为有效参赛资格。
- 除赛季当期的高校在校生外,自报名正式开启之日起,毕业不超过1年的前学生,也有资格参与2021赛季的竞赛角逐。申请实名认证时,选手需要根据自身实际情况,选择认证类型为“在校学生”或“社会人员”
- 成功参加比赛后,每位选手需自行组队或加入其它已有战队,组队时需拟定不超过8个中文字的名称,队伍名称应符合国家有关法令法规的要求。
- 组队成功后,可向其他注册用户发送邀请链接,对方通过邀请链接,可提交入队申请,队长审批后,将组队成功
- 每支队伍至少应包含1名队长及0~4名队员,即每支队伍最多不得超过5名(含)成员。
- 在报名截止期前,队长可根据自身情况,随时解散重组或变更组员,报名截止后,没有特殊情况,系统将不支持队伍拆分、变更队员/队长,或者解散等操作,请各位选手在有效期内慎重考虑。
奖项设置
- 现金奖励(前10名): 总奖金:100,000元
- 决赛冠军团队(第一名):30,000元
- 决赛亚军团队(第二名):20,000元
- 决赛季军团队(第三名):15,000元
- 决赛优秀团队(第四名~第十名):5,000元
- 实践机会:
比赛排名前30名的团队,将获得:
1). 北京智源人工智能研究院技术面试直通资格
【北京智源人工智能研究院】
是在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府于2018年11月推动成立的新型研发机构。智源研究院的愿景是,聚焦原始创新和核心技术,建立自由探索与目标导向相结合的科研体制。支持科学家勇闯人工智能科技前沿“无人区”,挑战最基础的问题和最关键的难题,推动人工智能理论、方法、工具、系统和应用取得变革性、颠覆性突破。营造全球最佳的学术和技术创新生态,推动北京成为全球人工智能学术思想、基础理论、顶尖人才、企业创新和发展政策的源头,率先成为国际领先的人工智能创新中心。推动人工智能产业发展和深度应用,改变人类社会生活,促进人类、环境和智能的可持续发展。
2). 获奖团队人员如有华为NAIE部门入职/实习倾向,简历可直接内部投递,可作为重点面试者给与辅导,技术一面获加分权益(实习招聘时间段需自行关注华为招聘官网的招聘信息,在招聘期内联系内投简历)
【华为网络人工智能引擎iMaster NAIE】
是自动驾驶网络的网络AI设计和开发基础平台,支持对上传到云端的各种网络数据,持续进行AI训练和知识提取生成AI模型和网络知识成果,并可注入到网络基础设施、网络管控单元和跨域智能运维单元中,让网络更好用,越用越智能。也是运营商智力资产共享中心,统一管理各种AI模型和网络知识等成果,充分共享和重复使用,减少重复开发和训练。NAIE主要包含数据服务、训练服务、AIOps服务、RPA服务、网图服务,以云服务的方式,向运营商和第三方业务应用开发者提供各项AI服务,降低AI应用开发的门槛。让网络AI开发更简单、应用更高效,使能自动驾驶网络!
- 获奖证书:
比赛排名前50名的团队,将获得由主办方颁发的获奖证书。
赛事社区
- 找到自己志同道合的队友,一起参赛
成团链接:http://steertech.cn/#/community/detail?towntalk_id=13
赛事交流
添加大赛小助手(微信号:futurelab001),发送数字“1”加入【2021未来杯AI技术挑战赛报名交流群】,群内可以进行参赛问题解答、组队邀约、选手交流等
最新大赛资讯,请关注官方公众号【AI学习社】

全程战略合作伙伴

赛题题目:探索科技未来
比赛任务
本次比赛使用AMiner数据提供的数据集。提供的数据集包括了论文-专家数据集,选手需利用此数据集进行offline的模型训练。此外,本次比赛还提供了论文属性信息和专家属性信息,包括6万篇学术文献信息,包含标题,摘要,关键词信息等,50万名“公开专家”数据集包含50万的学者画像信息,信息包括姓名,研究兴趣,学术指标信息,论文等。选手可根据需要将属性信息作为feature应用到模型训练中。选手需要根据数据库中的信息,搭建模型预测对文章感兴趣的学者。例如,通过模型,可以预测该论文会吸引哪些学者的阅读兴趣。
数据介绍
本次比赛使用AMiner数据开放计划的“公开论文”和“公开专家”数据集。
1.论文-专家数据集
1)字段定义
- id:唯一标识文献的标识符
- experts:正例评审专家id集合
2) 数据示例
{
"id":"5e3fd866df1a9c0c41ecef77",
"experts":[
"5c924c3e530c70b92f87e013",
"53f42828dabfaeb22f3ce756",
...
]
}
2.论文信息
1)字段定义
- id:唯一标识文献的标识符
- title:文档的描述性标题
- abstract:描述文献研究内容、方法、结果等内容的英文文本,通常为一段自然语言内容
- abstract_zh:描述文献研究内容、方法、结果等内容的中文文本,通常为一段自然语言内容。
- keywords:文献作者人工提供的 4-5 个英文关键词(组)
- keywords_zh:文献作者人工提供的 4-5 个中文关键词(组)
- year:论文发表的年份
2) 数据示例
{
"id":"5e3fd866df1a9c0c41ecef77",
"title":"Introduction to Purinergic Signalling in the Brain.",
"abstract":"ATP is a cotransmitter with glutamate, noradrenaline...",
"abstract_zh":"ATP 与谷氨酸、去甲肾上腺素共同传递...",
"keywords":["ATP","Adenosine"],
"keywords_zh":["三磷酸腺苷"],
"year":2019
}
3.专家信息
1)字段定义
- id:唯一标识专家的标识符
- name:英文专家姓名
- name_zh:中文专家姓名
- interests:专家自己提供的若干描述其研究领域的关键词(组), 其中 t 为关键词, w 为在论文中出现次数
- tags:专家标签,格式同 interests,若 interests 为空,可替代之
- 学术指标:H 指数,论文发表数量,总引用数等指标。
- pub_info:专家历史上发表的若干论文或科研项目,每条成果信息均包含标题、摘要、引用量、发表年份等。
2) 数据示例
{
"id":"5c924c3e530c70b92f87e013",
"name":"Feng Shao",
"name_zh":"邵峰",
"pub_info":[
{
"id" : "5c0f9172da562944aca98035",
"n_citation" : 1,
"year" : 2018,
"title" : "The Mitochondrial Apoptotic Effectors BAX/BAK Activate Caspase-3 and -7 to Trigger NLRP3 Inflammasome and Caspase-8 Driven IL-1β Activation.",
"abstract" : "Intrinsic apoptosis resulting from BAX...",
"abstract_zh":"中文摘要",
"keywords" : [
"BAK",
"BAX",
"BCL-XL",
],
"keywords_zh" : [
"中文关键词"
],
}
],
}
评价指标
TP:label为1且预测为1的样本数,FP:标签为0但预测为1的样本数,FN:标签为1但预测为0的样本数。
- 精确度(precision):TP/(TP+FP)
- 召回率(recall):TP/(TP+FN)=TP/T
- F1-score=2×(precision×recall)/(precision+recall)
最终的评分将以平均F1-score进行评价:
对每一篇论文
F1-score=2×(precision×recall)/(precision+recall)
设数据集一共有n篇论文,则最终得分

如果出现异队同分的结果,则按照以下次序进行排位:
-
提交次数更少的队伍获胜;
-
如果两个队伍最高分和提交次数都相同,则更早得到最高分的队伍获胜。
验证集提交规则
-
参赛队伍可在开放报名期间随时上传验证集的预测结果,每天有5次提交机会。排行榜会根据选手提交后得到的最高分数实时显示排名。
-
队伍解散后,之前提交的成绩同时全部作废。
使用华为NAIE模型训练
https://www.hwtelcloud.com/competitions/2021-university-ai-challenge-tech
其他规则
-
本次比赛仅允许使用公开的预训练模型。
-
本次比赛不允许使用外部标注数据。
-
参赛选手只能通过比赛指定讨论区公开代码。私下分享代码将被视为违规行为。
-
参赛作品必须保证原创性,不违反任何中华人民共和国的有关法律,不侵犯任何第三方知识产权或者其他权利;一经发现或经权利人提出并查证,主办方将取消其比赛成绩并进行严肃处理。