AI Challenger设300万奖金打造“中国版ImageNet”,国内最大规模深度学习数据集上线

栏目: 编程工具 · 发布时间: 6年前

内容简介:人工智能产业中,数据、算法、计算能力是三大基石,其中,数据更是人工智能科研的最宝贵资产。对于需要运用机器学习作为其业务核心技术的创业团队来说,高质量的数据集就是竞争优势的重要保证。为了能让更多AI人才有机会拿到真实的数据,解决真实世界里的问题,今日,由创新工场、搜狗、美团点评、美图公司联合主办的“2018 AI Challenger全球AI挑战赛”正式开赛。“AI Challenger全球AI挑战赛”是面向全球人工智能人才的开源数据集和编程竞赛平台,也是目前国内规模最大的科研数据集平台、以及最大的非商业化

AI Challenger设300万奖金打造“中国版ImageNet”,国内最大规模深度学习数据集上线

【猎云网(微信:)北京】8月29日报道(文/吕梦)

人工智能产业中,数据、算法、计算能力是三大基石,其中,数据更是人工智能科研的最宝贵资产。对于需要运用机器学习作为其业务核心技术的创业团队来说,高质量的数据集就是竞争优势的重要保证。

为了能让更多AI人才有机会拿到真实的数据,解决真实世界里的问题,今日,由创新工场、搜狗、美团点评、美图公司联合主办的“2018 AI Challenger全球AI挑战赛”正式开赛。“AI Challenger全球AI挑战赛”是面向全球人工智能人才的开源数据集和编程竞赛平台,也是目前国内规模最大的科研数据集平台、以及最大的非商业化竞赛平台。

AI Challenger设300万奖金打造“中国版ImageNet”,国内最大规模深度学习数据集上线

在2017年的首届大赛中,AI Challenger发布了从百万到千万量级的4个数据集、6个兼具学术前沿性和产业应用价值的竞赛、以及超过200万人民币的奖金,吸引了来自全球65个国家的8892支团队参赛,成为目前国内规模最大的科研数据集平台、以及最大的非商业化竞赛平台。

本届赛制中,四家主办方投入千万元规模以上的资金,同时引入了更多企业、大学、政府机构合作。此外,还新增十余个全新高质量数据集,和十余个兼具科研、产业应用、社会意义的竞赛,以及超过300万人民币的奖金。

AI Challenger设300万奖金打造“中国版ImageNet”,国内最大规模深度学习数据集上线

创新工场人工智能工程院执行院长王咏刚

创新工场人工智能工程院执行院长王咏刚介绍了今年大赛的主题,他表示, 今年会突出数据集建设和问题设置方面与产业结合的特点,尽量让AI Challenger发布的数据能直接满足科研和产业的一线需求 。同时,AI Challenger也会尽量突出人才平台、人才社区、人才网络的建设,利用平台把全世界范围内的优秀人才聚集在一起。

本届大赛的主题是“用AI挑战真实世界的问题”,希望在数据集的建设上,既具有科研和学术上的前瞻性,也希望数据集能紧贴AI商业化、AI落地的实际场景、实际需求,从产业需要出发,为学术研究和AI人才培养提供方向性的建议,也反过来帮助产业界更好地利用最新的科研成果,解决真实世界的最有价值的问题。

数据集和赛道如下:

主赛道

观点型问题阅读理解竞赛:机器阅读理解是让机器读懂人类语言、和人类更好交流互动的重要领域。此技术可广泛应用于智能搜索、智能问答、智能客服、智能音箱、语音控制等场景,用AI实现基于文字、语音的人机智能互动。数据集包含30万问题、篇章与候选答案,是全球难度最大的中文观点型问题机器阅读理解数据集。

AI Challenger设300万奖金打造“中国版ImageNet”,国内最大规模深度学习数据集上线

细粒度用户评论情感分析竞赛:在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用,主要用于个性化推荐、智能搜索、产品反馈、业务安全等。数据集包含15万条餐饮用户评论、6大类20个细粒度要素标签,为业界最大。

AI Challenger设300万奖金打造“中国版ImageNet”,国内最大规模深度学习数据集上线

英中文本机器翻译竞赛:机器翻译正越来越成为人们跨越语言障碍的重要工具,应用于各种领域。数据集在2017年数据集的基础上,总量达到1300万句对,为业界最大;且其中具有上下文情景的中英双语数据达到300万句对,为机器翻译的研究提供了更多探索空间。

AI Challenger设300万奖金打造“中国版ImageNet”,国内最大规模深度学习数据集上线

短视频实时分类竞赛:近几年发展极快的短视频行业具有明显的娱乐性和流行性,深受人们喜爱;基于短视频机器分类的技术还可以广泛用于视频内容分析、编辑与生产,监控、安防等领域。数据集包含20万条短视频、涵盖63类流行元素,为业内首个多标签短视频分类数据集。

AI Challenger设300万奖金打造“中国版ImageNet”,国内最大规模深度学习数据集上线

无人驾驶视觉感知竞赛:自动驾驶技术即将改变我们的出行和生活方式。本次大赛的自动驾驶竞赛采用了UC Berkeley DeepDrive(BDD)2018年最新发布的BDD 100K数据集,这是全世界最庞大、最复杂的自动驾驶数据集,包含原始图片1.2亿张、标注图片10万张,涵盖多样天气和昼夜光照条件。

AI Challenger设300万奖金打造“中国版ImageNet”,国内最大规模深度学习数据集上线

除5个主赛道之外,AI Challenger 2018还开放5个实验赛道竞赛和相应的数据集:

实验赛道:

1.天气预报竞赛:气象要素的变化深刻影响着人类生活的方方面面。我们带来北京气象要素数据集,包含10个站点、3年多逐小时历史“观测”和“睿图”资料,探索以AI提高天气预报的准确性。

2.农作物病害检测竞赛:2016年农作物病害造成的直接损失占我国农业生产总值的8.48%。我们发起世界上首个农作物病害检测竞赛,标注图片50,000张、包含10种植物的27种病害,探索“AI植物医生”。

3.眼底水肿病变区域自动分割竞赛:我们发起国内首个眼底病变医学图像检测竞赛,建立了目前最大的眼底病变数据集,包含由专业眼科医生标注了三种类型水肿的、各含128张图片的100个OCT体数据。

4.商品实例分割迁移学习竞赛:以3D虚拟图像训练机器“认识”真实世界的物品,能极大降低标注成本、也是新兴研究热点。数据集包含不同场景的100个类日常生活用品的30,000张虚拟图片和9,000张真实照片。

5.零样本学习竞赛:受人类学习能力的启发,零样本学习希望借助辅助知识学习从未见过的新概念。本此竞赛是首个国际性零样本学习竞赛,数据集包含78,017张图片、230个类别、359种属性。

AI Challenger设300万奖金打造“中国版ImageNet”,国内最大规模深度学习数据集上线

作为此次比赛的联合主办方,搜狗CEO王小川表示,搜狗带来的数据集是超过30万问题和答案标注的数据,由于搜狗每天都有数亿用户在使用,所以有规模最大的带有观点的中文数据。翻译方面,搜狗有1300万对语料,且进行了很好的标注,准确率超过97%,同时还给出了300万对具有上下文情景的中英双语数据,也是历史最大的语料集。

AI Challenger设300万奖金打造“中国版ImageNet”,国内最大规模深度学习数据集上线

美团则在今年支持了两个赛道,美团点评CTO罗道锋介绍,一个是细粒度用户评价情感分析,美团今年贡献了15万条的用户评论数据集用来做细粒度情感分析。第二个赛道是无人驾驶视觉感知,目前,美团正在研发无人配送机器人,此次支持的是BDD的无人驾驶的数据集,包括原始图片1.2亿张,标注图片10万张。

“在今年的五个主赛道里,有三个是NLP(自然语言处理)领域的,两个计算机视觉领域的。NLP领域是现在人工智能方面进展比较慢的领域,让机器真正理解文字的含义,相比较机器认识猫狗要困难的多,是非常有挑战性的项目。另外两个赛道,短视频理解和无人驾驶也是在视觉领域比较前沿比较困难的任务。所以这五个赛道设置都是瞄准现在AI应用里面还没有取得很好突破的技术”。

自今日开赛后,12月18、19日进行竞赛的总决赛答辩和颁奖。AI Challenger 2018的竞赛主要分为三个阶段:

  • 第一阶段比赛从2018年8月29日至11月4日,参赛队基于训练集、验证集、测试集A,进行算法设计、模型训练及评估,并提交预测结果,系统会按照评测指标实时反馈分数,并更新榜单排名。个别竞赛采取参赛队提交代码、 docker 的形式进行比赛。期间进行双周赛排名和评奖。

  • 第二阶段比赛从2018年11月6至8日,开放测试集B;各竞赛提交结果的时限不同。结果提交后即进入评分、排名、代码验证环节,个别比赛还将考察参赛队的算法运行效率。参赛选手在测试集B上的预测结果表现,将作为进入决赛的排名依据。

  • 第三阶段于12月18、19日进行竞赛的总决赛答辩。

实验赛道数据集和竞赛将持续建设,并不定期开放新内容。


以上所述就是小编给大家介绍的《AI Challenger设300万奖金打造“中国版ImageNet”,国内最大规模深度学习数据集上线》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

数据挖掘

数据挖掘

(美)Jiawei Han、(加)Micheline Kamber、(加)Jian Pei / 范明、孟小峰 / 机械工业出版社 / 2012-8 / 79.00元

数据挖掘领域最具里程碑意义的经典著作 完整全面阐述该领域的重要知识和技术创新 这是一本数据挖掘和知识发现的优秀教材,结构合理、条理清晰。本书既保留了相当篇幅讲述数据挖掘的基本概念和方法,又增加了若干章节介绍数据挖掘领域最新的技术和发展,因此既适合初学者学习又适合专业人员和实践者参考。本书视角广阔、资料翔实、内容全面,能够为有意深入研究相关技术的读者提供足够的参考和支持。总之, 强烈推荐......一起来看看 《数据挖掘》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

在线进制转换器
在线进制转换器

各进制数互转换器

随机密码生成器
随机密码生成器

多种字符组合密码