内容简介:来源 | 谷歌开发者公众号文 / Tulsee Doshi, Google AI 产品经理发布大型的、对公众开放的图像数据集(如 ImageNet,Open Images 和 Conceptual Captions),是推动计算机视觉领域巨大进步的因素之一。 虽然这些数据集是开发实用的机器学习(ML)模型的一个极其重要的部分,但是我们已经发现,有些开源数据集在收集方式上存在地理上的偏移。因为数据集的形状告诉我们 ML 模型的学习内容,但如果有些地理区域的数据的代表数不足,低于一定比例,这种偏差可能会导致研
来源 | 谷歌开发者公众号
文 / Tulsee Doshi, Google AI 产品经理
发布大型的、对公众开放的图像数据集(如 ImageNet,Open Images 和 Conceptual Captions),是推动计算机视觉领域巨大进步的因素之一。 虽然这些数据集是开发实用的机器学习(ML)模型的一个极其重要的部分,但是我们已经发现,有些开源数据集在收集方式上存在地理上的偏移。因为数据集的形状告诉我们 ML 模型的学习内容,但如果有些地理区域的数据的代表数不足,低于一定比例,这种偏差可能会导致研究团体在无意中开发出一些绘制图像表现较差的模型。 例如,以下图像显示在 Open Images 数据集上训练的一个标准开源图像分类器,但是由于世界各地的婚礼习俗五花八门,该分类器就无法将 “婚礼” 相关的标签准确无误地标注上去。
注:在地理上的偏移链接
婚礼照片(由 Google 员工捐赠),由 Open Images 数据集上训练的分类器进行标记。 分类器的标签预测记录在每个图像下方
尽管 Google 正致力于构建更具代表性的数据集,但我们仍想鼓励人们在该领域进行更多的研究,以便在数据源并不完善的情况下,机器学习方法可以更强劲,并兼具包容性。 这是一项重要的研究挑战,在目前创建的机器学习模型方式方法上,推动我们不断突破向前发展。良好的解决方案将有助于确保即使在某些数据源不完全包容的情况之下,也依旧可以利用它们来开发模型。
为了支持这项工作,并促进具有包容性的 ML 模型的进一步发展,我们很高兴地宣布在 Kaggle 上举办包容性图像竞赛。 该项竞赛与 Conference on Neural Information Processing Systems Competition Track(神经信息处理系统竞赛轨道会议)合作,鼓励参赛者使用 Open Images,这是一个大型的,多标签的,公开的图像分类数据集,主要在北美和欧洲进行采样,训练模型对从全球不同地区采集来的图像进行评估。
注:Kaggle 上举办包容性图像竞赛链接
神经信息处理系统竞赛轨道会议链接
Open Images 链接
本次比赛中的三种地理分布的数据。 参赛者将在 Open Images 上训练他们的模型,Open Images 是一种广泛使用的公共可用的图像分类基准数据集,取材主要来自北美和西欧。首先在竞赛第一阶段中对模型进行评估,之后在竞赛第二阶段中再次评估模型,每个模型具有不同的地理分布,但并不披露。 通过这种方式,对模型进行压力测试,使其能够在训练数据外进行包容
我们通过 Crowdsource 项目创建了两个 Challenge 数据集进行模型评估,里面邀请了世界各地的志愿者参与贡献周边环境的照片。 我们希望这些由 Google 全球社区捐赠而建立的数据集将为本次竞赛提供具有挑战性的基于地理位置的压力测试。 我们还计划在比赛结束时发布更多的图像,提供更多的包容数据,来进一步鼓励包容性发展。
注:Crowdsource 项目链接
来自 Challenge 数据集标记图像的示例。 按左上方顺时针方向,来自 Peter Tester,Mukesh Kumhar,HeeYoung Moon,Sudipta Pramanik,jaturan amnatbuddee,Tomi Familoni 和 Anu Subhi 捐赠的图像
包容性图像竞赛于 9 月 5 日正式启动,提供可用的培训数据和第一阶段挑战的数据集。 提交结果的截止日期为 11 月 5 日星期一,测试集将于 11 月 6 日星期二发布。 欲知详情以及时间表,请访问包容性图像竞赛网站。
注:包容性图像竞赛网站链接
比赛结果将在 2018 Conference on Neural Information Processing Systems(2018 年神经信息处理系统会议)上公布,我们将为排名靠前的参赛者提供旅行补助金,帮助他们来参加会议(详情请见本页)。 我们期待成为社区开发更具包容性的全球图像分类算法的一份子!
注:详情请见本页链接
鸣谢
在这里我们要感谢以下人士,感谢他们为实现包容性图像比赛和数据集作出的不懈努力:James Atwood,Pallavi Baljekar,Parker Barnes,Anurag Batra,Eric Breck,Peggy Chi,Tulsee Doshi,Julia Elliott,Gursheesh Kour,Akshay Gaur,Yoni Halpern ,Henry Jicha,Matthew Long,Jigyasa Saxena 和 D. Sculley。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 谷歌发起包容性竞赛 纠正算法的偏见
- 竞赛推荐 | ChinaMM2019 竞赛-1:水下图像增强
- 试试 kaggle 竞赛:辨别猫狗
- 进入 kaggle 竞赛前 2% 的秘诀
- 军备竞赛:DDoS攻击防护体系构建
- 使用 RapidMiner 参加 Kaggle Titanic 竞赛
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Python机器学习
[美] Michael Bowles / 沙嬴、李鹏 / 人民邮电出版社 / 2016-12 / 69.00元
在学习和研究机器学习的时候,面临令人眼花缭乱的算法,机器学习新手往往会不知 所措。本书从算法和Python 语言实现的角度,帮助读者认识机器学习。 书专注于两类核心的“算法族”,即惩罚线性回归和集成方法,并通过代码实例来 展示所讨论的算法的使用原则。全书共分为7 章,详细讨论了预测模型的两类核心算法、预测模型的构建、惩罚线性回归和集成方法的具体应用和实现。 本书主要针对想提......一起来看看 《Python机器学习》 这本书的介绍吧!