内容简介:#Response Generation
@hauturier 推荐
#Dialog Systems
本文是一篇来自微软和 Google Brain 的 对话系统综述文章 ,论文针对问答型、任务型和聊天机器人这三类对话系统,回顾了各自当前最优的方法,并将它们与传统方法加以结合。
@paperweekly 推荐
#Response Generation
本文来自阿尔伯塔大学。Seq2Seq 模型在提高会话代理性能方面取得了重大突破,它虽然能生成句法良好的回复,但回复缺乏对上下文的感知及多样性,大部分都是没有营养的通用回复。
针对该问题, 本文提出了一个完全数据驱动的神经交互模型THRED,通过层次化的联合 attention 机制,在回复生成中利用对话历史和主题信息,使对话更加多样化。 此外,论文还引入了两种新的自动化评价指标:语义相似度和回复回声指数。实验表明,本文模型能产生更具多样性并且上下文相关的回复。
源码链接: https://github.com/nouhadziri/THRED
@zkt18 推荐
#Question Answering
本文是北京大学、腾讯和中科院发表于 AAAI 2019 的工作。Answer Selection 和 KBQA 是 QA 中的两个重要任务,现有方法通常会将二者分开做。 论文使用 multi-task 将二者同时进行,提出了新颖的 multi-view attention 多任务模型。 首先,两个任务都可视为 ranking 任务,一个在 text-level,另一个在 knowledge-level;其次两个任务可以互相提升,一个利用上下文信息,一个利用外部信息。
@paperweekly推荐
#Machine Comprehension
本文是浙江大学发表于 NeurIPS 2018 的工作。机器理解是 NLP 中一个非常重要的任务, 论文提出了一个用机器理解作为补充结构来提升端到端生成任务表现的模型。 作者将机器理解任务中的编码器和模型层作为迁移对象,将其用于 Seq2Seq 模型编码和解码阶段来提升 Seq2Seq 的生成效果,让生成过程可以对语义进行更深层次的理解。
论文链接: https://www.paperweekly.site/papers/2693
@paperweekly 推荐
#Sentiment Classification
本文是香港科技大学杨强组发表于 AAAI 2019 的工作, 该文提出了一个新的跨 aspect 粒度的迁移问题 ,从更容易获取大量标签数据的粗粒度的aspect类别任务迁移到数据匮乏的细粒度 aspect 实体任务。
在该问题设置中,需要同时解决任务间 aspect 粒度差异与领域特征分布差异的问题。 论文模型提出了一个自监督的由粗到细的注意力模块来减少任务间粒度的差异 ,并且采用了对比特征对齐方法来语义上的对齐 aspect 特定的特征表达。
实验结果表明,通过利用源 aspect 类别任务提炼出的有用知识,即使对于目标 aspect 实体任务采用简单 attention-based RNN 模型也能取得优秀的性能。并且该论文提供了用于迁移的,大规模,多领域,aspect 类别的语料。
论文链接: https://www.paperweekly.site/papers/2717
@guohao916 推荐
#Conversational Question Answering
本文来自微软, 论文作者提出了一种全新的基于上下文注意力机制的深度神经网络模型 SDNet 以解决对话问答任务。 通过利用内部注意力机制和自注意力机制,对篇章和对话内容历史信息进行建模从而理解对话流程。
作者融合了 NLP 上的最新的突破性模型BERT,并且在该预训练模型的基础上进行改进微调。实验结果表明,SDNet 取得了好于之前一系列模型的结果。在 CoQA 数据集上,F1 指标上相比于最新模型提升了 1.6%。
论文链接: https://www.paperweekly.site/papers/2628
@IndexFziQ 推荐
#Language Model
本文是 Samuel R. Bowman 等人的最新工作, 论文关注的是语境化词语表示问题 。最近的一些预训练语言模型的工作(ELMo、BERT等)表明,预训练句子编码器可以在 NLP 任务上获得非常强的性能。
然而,每篇论文都使用自己的评估方法,不清楚哪个预训练任务最有效,或者是否可以有效地组合多个预训练任务。并且,在句子到向量编码的相关设置中,使用多个标注数据集的多任务学习已经产生了鲁棒的当前最佳结果,也不清楚是不是多任务学习的作用。
本文根据 GLUE基准测试中的 9 个语言理解任务,评估了由不同的预训练任务和这些任务的几种组合而成训练可重用的 Sentence Encoder。 实验结果表明语言建模是其中最有效的一个预训练任务,多任务学习可以进一步提高模型效果。
然而, ELMo 预训练也存在脆弱性和限制: 1)在一些任务上,ELMo 的效果并不是很明显;2)可能对特定的任务 ELMo 才会很有效果,并且现有的多任务学习方法也无法提高句子编码器的泛化能力致通用的地步。
论文链接: https://www.paperweekly.site/papers/2728
源码链接: https://github.com/jsalt18-sentence-repl/jiant
@paperweekly 推荐
#Object Detection
本文是旷视科技和复旦大学发表于 NeurIPS 2018 的工作。近年来,深度神经网络对于目标检测任务的提升取得了巨大突破。通常做法是运用目标检测算法为一张给定图像生成一系列边界框,同时分类标注每个目标。但对于卷积神经网络而言,直接无序生成任意数量的预测框并非无足轻重,Anchor 的思想也正因此应运而生,并在目标检测任务上得到广泛应用。
本文提出了一个全新灵活的锚点框机制 MetaAnchor,其锚点框函数可由任意自定义的先验框动态生成。加上权重预测,MetaAnchor 可与大多数基于锚点框的目标检测系统(如当前最优的单步检测器 RetinaNet)协同工作。相较于预定义锚点框方法,实验证明 MetaAnchor 对于锚点框设置和边界框分布更为鲁棒,并在迁移任务上深具潜力。
论文链接: https://www.paperweekly.site/papers/2670
@QAQ 推荐
#Data Augmentation
本文来自 Google Brain,论文关注的问题是图像领域的数据增强。 作者提出了一种名为 AutoAugment 的自动数据增强的方法,可以有效降低误差率。 实验表明,本文方法在 CIFAR-10、CIFAR-100、SVHN 和 ImageNet 上实现了最先进的准确率(无需额外数据)。此外,本文方法还可以直接迁移到其他数据集上而无需进行微调。
论文链接: https://www.paperweekly.site/papers/2706
源码链接: https://github.com/tensorflow/models/tree/master/research/autoaugment
@zl1994 推荐
#Object Detection
本文来自 UIUC 和IBM, 论文重点解决目标检测中分类错误的问题 。作者指出了当前目标检测框架对于目标分类任务存在的三个问题:1. 分类分支和回归分支共享特征不是最优的;2.多任务训练也不是最优的;3.对于小目标来说,大的感受野会导致小目标冗余的 context。 论文主要思路是对分类和回归这两大任务解耦,并借鉴 R-CNN 中的机制使得不同大小的目标有自适应的 context 信息。
论文链接: https://www.paperweekly.site/papers/2688
源码链接: https://github.com/bowenc0221/Decoupled-Classification-Refinement
@paperweekly 推荐
#Image Classification
本文是东京大学发表于 CVPR 2018 的工作, 论文尝试将在音频上的方法应用于图像领域,并提出了一种将图像作为波形处理的混合方法。 具体来说,作者认为人类无法识别图形波长融合,但这些信息对机器而言却是有意义的。CNN 有将输入数据作为波形处理的操作,作者提出的 BC Learning 方法是将两个不同类的图像进行混合,然后训练模型输出混合比,靠近哪个就分为哪类。
@Kralkatorrik 推荐
#Face Recognition
本文提出了一个轻量级的网络来做人脸识别 , 比 MobileFaceNet 的 size 大一倍, 精度提高一些。主要看文章设计网络思路,作者使用 BottleNeck 和快速降采样策略减少参数量,从而使这个网络能够运行在移动设备上。
论文链接:https://www.paperweekly.site/papers/2710
@vimjian 推荐
#Pose Estimation
本文来自浙江大学, 论文研究的问题是基于 RGB 的姿态估计,作者引入一个逐像素投票的网络来定位 2D keypoints。 本文方法在 LINEMOD、Occlusion LINEMOD 和 YCBVideo 数据集上均取得了 SOTA 结果。
论文链接: https://www.paperweekly.site/papers/2739
@IndexFziQ 推荐
#Multi-task Learning
这是一篇来自爱尔兰学者 Ruder 的综述文章。 论文整理了 Multi-task Learning 的相关工作,重点介绍在深度学习上的应用。 多任务学习在很多任务上都可以获得比较不错的效果,如何选择合适的辅助任务帮助主任务获得更好的效果也是值得关注的地方。
@Yerrick推荐
#Learning to Rank
本文是 Google 发表于 CIKM 2018 的工作, 论文形式化地将 Learning to Rank 领域经典的 LambdaMart 方法的 loss 表示出来,并提出了对于 NDCG 更紧的 bound,能够更好地在训练时提升 NDCG。 同时基于他们的方法可以设计更多基于 Listwise 的 metric 直接进行优化。推导并不特别复杂,很有启发意义。方法也被TensorFlow/ranking所实现。
论文链接: https://www.paperweekly.site/papers/2667
@NeoTheSunshine推荐
#Graph Neural Networks
本文是麻省理工和斯坦福发表于 ICLR 2019 的工作, 论文证明了 GNNs 至多可以和 WL test 在区分图结构方面同样有效。 此外,作者还证明了 GNN 和 WL test 同样有效情况下的对 neighbor aggregation 和 graph pooling functions 的条件,并且提出一种简洁但有效的模型架构 GIN。
论文链接: https://www.paperweekly.site/papers/2730
@figo推荐
#Neural Architecture Search
本文来自小米AI,内容上属于目前很火的 AutoML Neural Architecture Search。 这篇论文提出了 MoreMNAS 算法,应该是多目标(EA-NSGAII)+强化学习NAS 的首篇论文。 论文的初步试验,已经击败了 SRCNN、FSRCNN、VDSR 等单帧超分辨率领域知名网络(应该是截止到 CVPR 2016 的成果)。
论文的想法是比较巧妙的,采用 NSGAII 作为主框架,解决强化学习由于超参、算法等导致的可能的衰退问题,同时采用强化学习变异可以更好的利用学习的经验,二者相互补充,使得方法的鲁棒性有保证。另外强化学习只用来解决那些不容易解决的目标例如超分的 PSNR,对于其他可以提前计算的目标,则用了 Roulette-wheel selection。
论文中的搜索空间直接采用 cell-block,看起来效果也不错,比较自然地完成 Cross Over 和 Natural Mutation 环节。另外,论文解决的实际上是带约束的 MOP 问题,并对最低的 PSNR 进行了约束,以保证模型的业务可用性。
实验结果是基于一台 8GPU 机器完成(V100,1 周),实乃深度学习炼丹师的福音,对于不少公司而言,这个配置是现成的。总体这种方法有一定的通用性,感兴趣的读者可以用来试水其他领域。遗憾的是该论文没有公开源码。
论文链接: https://www.paperweekly.site/papers/2740
@paperweekly推荐
#Click-Through Rate Prediction
本文是阿里巴巴发表于 AAAI 2019 的工作, 作者提出了一种由兴趣抽取和兴趣演化两个模块共同组成的 CTR 预估模型——DIEN。 论文亮点在于作者关注隐藏在用户行为背后的潜在兴趣特征的挖掘和表示(GRU + auxiliary loss)。
淘宝平台上商品种类繁多,用户兴趣具有多样性。预测时,仅仅捕获与目标商品相关的兴趣及其演变(AUGRU)。该算法被应用于阿里妈妈定向广告各大产品中,在DIN的基础上取得了非常显著的效果提高。
论文链接: https://www.paperweekly.site/papers/2692
源码链接: https://github.com/alibaba/x-deeplearning/tree/master/xdl-algorithm-solution/DIEN
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 高防服务器如何挑选?
- 干货 | 三分钟带你挑选专属负载均衡
- 数据到文本生成的近期优质论文,我们为你挑选了这六篇
- Python 依赖库管理哪家强?pip、pipreqs、pigar、pip-tools、pipdeptree 任君挑选
- GraphQL 值得了解一下
- 考研,值得吗?
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。