29篇盘算机视觉领域论文,篇篇惊艳!内附链接
作者:leye乐鱼娱乐app 发布时间:2021-11-25 01:18
本文摘要:作者 | 微软亚洲研究院本文经授权转载自微软研究院AI头条(ID:MSRAsia)1. Deep High-Resolution Representation Learning for Human Pose Estimation论文链接:https://arxiv.org/pdf/1902.09212.pdf该论文在提出了一个新的网络High-Resolution Network (HRNet),可以学到空间精度高语义强的高分辨率表。

leyu乐鱼全站app

作者 | 微软亚洲研究院本文经授权转载自微软研究院AI头条(ID:MSRAsia)1. Deep High-Resolution Representation Learning for Human Pose Estimation论文链接:https://arxiv.org/pdf/1902.09212.pdf该论文在提出了一个新的网络High-Resolution Network (HRNet),可以学到空间精度高语义强的高分辨率表。该网络设计的差别于其他主流网络的有两大关键点:一直保持高分辨率表征;并联差别分辨率的卷积分支。

在人体骨架点检测以及目的检测、图像语义支解、人脸 关键点检测等视觉问题上取得了领先的效果,被同行广泛接受和使用。该论文揭晓在CVPR 2019。

开源地址:https://github.com/HRNethttps://github.com/leoxiaobin/deep-high-resolution-net.pytorch2. VL-BERT: Pre-training of Generic Visual-Linguistic Representations论文链接:https://arxiv.org/pdf/1908.08530.pdf该文揭晓于ICLR 2020,是最早提出图像和文本团结预训练模型的论文之一。研究员提出了一种新的通用的多模态预训练模型VL-BERT,该模型接纳简朴而强大的Transformer模型作为主干网络,并将其输入扩展为同时包罗视觉与语言输入的多模态形式,适用于绝大多数视觉语义下游任务。为了让VL-BERT模型使用更为通用的特征表现,研究员在大规模图片形貌生成数据集Conceptual Captions中举行VL-BERT的预训练,实验证明此预训练历程可以显著提高下游的视觉语义任务的效果,包罗视觉知识推理、视觉问答与引用表达式明白等。3. A Relation Network Based Approach to Curved Text Detection论文链接:https://icdar2019.org/list-of-accepted-papers/该论文创新地提出了一套基于关系网络(Relation Network)的新型文字检测框架,有效提升了通用文本行检测的准确率。

该论文揭晓在ICDAR 2019会上。4. An Anchor-free Region Proposal Network for Faster R-CNN-based Text Detection Approaches论文链接:https://www.springerprofessional.de/en/an-anchor-free-region-proposal-network-for-faster-r-cnn-based-te/17013452该论文提出了一种称为anchor-free RPN的物体检测算法来解决经典RPN算法无法有效预测任意偏向文本框的问题。该算法不仅在单词级此外文字检测任务上取得很好的效果,而且类似思想在当前物体检测领域也成为主流。该论文揭晓在IJDAR期刊上。

5. Scalable Training of Deep Learning Machines by Incremental Block Training with Intra-Block Parallel Optimization and Blockwise Model-Update Filtering论文链接:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/08/0005880.pdf该论文提出了一种通用漫衍式优化算法,在增量式学习框架内引入逐块模型更新滤波(BMUF)算法,在线性加速深度学习模型训练的同时,保持模型的准确率。该论文揭晓在ICASSP 2016会上。6. Compressing CNN-DBLSTM Models for OCR with Teacher-Student Learning and Tucker Decomposition论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0031320319302547该论文提出了一种针对CNN-DBLSTM模型中运算价格最大的CNN部门举行压缩加速的方法,即首先在LSTM部门的指导下,对CNN部门举行知识蒸馏,然后使用Tucker剖析算法,对CNN举行进一步压缩和加速,由此获得的模型运行时相比原始模型加速14倍,解决了部署难题。

该论文揭晓在Pattern Recognition期刊上。7. An Open Vocabulary OCR System with Hybrid Word-Subword Language Models论文链接:https://ieeexplore.ieee.org/abstract/document/8270022该论文提出了一种以词与子词为基本语言单元的混淆语言模型,来解决光学字符识别(OCR)中的集外词(Out of Vocabulary, OOV)问题。该论文揭晓在ICDAR 2017 会上。

8. Relation Networks for Object Detection论文链接:https://arxiv.org/pdf/1711.11575.pdf在CVPR 2018上,该论文提出了一种即插即用的物体关系模块,第一次实现了完全端到端的物体检测器,该方法也是自注意力模型在视觉领域最早的应用之一。9. Learning Region Features for Object Detection论文链接:https://arxiv.org/pdf/1803.07066.pdf在ECCV 2018上,该论文给出了区域特征提取的通用表达式,并提出了一个完全可学习的区域特征提取方法。

10. Local Relation Networks for Image Recognition论文链接:https://arxiv.org/pdf/1904.11491.pdf在ICCV 2019上,该论文提出了一种新的完全无需卷积的神经网络,在ImageNet图像分类基准数据集上取得了逾越卷积神经网络的准确率。11. GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond论文链接:https://arxiv.org/pdf/1904.11492.pdf在ICCVW 2019上,该论文改变了学界对于盛行的非局部网络事情机制的认识,并提出了一个新的高效的全局关系网络。

12. An Empirical Study of Spatial Attention Mechanisms in Deep Networks论文链接:https://arxiv.org/pdf/1904.05873.pdf在ICCV 2019上,研究员提出了一种关于空间注意力机制的通用表达形式,并分析了这一通用表达形式中差别的表达项在种种视觉任务上的体现,为以后空间注意力机制的应用提供参考。13. Deep Metric Transfer for Label Propagation with Limited Annotated Data论文链接:https://arxiv.org/pdf/1812.08781.pdf该论文提出了一种新的半监视学习/迁移学习/小样本学习范式,该范式的焦点是使用无监视预训练方法来获得初始图像特征,其在半监视学习上取得近20%(绝对值)的准确率提升,文章揭晓在ICCVW 2019上。14. Deformable ConvNets v2: More Deformable, Better Results论文链接:https://arxiv.org/pdf/1811.11168.pdf在CVPR 2019上,该论文提出了更强的可变形卷积网络,相比尺度卷积其能广泛且显著提升种种视觉感知任务的准确率,包罗图像分类,物体检测,语义支解,物体跟踪等等,例如在COCO物体检测基准测试中,相比相同条件下的尺度卷积网络能取得近7个点的提升。

15. RepPoints: Point Set Representation for Object Detection论文链接:https://arxiv.org/pdf/1904.11490.pdf界限框是视觉物体表现的尺度方法,在ICCV 2019上,该论文提出了一种基于点集来替代界限框的物体表现新方法,这一新方法具有更强的表现能力和可解释性。基于这一新的表现,获得了其时最好的无锚点检测器。这一表现方法最近还被推广到实例支解和人体姿态预计中。

16. A Twofold Siamese Network for Real-Time Object Tracking论文链接:https://arxiv.org/abs/1802.08817该文章揭晓在CVPR 2018上,提出了双路孪生网络举行视觉物体跟踪的方案,简称为SA-Siam,其中S代表的是语义(Semantic)分支,而A则代表外观(Appearance)分支。两个分支既独立又互补,取得了极佳的跟踪效果。17. SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking论文链接:https://arxiv.org/abs/1904.04452在CVPR 2019上,该文章提出了双阶段匹配和创新的串并联络构实现物体的鲁棒、精准跟踪。

SPM跟踪器在粗匹配阶段偏重语义明白,在细匹配阶段偏重外观表达,并通过差别训练方式获得了理想的平衡。18. Unsupervised High-Resolution Depth Learning from Videos With Dual Networks论文链接:https://arxiv.org/abs/1910.08897文章揭晓在ICCV 2019上,提出了基于双网络结构的深度预计学习架构,使用较深的网络提取低分辨率输入图像中的全局特征信息,使用较浅的网络提取高分辨输入图像中的细节特征信息,再将二者联合用来预计高分辨率的深度。与以往方法相比,该方法以更低的盘算量获取了更好的深度预计效果,特别是对于图像的精致区域和远距离区域等对分辨率敏感区域的深度预计效果提升显著。

19. Moving Indoor: Unsupervised Video Depth Learning in Challenging Environments论文链接:https://arxiv.org/abs/1910.08898在ICCV 2019上,该文章提出了更为鲁棒的光流重建监视信号,以解决难度更大的室内场景下的无监视深度预计。与传统的图像重建信号相比,针对纹理缺失严重的室内场景,使用稀疏到浓密的光流预计方法获取稳定的光流预计,并将光流信息输入相机预计网络克服相机运动庞大的难题,从而实现了深度结构更为庞大多样的室内场景下的稳定的深度预计。20. Cross View Fusion for 3D Human Pose Estimation论文链接:https://arxiv.org/abs/1909.01203文章揭晓在ICCV 2019上,提出了首个跨摄像头的特征融合网络,通过将“容易”视角的特征融合到“难题”视角,有效地解决了遮挡问题。

在Benchmark数据集上显著降低了三维姿态的预计误差。21. Optimizing Network Structure for 3D Human Pose Estimation论文链接:https://www.chunyuwang.org/img/ICCV_2019_CiHai.pdf在ICCV 2019上,该文章提出了基于人体模型的网络Locally Connected Network,该网络参数量少,能够有效缓解Over-fitting。

22. Online Dictionary Learning for Approximate Archetypal Analysis论文链接:https://www.microsoft.com/en-us/research/publication/online-dictionary-learning-for-approximate-archetypal-analysis/该文章揭晓在ECCV 2018上,提出了人体姿态的低维表达方法,通过投影的方式保证姿态预计的正确性。23. Part-Aligned Bilinear Representations for Person Re-identification论文链接:http://arxiv.org/pdf/1804.07094.pdf该文在作者前面的事情弱监视 Deeply-Learned Part-Aligned Representations(https://arxiv.org/pdf/1707.07256.pdf)基础上,引进了人体姿态来资助人体部件对齐,提升了行人重识别性能。该文揭晓在ECCV 2018。24. Semantics-Aligned Representation Learning for Person Re-identification论文链接:https://arxiv.org/abs/1905.13143本文即将揭晓在AAAI 2020上,提出了基于语义对齐的特征学习网络举行行人重识别。

我们通过引入对人体空间语义对齐的全视图的重建任务,实现了赋予网络由单(视角)张图像预测全视角人体外观的能力,解决了行人重识别中图像间空间语义差池齐的难题。25. Uncertainty-aware Multi-shot Knowledge Distillation for Image-based Object Re-identification论文链接:https://www.msra.cn/wp-content/uploads/2020/01/Uncertainty-aware-Multi-shot-Knowledge-Distillation-for-Image-based-Object-Re-identification.pdf将揭晓在AAAI 2020上,通过对同一目的的差别图片的信息的团结学习,获取更全面的对该目的的特征表达,并使用Teacher-Student网络来针对性地将学到的更全面的信息通报给学生网络(单张图像为输入),实现了测试阶段仅需要单张图片作为输入,但更全面和高判别力的特征提取。

26. Mask-Guided Portrait Editing with Conditional GANs论文链接:https://arxiv.org/abs/1905.10346文章揭晓于CVPR 2019,本模型解决了人脸合成中的三个问题:多样性,高质量和可控性。在本文中,研究员们提出了一个基于cGAN的框架,可以划分对眼睛、鼻子、嘴、皮肤和头发举行编辑。我们的模型有许多应用,例如人脸编辑,改变发型,放大眼睛,或者使其微笑。

此外,研究员们可以局部修改现有人脸的外观。27. Learning Pyramid Context Encoder Network for High-Quality Image Inpainting论文链接:http://openaccess.thecvf.com/content_CVPR_2019/papers/Zeng_Learning_Pyramid-Context_Encoder_Network_for_High-Quality_Image_Inpainting_CVPR_2019_paper.pdf论文揭晓CVPR 2019, 基于“由深到浅,多次补全”的构想,提出了一种金字塔式注意力机制的上下文编码网络,可以生成语义合理且纹理细节富厚的图像内容。

28. Learning 2D Temporal Adjacent Network for Moment Localization with Natural Language论文链接:https://arxiv.org/pdf/1912.03590.pdf论文揭晓在AAAI 2020,提出了时序信息处置惩罚问题中一种全新的建模思路——二维时间图,在基于自然语言形貌的视频内容定位和视频内人体行动检测两个任务上验证了其有效性。29. Structured Knowledge Distillation for Semantic Segmentation论文链接:https://arxiv.org/abs/1903.04197v1文章揭晓在CVPR 2019。

该文提出了却构化的知识蒸馏方法,来蒸馏图像支解中的全局结构化信息以提升轻便网络的性能。开源地址:https://github.com/irfanICMLL/structure_knowledge_distillation。


本文关键词:29篇,盘算机,视觉,领域,论文,篇篇,惊艳,内附,leyu乐鱼全站app

本文来源:leyu乐鱼全站app-www.nortonservice.com

电话
0968-364392041