微美全息科学院:多种基于卷积神经网络的语义分割模型

图像分割基本上可以分为两种类型:语义分割和实例分割。近些年,基于CNN的语义和实例分割的研究得到了大量的关注。作为纳斯达克上市企业“微美全息US.WIMI”旗下研究机构“微美全息科学院”的科学家们详细探讨了关于多种基于卷积神经网络的语义分割模型。以下将详细探讨一些先进的基于CNN的语义分割模型的体系结构细节。模型是根据使用的最重要的特征进行分类的。在每一个分类讨论的最后,还简要讨论了特定模型类别的优点和缺点。

1. 基于完全卷积网络

Long等人提出了完全卷积网络(FCN)来解决语义分割问题。他们使用了AlexNet、VGGNet和GoogleNe(这三个都是在ILSVRC数据上预先训练过的)作为基本模型。他们将这些模型从classifiers转变为稠密的FCN,方法是用1×1卷积层代替完全连接层,并附加一个通道数为21的1×1卷积来预测20个PASCAL VOC类和1个背景类的得分。

在FCN AlexNet、FCN-VGG16和FCN GoogLeNet中,FCN-VGG16在PASCAL VOC 2011验证数据集上的准确度最高。因此,作者选择FCN-VGG16网络进行进一步的实验。由于网络生成了粗糙的输出位置,作者使用双线性插值对粗输出32×进行上采样,使其像素密集。但是这种上采样对于详细的分割是不够的。因此,他们使用跳跃连接来组合预测层和VGG16丰富的下层特征,并将这种组合称为deep jet。图1显示了不同的deep jet:FCN-16s、FCN-8s和FCN-32s。其中FCN-8s在PASCAL VOC 2011中的表现最好。

图1.FCN32s, FCN16s, FCN8s的结构

FCN的主要变化有:基本模型VGG16、双极插值技术(用于对原始特征图进行上采样)和跳过连接(用于将低层和高层特征结合起来以进行细粒度语义分割),这些都有助于该模型达到最新的结果。

FCN只利用局部信息进行语义分割,但由于局部信息会使图像的全局语义上下文变得模糊。从整个图像中减少模糊的上下文信息是很有帮助的。

2. 基于Dialatation卷积

Dialated-Net:传统的CNN用于分类任务,会损失分辨率,不适合密集预测。Yu和Koltun引入了传统CNN的改进版本,称为dialated卷积或Dialated-Net,系统地积累多尺度上下文信息,以便在不损失分辨率的情况下更好地进行分割。Dialated-Net就像一个卷积层的矩形棱镜,不像传统的金字塔CNN。如图2所示,在不丢失任何空间信息的情况下,它可以支持指数扩展的感知域。

图2.(a) 1倍dialation,感知域3×3;(b) 2倍dialation,感知域7×7;(c) 4倍dialation,感知域15×15

基于dialation模型的优点是它有助于保持图像的空间分辨率以产生密集的预测。但是,使用dialation卷积将图像像素从其全局上下文中分离出来,这使得它很容易被误分类。

3. 基于自上而下/自下而上的方法

DeconvNet由Noh等人提出,具有卷积和反卷积网络。卷积网络在拓扑上与VGG16的前13个卷积层和2个完全连接层相同,除了最后的分类层。反卷积网络与卷积网络相同,但层次相反。同时,它还具有多个系列的反卷积层、反池化层和反整流层。卷积和反卷积网络的所有层都提取特征映射,除了反卷积网络的最后一层是用于生成像素级的概率图,它与输入图像的尺寸相同。在反卷积网络中,作者应用了反池化操作来重建初始激活大小。此处,反池化操作是通过在卷积操作时存储的最大池索引来完成的。

为了使放大但稀疏的反池化特征图的密度更大,作者将单个输入激活与多个输出相关联,使用多个习得的滤波器完成类似卷积的操作。与FCN不同,作者将他们的网络应用于从输入图像中提取出的目标建议,并产生像素级预测。然后,将所有建议的输出集合到原始图像空间,对整个图像进行分割。这种基于实例的分割方法能够处理多尺度对象的细节,同时降低了训练的复杂度和训练的内存消耗。为了处理网络中的内部协变量偏移,作者在卷积层和反卷积层之上添加了批处理规范化层。DevNet的架构如图3所示。

图3. DeconvNet的网络结构

由于基于FCN的模型在最后层的上采样率很高,所以会产生粗输出。因此,不可能进行精细的语义分割。另一方面,基于自上而下/自下而上方法的模型使用逐渐增加的上采样率,从而获得更精确的分割。但在这种情况下,该模型还缺少全局上下文信息的整合。

4. 基于全局语境的方法

ParseNet:Liu等人提出了一种端到端结构的ParseNet,它是对全卷积神经网络的改进。为了更好的分割,作者添加了全局特征或全局上下文信息。图4显示了ParseNet的模型描述。在提取卷积特征映射之前,ParseNet与FCN相同。之后,作者使用了全局平均池化来提取全局上下文信息。然后,对池化后的特征图进行反池化操作,使其与输入特征图的大小相同。现在,将原始特征图和反池化后的特征图结合起来预测分类。作者将两个不同的特征图组合在一起,而这些特征图在规模和标准上都是不同的。为了使这种组合起作用,他们使用了两个L2规范化层:一个是在全局池化层之后,另一个是在从FCN中提取原始特征图之后。该网络在ShiftFlow,PASCAL context上达到了最先进的性能,在PASCAL VOC 2012数据集上接近最新水平。

图4. ParseNet的模型设计

虽然全局卷积的应用有助于提高精度,但它缺乏多尺度目标的尺度信息。

5. 基于感受野放大的方法

DeepLabv2和DeepLabV3:DeepLabv2和DeepLabV3的作者使用Atrous Special Pooling Pyramid(ASPP)修改了他们的网络,聚集多尺度的特征以更好地进行定位,并提出了DeepLabv2。图5显示了ASPP。该体系结构同时使用ResNet和VGGNet作为基础网络。在DeepLabv3中,为了将多个语境合并到网络中,作者使用了级联模块,并对ASPP模块进行了深入研究。

图5. Atrous Spatial Pooling Pyramid

利用基于多分辨率金字塔的表示方法可以扩大感受野,这有助于上述模型融合对象的尺度信息,获得精细的语义分割。但是,为了获得更好的语义分割,使用感受野扩大来捕获语境信息可能不是唯一的解决方案。

微美全息科学院成立于2020年8月,致力于全息AI视觉探索科技未知,以人类愿景为驱动力,开展基础科学和创新性技术研究。全息科学创新中心致力于全息AI视觉探索科技未知, 吸引、集聚、整合全球相关资源和优势力量,推进以科技创新为核心的全面创新,开展基础科学和创新性技术研究。微美全息科学院计划在以下范畴拓展对未来世界的科学研究:

一、全息计算科学:脑机全息计算、量子全息计算、光电全息计算、中微子全息计算、生物全息计算、磁浮全息计算

二、全息通信科学:脑机全息通信、量子全息通信、暗物质全息通信、真空全息通信、光电全息通信、磁浮全息通信

三、微集成科学:脑机微集成、中微子微集成、生物微集成、光电微集成、量子微集成、磁浮微集成

四、全息云科学:脑机全息云、量子全息云、光电全息云

以下是微美全息科学院的部分科学家成员:

郭松睿,湖南大学计算机科学技术工学博士,曾在中科院科学计算国家重点实验室 合现实技术研修班 学习混合现实,增强现实技术,参与研发多个重点项目。

江涛,中国科学院沈阳自动化研究所博士,机器人学国家重点实验室,研究方向为微型仿生飞行器的气动/结构设计、控制与系统开发,在2018年获得 ICRCA-2018 机器人 EI 国际会议"最佳论文奖"。

杨军超,重庆邮电大学通信与信息工程学院信息与通信工程专业博士研究生,华盛顿大学电子工程学院联合培养博士,长期研究虚拟现实、5G多媒体传输优化、基于MEC的智能转码优化,以第一作者发表SCI/EI 论文 6 篇,中文核心 1 篇,申请专利 4 项。

李维娜 ,2017 年博士毕业于韩国忠北国立大学的信息和通信工程学院。2017 年 8 月去了新加坡的 Singapore-MIT Alliance for research and technology centre(SMART)从事压缩全息(compressive digital holography)的博士后工作,2018 年 11 月进入清华大学深圳国际研究生院的先进制造学部,在以前工作的基础上把数字全息(digital holography)拓展到机器学习(machinelearning)领域,特别是对 U 型网络(U-net)的改进和应用。在上述研究领域以第一作者发表高水平论文 5 篇,以第二作者发表的高水平论文2 篇。

曲晓峰,香港理工大学博士,现任清华大学深圳研究生院博士后,主要研究生物特征识别、机器视觉、模式识别,与绿米联创合作进行嵌入式产品算法、深度学习应用、图像与视频相关算法以及生物特征识别相关产品的开发。

危昔均,香港理工大学康复治疗科学系博士,南方医科大学深圳医院虚拟现实康复实验室负责人,主要研究基于虚拟现实技术的康复系统搭建及相关临床和基础研究。

单羽,昆士兰科技大学数字媒体研究中心(澳大利亚)博士,研究方向为虚拟现实娱乐产业与亚洲创意经济,曾参加多场虚拟现实产业的国际学术会议并发表主题演讲,发表多篇以“虚拟现实艺术”相关的学术论文,并参与国内多个虚拟现实娱乐产业领域的项目研究。

刘超,新加坡南洋理工大学博士,是深圳市南山区领航人才,深圳市海外高层次人才孔雀计划C类, Molecular Physics 2011年度最佳年轻作者提名,主要研究方向为人工智能预测过渡金属氢化物金属氢键键长与解离能和环式加成反应中量子力学/分子力学反应机理研究,曾参与过流程模拟软件的开发与研究。

张婷,美国西北大学博士后,香港大学博士,海外高层次人才孔雀计划C类,主要从事VR/MR关键技术研发应用和复杂服务系统优化等研究,发表全息专利5项。获全国"挑战杯"创业计划大赛 湖北省一等奖,华中科技大学一等奖。

姚卫,湖南大学计算机科学与技术工学博士,主要研究方向:忆阻神经网络及其动力学行为,应用于:图像处理、安全通信。基于VDCCTA具有长时记忆特性的忆阻器电路及其构成的神经网络。参与设计基于忆阻器的神经网络系统模型。基于忆阻器的仿生物神经元和突触连接的微电子电路设计,参与基于忆阻器的神经网络系统模型的设计与动力学行为的分析。

彭华军,博士,毕业于香港科技大学显示技术研究中心(CDR),从事硅基液晶器件、AMOLED材料与器件、TFT器件、显示光学等研发工作。彭博士一直从事信息显示领域前沿工作,涵盖电视图像色彩管理、AMOLED生产制造、微显示芯片设计与制造、投影与近眼显示光学等。彭博士在国际刊物上发表20篇文章。已申请近50项中国发明和美国发明专利,其中10项美国专利和20项中国发明专利获得授权。

陈能军,中国人民大学经济学博士、上海交通大学应用经济学博士后,广东省金融创新研究会副秘书长、广东省国际服务贸易学会理事。主要从事文化科技和产业经济的研究,近年来在版权产业领域研究方面有较好的建树。近年来先后主持、主研“5G时代的数字创意产业:全球价值链重构和中国路径”“深圳加快人工智能产业发展研究”“贸易强国视角下中国版权贸易发展战略研究”,“文化科技融合研究:基于版权交易与金融支持的双重视角”等省部级课题多项,并在《商业研究》《中国流通经济》《中国文化产业评论》等核心期刊发表论文多篇。

潘剑飞,香港理工大学博士学位,现为广东省高校“千百十工程”人才,深圳市海外高层次人才,深圳市高层次人才、深圳大学优秀学者。研究领域主要为自动化+VR 应用、先进数字化制造、 数字制造全息孪生工厂、机器人等。主持多项国家自然科学基金项目、广东省科技计划项目和广东省自然科学基金项目。

杜玙璠,北京交通大学光学工程博士,取得与显示产品相关专利20余项,发表期刊文章3篇,曾打造全球最高分辨率的8K*4K 的VR产品,并提出了采用光场显示技术,解决VR辐辏冲突问题;推出首款国产化率100%的单目AR眼镜,第一次联合提出基于未来空间信息的非接触式交互的操作系统概念(System On Display),在运营商体系进行虚拟现实数字产业合作。

伍朝志,深圳大学光机电工程与应用专业博士,研究方向主要为精密/微细电解加工,发表过多篇期刊论文和会议论文,获得三项相关专利,曾参与国家重点研发计划 、国家自然科学基金重大研究计划重点项目等。

微美全息科学院旨在促进计算机科学和全息、量子计算等相关领域面向实际行业场景和未来世界的前沿研究。建立产研合作平台,促进重大科技创新应用,打造产业、研究中心深度融合的生态圈。微美全息科学院秉承“让有人的地方就有科技”为使命,专注未来世界的全息科学研究,为全球人类科技进步添砖加瓦。

微美全息成立于2015年,纳斯达克股票代码:WiMi。$纳斯达克(.IXIC)$ $微美全息(WIMI)$
微美全息专注于全息云服务,主要聚集在车载AR全息HUD、3D全息脉冲LiDAR、头戴光场全息设备、全息半导体、全息云软件、全息汽车导航、元宇宙全息AR/VR设备、元宇宙全息云软件等专业领域,覆盖从全息车载AR技术、3D全息脉冲LiDAR技术、全息视觉半导体技术、全息软件开发、全息AR虚拟广告技术、全息AR虚拟娱乐技术、全息ARSDK支付、互动全息虚拟通讯、元宇宙全息AR技术,元宇宙虚拟云服务等全息AR技术的多个环节,是一家全息云综合技术方案提供商。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论