由IEEE、中国自动化学会、中国科学院自动化研究所、IEEE Intelligent Transportation Systems Society等联合举办的第29届IEEE国际智能车大会(The 29th IEEE Intelligent Vehicles Symposium,IV'2018)于2018年6月26日至29日在中国江苏省常熟市隆重举行。本次大会吸引了来自世界许多国家和地区的专家学者参会。
6月26日上午,来自中国科学院自动化研究所、青岛智能产业技术研究院的王坤峰副研究员主持了The First Workshop on Parallel Vision in Intelligent Vehicles。来自中国科学院自动化研究所、北京理工大学等单位的五位报告人,围绕平行视觉、虚拟图像数据集、大规模场景建模与仿真、深度学习、生成式对抗网络等主题做了学术报告。
王坤峰副研究员做了题目为“An Introduction to Parallel Vision”的报告。该报告包括四部分内容:计算机视觉模型、平行视觉理论、平行视觉实践、结论。首先,介绍了传统视觉研究的代表性成果,包括Faster R-CNN、Mask R-CNN和ImageNet挑战赛,以及所在课题组提出的MFR-CNN目标检测模型、基于贝叶斯GAN的背景消减算法、基于极值区域和极限学习机的车牌识别算法等;说明近年来传统视觉研究取得了很大进展,但是存在获取和标注数据成本高、难以覆盖复杂环境、极端场景样本稀少、训练的模型适应性差等问题,影响视觉系统的鲁棒性。然后,介绍了他们提出的平行视觉和平行图像理论,平行视觉是一种虚实互动、基于ACP(人工场景、计算实验、平行执行)的智能视觉计算方法。接着,介绍了平行视觉的三个实践案例:平行视觉应用于道路环境感知、平行视觉应用于驾驶员监控、平行视觉应用于智能监测。最后,王坤峰指出平行视觉将视觉计算研究从单一的物理世界扩展到虚实结合的平行世界,有助于构建更健壮的智能视觉系统。
北京理工大学的李轩博士生参加了此次国际学术会议,做了题目为“ParallelEye-CS Dataset:Constructing Artificial Scenes for Evaluating the Visual Intelligence of Intelligent Vehicles”的论文报告。该工作利用计算机图形学、虚拟现实、生成式规则等方法构建了逼真的无人车视觉测试场景,能够精确高效地获取目标物体的标注信息;除此之外,虚拟现实技术能够有效地完成对环境成像条件的控制,形成有挑战性的视觉测试任务。李轩表示在今后的研究中,将会继续增加ParallelEye-CS数据集中的挑战任务,并与已有的真实数据结合,有效而全面地验证计算机视觉算法的可靠性。最后,他阐述了自己课题和当前国际上前沿的智能车研究方向及研究内容的相关性。
中科院自动化所的王雨桐博士生做了题目为“A Survey of Large-Scale 3D Urban Reconstruction and Procedural Modeling”的报告。她通过阐述大规模三维交通场景在训练和测试智能驾驶算法中的重要作用以及真实场景和手动生成虚拟场景的缺陷,引出了大规模城市场景重建和过程建模的方法。并指出报告中所介绍的城市重建方法的范围和城市场景重建涉及到的各种挑战。通过介绍图像和LiDAR数据作为重建输入的不同特点,提出了综合运用不同类型数据的思路。同时通过介绍各种城市场景重建方法,可以准确高效地得到城市中建筑物的三维模型。对于建筑物的表面纹理,则提出采用过程建模的方法实现。过程建模通过分析建筑物的表面纹理元素,可用于其它形状建筑物纹理的贴图,生成具有多样性的大规模城市建筑。为了生成大规模、逼真、具有多样性的城市建筑,王雨桐提出可以使用城市重建的方法先获取逼真的建筑物模型,再使用过程建模的方法生成不同于真实世界建筑的丰富多样的建筑群。
张慧博士生做了题目为“MFR-CNN:Incorporating Multi-Scale Features and Global Information for Traffic Object Detection”的报告,报告回顾了近年来深度神经网络的架构发展情况,讲述了平行视觉领域中的主要研究方向:图像识别、语义分割和目标检测,以及当前的主流研究方法,并提出了基于多尺度局部特征和全局特征表示融合的目标检测模型,以解决交通场景的复杂性和目标种类多、数量大、目标尺寸和姿态各异,不同物体类别之间差异难以描述的困难,进一步提高目标检测模型的性能。该模型主要通过多尺度局部特征融合来建立不同空间分辨率的特征描述,在不丢失大量空间信息的同时获取更多的语义信息,通过加入全局特征表示,增加丰富有效的上下文信息,从而得到更加显著鲁棒的特征描述,进一步提高检测算法的准确性,并在PASCAL VOC、MS COCO、KITTI和Caltech数据集上都取得了良好的效果。
鲁越博士生做了题目为“GANs in Street Scene Understanding”的报告,梳理了生成式对抗网络在交通场景理解上的应用。报告阐述了生成式对抗网络的背景、理论及发展趋势,并针对交通场景理解中的目标检测和语义分割两种重要任务,分析了两种任务的现状、难点和挑战,讨论了生成式对抗网络在目标检测和语义分割的典型应用。报告讨论了生成式对抗网络利用对抗训练方法在目标检测中的应用,生成式对抗网络生成困难样本特征来训练目标检测模型,提高目标检测模型对不同光照、遮挡和形变情况的鲁棒性;生成式对抗网络由小目标样本特征生成类似大目标样本特征,增强目标检测模型在小目标样本上的检测效果。报告还讨论了生成式对抗网络利用对抗思想在语义分割上的应用,生成式对抗网络利用对抗训练可以用于端到端的目标分割模型训练,训练得到的模型在无需人工设计约束的条件下具有对语义的高阶含义理解;生成式对抗网络可以结合半监督学习用于语义分割模型的训练,在语义分割模型标注费时费力的情况下,半监督学习可利用非完全标注图像与完全标注图像共同训练语义分割模型。报告的最后结合平行视觉与平行图像的研究,展望了生成式对抗网络在目标检测和语义分割的未来研究方向。
学术报告之后,报告人与日本索尼公司等国内外单位的研究人员进行了讨论。研讨会取得了圆满成功。