让AI更加聪明!西浦智能工程学院博士生两项研究获得国际认可

西交利物浦大学
2021-2-28 12:55:02 文/马婷婷 图/白鹏宇
自人工智能开始迅速发展,“识别”这项技术就是关键的一环,无论是图像、文本,还是声音、视频,计算机如何能够快速地识别用户发送的信息,并产生反馈,对于研究者来说是一个值得挑战的问题。
近期,来自西交利物浦大学智能工程学院的博士生们,在关于显著性检测和提升场景文字识别准确率的两项研究上获得了不错的成绩。
识别性能好、训练效率高:
会模仿人类视觉锁定图像目标的
计算机算法
近年来,图片搜索作为一种新的功能,逐渐被应用在多个购物平台。购物者只需要提供一张图片,系统就能够从复杂的背景中推测出他所想要购买的物品,进行推荐。在享受便利的同时,你是否也有这样的疑惑,计算机是如何学会从图像数据中快速地获取关键信息的?

图片源自网络。
近日,西交利物浦大学智能工程学院博士生团队使用图像处理技术和计算机视觉算法让计算机模拟人的注意力,准确定位出图像中最引人注目的前景区域。这项关于显著性检测的研究被第35届AAAI大会收录,该项目也获得了国家自然科学基金面上项目的资助。
据论文的第一作者博士生俞思悦介绍,论文中提出了一种弱监督显著性检测的方法,这项技术可以作为其他图像识别与分割技术的底层预处理模式,更高效地获取图像中的重要信息,在图片编辑、图像检索、目标检测、机器人领域也有多种应用。
俞思悦的指导老师肖继民博士表示:“弱监督显著性检测是一个非常前沿的研究方向,同一个物体在不同图片里的重要性,即对人的吸引力,是会变化的,在前一张图中最吸引人的物体,下一张可能就变成了背景,所以要教会计算机区分这种变化也是一个难点。我们的训练的方法比较简单,通过一次训练就可以得出检测结果,且无需后续处理,在多个数据集上进行了测试,均达到了最高的性能。”
俞思悦解释说,“在使用弱监督的方法来训练计算机时,只提供给计算机有限的信息,例如用几个像素点来代表前景与背景,获得最终的输出。相比较于把每个像素点属于前景还是背景通过人工标注提供给计算机的强监督训练方法,弱监督能够节约时间和人力,但同时也更具挑战性。

上图红色线条代表前景,绿色线条代表背景
“弱监督训练方法的缺点在于:由于只提供了有限信息,这样就会导致结构信息缺失,无法提供良好的轮廓。所以,通常还需要用别的方法来补充轮廓,准确预测前景的形状。”
她进一步解释说:“之前的一些研究会用边缘检测等方法来补充提供物体的轮廓信息,但边缘检测大多是用强监督的方法来训练,一个像素点是否属于边缘,都需要人工标注出来。
“相较之下,我们提出的弱监督显著性检测方法能够利用图片本身的信息,比如颜色信息或者位置信息来补全我们需要的这个物体的一些结构信息,从而得到比较良好的性能,也能在工业上节省人力标注投入,并且提高计算机图像识别的准确率。”

上图为博士生俞思悦提出的学习方法

博士生俞思悦的检测结果与其他弱监督显著性检测的方法输出的结果,左起第三列为俞思悦所在研究团队的检测结果。
智能工程学院院长、俞思悦的指导老师林永义教授表示:“国际上通常会以一些顶会文章来衡量学院的科研水平。智能工程学院近几年陆续在人工智能的顶级会议CVPR、AAAI、ECCV发表论文,充分说明了我们在AI领域达到了国际上较高的水准。”
如何使文字识别准确率更高?
西浦学者提出场景文字矫正新方法
在国际会议上获奖
近日,智能工程学院和苏州市认知计算应用技术重点实验研究人员提出了一种场景文字矫正方法,有助于提升场景文字识别的准确率,关于该方法的论文在第二十七届国际神经信息处理大会ICONIP 2020上获奖。
据论文的第一作者智能工程学院博士生李菁介绍,场景文字识别是指识别自然场景图片中的文字,它是模式识别领域中的一个重点问题,有着广泛的应用,例如识别快递单,路牌,街边店铺名称等。然而,自然场景中的文字图片往往具有复杂的背景、弯曲旋转的文本行和不同大小颜色亮度的字体,给准确识别文字带来了难度。

生活中常见的场景文字
“我们这次的研究集中在场景文字矫正上,它是在识别之前的一个环节,能够把不规则的文本矫正成规则的文本,让倾斜或者弯曲的文字先变成一个比较水平的状态,从而减小识别难度,提高准确率。”她补充道。

上图左侧为原图,右侧是矫正后的效果,矫正后的文字更为水平且规则。
博士生李菁表示,目前的矫正方法主要有两种:
第一种,矫正和识别的过程是完全独立的,矫正不考虑识别的结果,因此,矫正出来的图片可能不利于后续的识别;
第二种是端到端识别,也就是把矫正方法嵌在识别方法的前端,先矫正后识别,但是这类方法只考虑识别的结果,如果识别的性能好,则默认矫正也是好的。然而,这可能会使矫正模型产生恒等变换,即在文字没有得到矫正却仍被识别出来的情况下,矫正模型失效。
针对这两种情况,她提出了一个基于对抗学习的场景文字矫正方法,该方法能够兼顾识别效果与矫正性能,尽量避免以上这些问题。之后,她将对严重弯曲的场景文本的矫正和自然场景文本的识别继续进行研究。
李菁的指导老师王秋锋博士指出:“该方法不仅考虑了矫正的性能,还考虑了后续的识别效果,能够更好地为场景文字识别服务。”
关于这一方法的论文在第二十七届国际神经信息处理大会ICONIP 2020上荣获Runner-Up论文奖,是该会议评选出的4篇获奖论文之一。
智能工程学院科研副院长、认知计算应用技术重点实验室主任黄开竹教授表示:“这是认知计算应用技术重点实验室近年来获得的第5个最佳论文奖,表明该实验室在人工智能和模式识别领域的研究水平已经得到了国内国际同行的广泛认可。”
苏州市认知计算应用技术重点实验室依托于西浦智能工程学院,主要研究方向为模式识别,认知计算,机器学习及其在文本,图像,声音和视频中的应用。
ICONIP会议是亚太地区神经网络方面的重要会议之一,此次会议收录LNCS论文187篇,接受率为30.3%,其中共评选4篇获奖论文,分别为最佳论文奖,Runner-Up论文奖,最佳学生论文奖,Runner-Up 学生论文奖。
记者:金画恬
编辑:寇博
图片提供:俞思悦 李菁
新媒体:俞启凡
监制:袁小婉


西交利物浦大学2020届大陆本科毕业生就业质量报告

我们15岁了!
西交利物浦大学15周年校庆创意征集

.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)

.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)

.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)


.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)

.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)
.jpg)

.jpg)


.jpg)


