找回密码
 立即注册

对话ShuffleNet v2一作马宁宁: 疫情居家科研,也能成果斐然

2022-8-2 20:15| 发布者: admin| 查看: 72| 评论: 0

摘要: 在将门-TechBeat人工智能社区上线一周年之际,我们评选出Top30进入「2021年度TechBeat红人榜」,同时我们也潜心策划了AI工作者人物专访栏目「AI红人荟」,带大家更深入地了解他们个人成长的心路历程,感受来自青年科 ...

在将门-TechBeat人工智能社区上线一周年之际,我们评选出Top30进入「2021年度TechBeat红人榜」,同时我们也潜心策划了AI工作者人物专访栏目「AI红人荟」,带大家更深入地了解他们个人成长的心路历程,感受来自青年科学家们的榜样力量。本次为大家带来的是——香港科技大学在读博士·马宁宁的故事。「AI红人荟」系列回顾:王乃岩 | 葛艺潇 | 杜少雷 | 石冠亚 | 胡庆拥 | 吴小毛 | 李昀烛作者 | 冰攸児
一个人,一只猫,一轮疫情封锁。三项元素叠加的结果,是三篇顶级会议的顶级文章。作为港科大&旷视联合培养博士生,马宁宁已然在毕业之前成功找到了自己追求简单高效的“科研风格”。
马宁宁的暹罗猫计算机视觉和深度学习,是马宁宁从本科到博士毕业一直在钻研的领域。这是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量,并进一步做图像处理,用计算机将目标处理成为更适合人眼观察或传送给仪器检测的图像,且试图创建能够从图像或者多维数据中获取“信息”的人工智能系统。从手机的人脸识别解锁、美颜滤镜,到工业上的机器人和无人驾驶汽车,计算机视觉的成果已经浸入了人们的日常生活。在马宁宁看来,现在这个领域本质上更像一种试验科学,有那么点像生物化学课题那种要更多通过实验检验真理的学科,已经不完全是一个纯理论领域了。计算机视觉的“炼丹”实验具有的随机性和玄学性质,让这项任务本身充满了未知和挑战,这也恰恰是这个领域最大的魅力所在,每一组实验每一个尝试都可能会出现意想不到的收获。这种未知性中,有着“一个晚上跑出的结果涨四个点”的惊喜,通过迭代式的布置实验,也能逐渐抽丝剥茧将内部真正起作用的因素找出来,进一步提升整体网络效率……这样的惊喜与挑战一直吸引着马宁宁,让他在计算机视觉这条道路上不懈探索,持续进步。01
选择读博在领域内继续深耕
英特尔实习团队合照(左二为马宁宁)2015年,本科期间的马宁宁在英特尔研究院实习了六个月,在此快乐科研期间,一个导师两个实习生的队伍在一项国际比赛上获得了第一名。那是ACM多模态交互国际会议的自然场景情绪识别比赛,参赛的队伍包括微软研究院、卡内基梅隆大学等著名企业与高校。朝夕相处的六个月中,团队一直在研究视频中的人脸情绪识别。当时计算机视觉领域用的视频数据都是在实验室标注好的,都是特别理想、特别规整的学习。但竞赛内容是要对自然场景的视频进行识别,这些视频来自生活中,或者电影里。当时马宁宁刚刚接触神经网络,实验过程中的主要任务是先学习入门,入门之后,就是要不断调整网络结构,去刷点(涨点便是准确率的提升)。整个项目让马宁宁熟悉了卷积神经网络,了解了科技大企业的运作方式,也看到了自己的科研潜力。于是,硕士期间,马宁宁没有丢掉之前的努力与成果,而是将计算机视觉的研究继续了下去,并以一作身份发表了在业内颇有影响力的ShuffleNet v2。
马宁宁的论文截图马宁宁认为,科研分很多种,一种是做具体应用的、比较好玩的东西,还有一种是解决比较基础性的东西。大家可能更愿意做好玩的应用,做基础性、短期内难看到收益的东西的人相对比较少。但是一旦在这方面做出成果的话,就会有比较大的影响力。ShuffleNet v2便属于基础模型的研发搭建,这个项目是马宁宁在硕士期间完成的,在博士研究生时期,这个工作目前的单篇引用量已经超过一千。ShuffleNet这个移动端的卷积神经网模型的两个版本,算是将轻量级网络推上了新的巅峰,而马宁宁发表的v2分析了模型性能更直接的指标:实际推理速度。根据不同硬件的实际速度从结构设计角度全方面分析,通过实验证明和理论分析提出了设计高效模型的四条准则,并根据这四条准则设计了ShuffleNet v2。ShuffleNet v2中的通道分割也是创新点满满,和DenseNet有异曲同工之妙,在这里可以看到轻量模型和高精度模型的交汇。
ShuffleNet v2获奖的奖状这项工作在工业界也在被普遍使用。马宁宁在清华计算机系的同学中,大多数都进入了就业市场,比如后来每次遇到在工业界或Lab的同学时,对方都会提到ShuffleNet V2,说在公司里很多人都在用ShuffleNet v2。也就是在做完ShuffleNet V2的时候,马宁宁感觉自己“已经上道了,感觉上至少成为了子领域里比较专业的研究人员,也比较适合做这个方向”。毕业之前,孙剑老师给马宁宁推荐了港科大和旷视的联合培养项目。了解之后,马宁宁觉得项目和自己感兴趣方向一致,在ShuffleNet v2之后,他也感到自己在这个方向上还有很多值得深挖的领域,所以选择了继续自己的学术道路。
02
疫情闭关九月顶级论文三篇
ShuffleNet V2斩获视觉与学习青年学者研讨会
年度杰出学生论文奖疫情期间,马宁宁和所有人一样被关在了家里。而他,是那个疫情期间闷声干大事的人。九个月居家办公,产出三篇顶会文章:两篇ECCV(欧洲计算机视觉国际会议),一篇CVPR(IEEE国际计算机视觉与模式识别会议)。对马宁宁来说,居家办公的工作效率和舒适度比在实验室或公司还高。在实验室或公司里一天连坐八九个小时的效率,也比不上在家每天四五个小时的沉浸式工作。早上8点到12点,晚上10点到2点,是他的两个高效时段,准备的白板根本不够记录相关的笔记和灵感,于是冰箱和洗衣机上也都充满了记号笔的笔迹。劳逸结合也成为了日常规律行为,工作时间之外,他也喜欢打球和吸猫。马宁宁的暹罗猫养了两年,最初领回家的路上正好经过了谷歌大楼,在想名字的时候谷歌的标志恰好出现在眼前,也顺势成为了猫的名字。“有一些朋友会在论文里挂猫的名字,但我这只猫(Google)不太方便挂名。”虽然无法出现在论文致谢,Google还是给马宁宁的科研带来了很大的推动力,为他缓解压力、拓展思路。很多时候遇到瓶颈,马宁宁只要吸两口Google就能想到很靠谱的idea。
像狗狗一样粘人的暹罗猫Google马宁宁在疫情期间的这三篇论文在领域内都已经具有一定的影响力。旷视内部对科研成果质量的要求可以说是几乎达到了极致,在投稿之前,内部会先审核,达不到高质量要求的文章,会不断返稿,团队才能保持高产。“孙老师教育我们说,既然一项工作你做得不好也要三四个月时间,把它做好也差不多这么几个月的时间,那为什么不把它做到最好?”马宁宁说道。他读博期间的导师之一,孙剑老师,从博士期间开始就在培养他们的科研价值观。实际上,CVPR这类会议每年会录用上千篇文章,但真正能产生影响力的,每个领域内可能就只有几篇。而马宁宁的目标,是要成为这几篇文章的作者。马宁宁曾在将门分享自己团队在CVPR上的工作,点击CVPR'21 | 大幅涨点!孙剑团队提出新激活层ACON和轻量级网络TFNet 阅读。旷视的团队在这方面也有着自己关于科研境界的共识:第一层境界是成果被人引用,并做论文分享,第二层更高的境界则是被写进教科书。这种境界观也指引着他们对自己团队发表成果的要求。很多地方会让学生在开始时做一些练手项目,但马宁宁所在的项目跳过了这个逐渐适应的过程。刚入门的他就需要产出top级别会议里的top质量论文。不仅发表的论文要达到顶级质量,读博期间的mentor也一直在强调独立科研能力的重要性。在科研开始阶段着重锻炼完成任务的能力之后,更要有自己独立的科研见解和完整的独立科研能力。方向、方法、实验、写作四个流程全部独立完成,才能够在内部达到一个合格的标准。03
更小、但更强、也得更优雅
马宁宁在Shufflenet v2 poster 现场
虽然现在已经是一个可以九个月独自钻研出三篇顶级论文的科研能手,但实际上刚开始单枪匹马搞科研的时候,马宁宁也有漫长的适应期,也陷入了他科研阶段最长的一次瓶颈期,用了半年多的时间去调整研究方向。瓶颈项目的研究内容是下一代移动端的神经网络。这个研究课题的探索目标有三个:更小、更强、更优雅。更小和更强本身就是矛盾的,一般来说,模型更小一般效果会更差。前两个目标还好,但是,为了研究出真正好用的模型而不是使用已有技术的复杂堆砌,而是要造出更加简洁更加优雅的网络结构。这三个设计目标放在一起,就让整个研究课题像是在爬象牙塔尖,越往后越难爬,要超越之前本身就很简单有效的高效网络结构。这个项目从19年2月份一直瓶颈到了10月份。十个月的时间内,白天是无穷尽的头脑风暴,尽量穷尽所有能想到的细节和方法,在晚上布置下实验,再在第二天早晨收割结果。对于马宁宁来说,检查实验结果有如开盲盒,在真正看到结果是相对未知的,计算机视觉的这种未知性也成为了这个领域最大的魅力所在。每一个科研课题都是难啃的硬骨头,目标还是之前提到的,要做到非常优雅,但必须非常涨点。虽然最后呈现的会是一些非常简洁优雅的有效结构,但研究期间会有很多优秀的中间结果出来,但是本着最开始的初衷,很多不错的成果没有发表,而是不断自问能不能做得更好、更彻底。不过这些都储存在知识技能库里了,对后面科研也很有帮助。如今轻车熟路的马宁宁,表示计算机视觉的难点就是要不停去想,甚至对一些看起来想当然的东西也要花时间深挖,既要脑洞够大,又要足够勤奋。十个月后,量变终于引向了质变。这块前所未有的硬骨头终于被马宁宁啃下,成为了马宁宁的又一篇代表作品。可以说,在旷视和导师的辅导下,马宁宁建立起了一份追求简单本质、又要做到最优的科研观。04
Keep being simple & effective
马宁宁在阿那亚旅行所有科研人都知道越复杂的东西堆到一起肯定会越容易涨点,几个方法叠加在一起去做一个任务,效果比较容易提升。相反,对一个复杂的东西不断剥离不断简单化通常会掉点,但如果一个简单的东西能有涨点的效果,那大概率就是一个好东西了。马宁宁最近最喜欢的一个工作,就是这么一个“本质”的激活函数模型。卷积神经网络分为几个基本的部件,第一是卷积层、第二是归一层,第三就是激活层。马宁宁提出的这个新的激活函数是基于已有模型的分析与探索,新的一般式不但形式简洁,而且在同一条件下能够涨点很多,并且适用于多种不同任务。好的科研工作往往能够给后面的研究者带来更多的启发。一个好的研究,终极目的并不应该仅仅是单纯的借助技巧刷点,更应该能引发新的思考、新的视角和新的分析,让后面的研究员有更多的拓展空间。
马宁宁在挪威旅行
今年3月,马宁宁完成了博士论文答辩,即将进入人生的又一个新阶段。这个把《进击的巨人》中最强男人利威尔兵长放在自己学校主页的大男孩,会带着这些年来的科研技能,继续保持这种简单本质、做到最优(simple & effective)的精神。
- The End -与大佬云面基的机会来啦!ICRA 2021 直播在线交流,扫码报名~

报名截止至北京时间6月3日 12:00「AI红人荟」系列回顾:‍‍‍‍‍‍‍‍‍‍‍‍‍[1] 图森未来首席科学家 王乃岩  [2] 港中文在读博士 葛艺潇 [3] 华盛顿大学助理教授 杜少雷 [4] 加州理工学院在读博士 石冠亚[5] 牛津大学在读博士 胡庆拥 [6] 粒界科技CEO 吴小毛[7] MIT在读博士 李昀烛
如果你想和他们一样,亲自来到TechBeat分享,或者想推荐身边闪闪发光但是尚未入驻社区的AI工作者——欢迎填写下方表单自荐/推荐,说不定明年的TechBeat红人荟专访,主角就是你! 自荐 / 推荐 
单人Talk | 团队专场 | 录播or直播 | 闭门交流多种方式任你选择!推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区
▼TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

路过

雷人

握手

鲜花

鸡蛋

最新评论

QQ|Archiver|手机版|小黑屋|雄启汇|雄启识慧云上智库:您身边的行业研究顾问 ( 黑ICP备2023000012号-1 )|网站地图

GMT+8, 2025-5-10 05:12 , Processed in 0.609668 second(s), 26 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

返回顶部