|
CSIG菁英青云论坛第12期主办单位:中国图象图像学学会女科技工作者工作委员会 承办单位:北京交通大学计算机与信息技术学院、CSIG交通视频专委会
导读: 2021年10月29日,中科院信息工程研究所于静助理研究员和复旦大学陈静静青年副研究员做客“CSIG菁英青云论坛第12期在线论坛”,为大家带来了“认知启发的视觉-语言技术研究”与“跨模态检索” 两场精彩的学术报告,本次活动由北京交通大学金一教授主持,共有3000余人在线观看并参与探讨。
微信推文:https://mp.weixin.qq.com/s/NzQxNJLDj5_qtSezexuFEQ 回放链接:https://live.csdn.net/room/wl5875/9yzU5AIf
报告1:认知启发的视觉-语言技术研究 摘要:随着网络中海量多媒体数据的快速增长,如何跨越视觉、语言等不同模态数据实现对现实世界更加泛化的分析和推理,对于提升计算机的智能水平至关重要。因此,结合视觉与语言(Vision and Language)是近年来非常热门的一个研究领域。目前解决视觉-语言问题的主流深度学习方法主要依靠观察大量数据“归纳”出输入与输出的关联关系。而我们认为解决这些问题的本质在于让机器真正具有人的“认知”能力,这个报告中,我会基于现有的认知框架,通过介绍我们近期的几个工作,来阐述如何通过改变表征方式、模型架构、任务目标等方法,来探索认知机理启发的视觉-语言技术及挑战。 嘉宾介绍:于静 ,中国科学院信息工程研究所助理研究员,CCF YOCSEF总部AC,CCF多媒体技术专业委员会委员。于静博士致力于计算机视觉领域研究,尤其关注于计算机视觉-自然语言相关领域的研究。在TIP, TMM, PR等国际期刊和ICML, AAAI, ACM MM, IJCAI等国际会议发表学术论文40余篇,亦担任TMM, PR, KBS, CVPR, ICCV, AAAI, IJCAI等学术期刊和会议审稿人。承担与参与国家自然科学基金、国家重点研发计划、中科院战略性先导科技专项等各类科研课题10余项,面向国家网络安全提供领先的跨媒体分析技术和解决方案。 个人主页:https://mmlab-iie.github.io/
报告2:跨模态检索 报告摘要:跨模态检索旨在利用任意模态数据检索其他模态的相关数据。由于不同媒体数据分布特性及特征表示不一致,跨模态检索相比于单一模态检索更具有挑战性。解决该问题的关键在于如何充分理解并挖掘不同模态数据中的细粒度语义信息,并在此基础上建立跨媒体语义关联关系,实现精准的跨模态检索。本次报告将主要介绍基于细粒度语义关系挖掘与建模的跨模态检索技术,包括基于场景图关系引入的跨模态图像-文本检索、基于时空关系挖掘的视频-文本检索以及基于三元组关系建模的视频-文本检索技术。 嘉宾介绍:陈静静,复旦大学计算机科学技术学院青年副研究员。上海浦江人才计划入选者。2018年在香港城市大学获得博士学位,2018年9 月~2019年7月在新加坡国立大学从事博士后工作,2019年7月被复旦大学计算机科学技术学院引进为青年副研究员。主要研究领域为多媒体内容分析与计算机视觉。主持/参与了包括国家自然科学基金、国家重点研发计划、上海市行动创新计划等多项科研项目。在 ACM Multimedia, CVPR, AAAI,ICMR,IEEE TIP,IEEE TMM等重要国际会议、期刊上发表论文 30 余篇,曾获得ACM Multimedia 2016最佳学生论文奖、Multimedia Modeling 2017 最佳学生论文奖。担任多个国际知名期刊审稿人、国际会议领域主席/程序委员会委员。
主持人: 金一 北京交通大学 教授、CSIG交通视频专委会副秘书长、CCF YOCSEF总部委员、CCF多媒体专委会委员 |