平均mAP大幅提升,百度研究院夺得CVPR SoccerNet-v2足球视频理解竞赛双冠?
2021欧洲杯足球比赛最近落后,牵动了无数优艾设计网_设计百科粉丝的心。在精彩的比赛视频背后,人工智能技术正在重塑体育视频产业的内容生产方式。
在最近召开的国际计算机视觉和模式识别顶级会议CVPR2021中,视频理解领域最具影响力的ItternationalallengengonactivityRecognition(ActivityNet)workshop旗下的多场比赛发表了名单。竞赛吸引了百度、阿里、字节跳动、腾讯、华为等知名企业和清华、北大、斯坦福、麻省理工学院、中科院等国内外高校和机构参与。其中,全球首个以足球比赛视频的全方位理解为目标的SoccerNet-v2足球视频理解竞赛中,百度研究院以绝对优势夺取了全部两项任务的冠军。
百度获得了所有两项任务冠军本次比赛中使用的SoccerNet-v2数据集中在足球理解领域的规模最大,包括2014年至2017年三个赛季的欧洲足球五大联赛和欧洲冠军联赛的视频,视频总时间达到764小时,人工标记达到30万个,成为国际AI团队之间衡量足球视频理解能力的重要标准。
本次SoccerNetv2竞赛设置了事件定位(actionspoting)和回放跟踪(replaygrounding)两项任务。其中,事件定位是从足球比赛直播视频中找到一些关键事件并确定其发生的时刻。重要事件包括17个类别,包括进球、点球、任意球、红牌、黄牌、角球等重要事件,以及犯规、越位、射正、射偏等人类也难以立即识别的事件。同时,有些事件没有直接拍摄,需要根据上下文推测,这也是视频动作识别和事件检测能力的挑战。
播放跟踪是将足球比赛转播视频中的播放片段与原始事件相匹配。足球比赛录像中精彩的事件发生后,多次播放,播放和原始事件之间可能相隔数百秒,摄影视角也经常不同,能否匹配播放和原始事件是长距离视频理解能力的考察。
百度研究院文字转播视频VidPress团队专注于算法研究和应用创新,此次获得两项任务冠军,显示出优秀的技术实力。系统采用两个阶段的方法,首先特征提取器提取足球视频特征,然后将提取的特征作为第二阶段的具体任务模块的输入,进行事件定位和再生追踪。
事件定位和再生跟踪系统流程在特征提取阶段,团队认为在足球录像中微调的特征提取器有助于提高事件定位和再生跟踪两个下游任务的表现,因此在SoccerNetv2数据中微调了TPN、GTA、VTN、irCSN和I3D-Slow5种特征提取器模型。这五种特征提取器模型都是近年来视频理解领域在分类任务上表现出色的模型,标准数据集Kinetics-400上的成绩也排名第一。
在五大特征提取器模型上,团队也充分利用数据,设计了多种微调特征提取器模型的策略,开发了提取特征的新方法。获得每一个特点提取器在足球视频中提取的特点后,连接五个特点进行归一化处理,使优化后的特点对足球比赛视频具有很强的表现力,为后面的下游任务奠定了坚实的基础。
在事件定位和再生追踪阶段采用了Transformer结构。Transformer架构的特点是更清晰、更标准化、模型容量大、扩展性强,能够适应计算机视觉、自然语言等多种业务。Transformer结构在这两个任务中体现了对视觉语义特征的精确分时处理能力,优于基础算法中Siamese网络的学习能力和培训速度。在训练过程中,事件定位采用mix-up数据加强,有效利用训练数据,降低拟合。在回放跟踪任务中,模型结构的更换使训练时间减少到原来的八分之一。
结合上述视觉信息语义化特点,以及为新任务订制的Transformer结构,百度研究院在竞赛成绩上取得了很大的领先地位。在事件定位任务中,基线的平均mAP从52.54%上升到74.84%,上升了22.3个百分点,是第二位上升的约2倍的再生追踪任务中,平均mAP从基线的40.75%上升到71.90%,上升了31.15个百分点,比第二位上升了63.91%
技术应用于现实应用智能视频生成工具应运而生
百度研究院在这场比赛中脱颖而出,基于大规模视频数据的算法能力技术积累是必不可少的。
该技术具有非常高的实用价值,可大规模应用于体育比赛视频,通过智能识别会场比赛,在不需要人工干预的条件下,可以正确、实时地切分终点、投篮、犯规等动作片段。
基于此项能力,团队开发出了一系列应用工具并成功落地。
首先是行业领先的自定义足球精彩集锦生成工具。输入选手后,选择竞技场,可以自动生成该选手的精彩瞬间视频集锦和慢动作播放。目前,该系统已登陆百度百科400多名足球运动员和球队页面。
输入选手名称,生成该选手的视频集锦
其次,贯彻文本语义理解和视频图像理解,团队建立足球文字战报转换视频平台。输入文字转播内容和转播间地址,可以智能地集中生成对应的视频内容,提高战报的生成效率和可读性。
根据文字直播内容智能生成对应的片段视频
此外,团队还建立了基于图像场景识别的智能视频生产线,该生产线可以快速理解上传的长视频,检测是否有终点,正确定位视频中的终点瞬间,完成自动剪辑。
上传比赛录像,自动识别生成终点片段
基于智能录像技术的不断创新和积累,百度研究院于2020年初孵化智能文字转换录像工具VidPress,是业界首次支持通用型、大规模的全自动录像生产技术。VidPress支持单击导入文字链接,自动生产配音、字幕、画面视频内容,降低素材收集、整理、匹配的时间成本。目前VidPress已作为百度大脑智能创作平台中的核心能力,为人民日报等多家媒体机构的智能视频生产赋能;为秒懂百科智能生成上千条球员精彩瞬间视频;为百家号和好看视频等平台的终端用户提供一键视频生成服务。百度大脑智能创作平台基于自然语言处理、知识图谱、视觉、语音的整合技术能力,为创作者提供多项能力,助力新闻生产的策、采、编、审、发全流程,全面提升内容生产效率。
全视频时代到来,各行各业对视频的应用、体验和效能提出了新的升级需求,智能视频变化趋势背后的驱动力离不开AI的身影。无论是足球比赛视频,还是其他内容丰富、形式多样的视频内容,未来百度也将持续在相关领域的技术上不断突破迭代,并持续赋能应用与产品落地,为视频行业的发展与变革注入充足动力。
精彩评论