多模态视频分析火了真正的应用场景有哪些现状与挑战?

2022-06-08 14:05 作者: 来源: 本站 浏览: 我要评论多模态视频分析火了真正的应用场景有哪些现状与挑战?已关闭评论 字号:

摘要: 目前人工智能发展已经趋于冷静与理性,从公开的大众话题回归到领域内的专业话题,从外部炒作和泡沫回归到实际产业价值和经济价值的产出。为了助力人工智能公司集中精力在细分领域获取核心信息,高效树立品牌形象,延续自身优势并获取本领域的更多资源,机器之心聚焦特定领域或主题...

目前人工智能发展已经趋于冷静与理性,从公开的大众话题回归到领域内的专业话题,从外部炒作和泡沫回归到实际产业价值和经济价值的产出。为了助力人工智能公司集中精力在细分领域获取核心信息,高效树立品牌形象,延续自身优势并获取本领域的更多资源,机器之心聚焦特定领域或主题,深度挖掘技术发展和产业应用的复杂需求与挑战,特别策划出品了「Target 系列论坛」。

首期论坛聚焦多模态视频分析这一垂直领域。过去几年来,有大量的研究项目聚焦多模态深度学习,致力于构建能够同时处理语音、文本、图像、视频等多种不同类型数据的 AI 系统。大规模视觉语言预训练模型的出现,比如 OpenAI 的 CLIP 和 DALL-E 2,更是将多模态内容感知和理解技术往商业化落地推进了一大步,其中一个典型便是智能化的视频生产和分析。

6 月 8 日 19:00-21:00,「Target 系列论坛」首期在线上举办,以「多模态 AI 视频分析:技术及应用」为主题,邀请产业链各方代表分享和展示最新的技术及应用案例,交流探讨「多模态 AI 视频内容分析」在实际场景中的现状与挑战,为开发实践和未来研究提供见解和方向。

嘉宾简介:王金桥,中国科学院自动化研究所研究员,博士生导师,中国科学院大学人工智能学院教授。主要从事预训练大模型、目标检测与识别、视频分析与理解等方面的研究,共发表论 280 余篇,获得国内竞赛冠军 20 余项。

分享摘要:本次将介绍千亿参数多模态预训练大模型 紫东太初 ,它开拓性地实现了图像、文字、语音和视频等不同模态数据的统一表示和互相生成,兼具理解和生成认知能力,并实现了在媒体理解、人机对话等多场景的落地应用。

嘉宾简介:李静,博士,优酷技术中心总监,摩酷实验室负责人。法国南特大学计算机博士,曾任法国国家科学院研究员。2019 年加入阿里巴巴。研究方向多媒体视觉体验质量评价,3D 视觉,机器学习等。为多个国际、欧盟、国内专家组和标准组成员。参与制定多个 IEEE 以及 ITU 国际标准,担任多个国际期刊与会议主编以及评审。

分享摘要:优酷 AI 视频智能生产系统,基于自有 IP 版权内容,从视频、音频、弹幕等多模态信息中提取看点和标签,沉淀图片、镜头、片段级看点素材形成素材库,通过自研算法具备根据不同内容创作模板进行加工与视频剪辑合成的能力,同时可自动配合相应标题与封面图,满足人机配合高效创作精品、以及自动化批量生产满足优酷内容需求的分级智能生产系统。

嘉宾简介:郭彦东,OPPO 公司智能感知首席科学家,对应技术委员会以及智能驾驶负责人,北京邮电大学兼职教授。郭博士致力于计算机视觉与人工智能的学术研究,也注重在工业界的应用。他的论文被广泛接收在 CVPR、ECCV 等国际认可的学术会议期刊,同行引用数千次,赋能了 GE、HP、Microsoft、小鹏汽车、OPPO 等公司的多款核心产品。本次郭博士也邀请了 OPPO 研究院部分技术骨干与实验室负责人与他共同分享。

分享摘要:OPPO 讨论了视觉信号与其他模态的信号融合的不同方式,包括声音、文字、激光雷达,以及多路视频的相互融合方式。通过场景化的设计具有融合作用的神经网络架构,实验展示了视觉信号可以融合其他模态来提高识别效果,也可以与文字一起进行有效的联合预先训练(特别是分割场景),多路视觉信号对于 3D 立体重建,特别是人体重建,有非常好的效果。

特邀主持人简介:赵行,清华大学交叉信息院助理教授,博士生导师。他的主要研究兴趣为多模态机器学习,自动驾驶和机器人学。在此之前,赵行在麻省理工学院 MIT 取得了博士学位,后于谷歌无人车项目 Waymo 担任研究科学家。赵行博士的工作曾被多家主流媒体报道,如 BBC, NBC, 麻省理工科技评论等。他的工作获得了 2015 年 ICCP 最佳论文奖。他本人入选了 2020 年福布斯中国 U30 科学精英榜。

特邀嘉宾简介:文镇,腾讯信息平台与服务业务线 AI 算法负责人,研发前沿 AI 技术让内容处理、加工和分发更加智能高效。博士于清华大学计算机系本科毕业,美国伊利诺伊大学(UIUC)获得博士学位,曾在阿里巴巴、谷歌公司和 IBM T. J. Watson 研究院从事大数据和 AI 工作。获得过腾讯和 IBM 多个卓越研发成就奖,多个国际学术会议的最佳论文奖,曾担任 IEEE TMM 副主编。

此次圆桌聚焦多模态视频分析这一垂直领域,交流探讨多模态 AI 视频分析在实际场景中的现状与挑战,讨论话题包括多模态数据表示、多模态融合(即传统和基于深度学习的方案)、多模态迁移学习等。

直播间:关注机器之心机动组视频号,北京时间 6 月 8 日 19:00 开播。

优酷会员5.9元/月,8.9元/2个月,请点本站上边链接购买

2022年06月08日 14:05:03

 

随机账号机器密码:
35GX916tcN98 US24z
76EI470dmE18xl JE80fm798Fscy
02GP21 AI73bp73
43UK YW45ei

Comments are closed.

会员登录关闭

记住我 忘记密码

注册会员关闭

小提示: 您的密码会通过填写的"电子邮箱"发送给您.