
谷歌研究团队近日发布了全新的通用视频编码器——VideoPrism,其在3600万高质量视频字幕对和5.82亿视频剪辑的数据集上进行了训练,并在33项视频理解基准测试中刷新了30项SOTA(最先进技术)成绩。
VideoPrism的设计旨在通过单一冻结模型处理各种视频理解任务,包括分类、定位、检索、字幕和问答等。其设计理念主要基于预训练数据和两阶段训练法。预训练数据方面,谷歌团队通过汇集高质量视频字幕对和带有噪声的并行文本,构建了一个庞大的语料库。在建模方面,VideoPrism采用了对比学习和掩码视频建模两个阶段,以优化语义视频嵌入和全局提炼。
VideoPrism的出色表现不仅体现在分类和定位任务上,还能进行视频-文本检索和QA问答。例如,给定一段视频,VideoPrism可以准确地检索出与文本内容相匹配的视频片段,或者根据视频内容回答相关问题。
谷歌团队表示,VideoPrism的成功验证了通用视觉编码器在视频理解领域的巨大潜力。未来,随着数据集的扩大和模型的不断优化,VideoPrism有望在更多领域实现突破,为视频理解和应用提供更强大的支持。
文章来源于互联,不代表科技云立场!如有侵权,请联系我们。
相关推荐
-
联发科技Mediatek新竹高铁办公大楼开工 预计于2027年完工
近日,联发科技举行了新竹高铁办公大楼的开工典礼,标志着该公司即将迈入新的发展阶段。这座新办公大楼预计于2027年完工,将成为联发科的一大里程碑,可容纳3000人,为公司的研发和运营…
-
再次亮相欧洲杯,容声冰箱硬核诠释中国制造“新模样”
在制造业以高品质、高技术著称的德国,敢于打出“品质”标签需要怎样的底气?6月19日,已经连续两次拥抱欧洲杯的容声冰箱第三次亮相欧洲杯赛场,给出了自己的答案。 “以品质领先,为健康养…
-
字节跳动Bytedance回应OpenAI服务使用情况:仅在初期探索时用于实验性项目
近日,有外媒报道称字节跳动Bytedance正在使用OpenAI技术开发自己的大语言模型,但这一行为违反了OpenAI的服务条款。对此,字节跳动相关负责人进行了回应。 据字节跳动相…
-
缅因大学研发巨型3D打印机:可80小时内建造一栋房子
缅因大学先进结构和复合材料中心近日宣布,其研发的新型巨型3D打印机已准备就绪,采用可回收材料,有望在经济适用房建设和国防工程领域发挥重要作用。这台打印机的核心特点在于其优先考虑使用…
-
消息称苹果最快年底推出 M4 系列芯片:更擅长处理 AI 任务
4 月 12 日消息,彭博社的马克・古尔曼在最新一期 Power On 时事通讯中,认为苹果正加速研发 M4 系列 Apple Silicon 芯片,有望提前到 2024 年年底装…
-
英伟达CEO黄仁勋大胆预言:人形机器人将迎“白菜价”时代,未来或将走入千家万户!
在近日举办的CadenceLIVE Silicon Valley 2024活动中,英伟达CEO黄仁勋与Cadence总裁兼CEO阿尼鲁德·德夫甘进行了一场引人瞩目的“围炉谈话”。在…
-
OPPO Find X7首发全焦段杜比视界HDR视频拍摄 打造大师级影像
OPPO将于1月8日召开新品发布会,届时会发布大家期待已久的OPPO Find X7系列,包括标准版和Ultra两个版本。近日,OPPO官方表示,OPPO Find X7超级标准版…
-
波士顿动力联手《阿凡达》和《侏罗纪公园》动画制作公司,开创娱乐机器人新纪元
自从作为麻省理工学院的衍生公司成立以来,波士顿动力(Boston Dynamics)一直以其系统的娱乐价值而闻名。这家现属于现代汽车的公司,通过发布数十个广受欢迎的视频,长期以来一…
-
英国禁烟令通过:禁止向2009年后出生者售烟,新西兰曾尝试未果
英国议会下议院近日以压倒性多数通过了关于禁烟令的法案,禁止向2009年1月1日之后出生的任何人销售烟草产品。这一举措标志着英国在公共卫生领域迈出了重大一步,旨在减少未来吸烟人口,降…
-
一加OnePlus 12即将全球发布!了解发布日期、价格和特点
OnePlus 12是备受瞩目的智能手机,即将在全球范围内发布。根据最新消息,该手机将于2024年1月23日正式发布,而中国市场已经率先上市。 OnePlus 12将采用高通最新的…
