
谷歌研究团队近日发布了全新的通用视频编码器——VideoPrism,其在3600万高质量视频字幕对和5.82亿视频剪辑的数据集上进行了训练,并在33项视频理解基准测试中刷新了30项SOTA(最先进技术)成绩。
VideoPrism的设计旨在通过单一冻结模型处理各种视频理解任务,包括分类、定位、检索、字幕和问答等。其设计理念主要基于预训练数据和两阶段训练法。预训练数据方面,谷歌团队通过汇集高质量视频字幕对和带有噪声的并行文本,构建了一个庞大的语料库。在建模方面,VideoPrism采用了对比学习和掩码视频建模两个阶段,以优化语义视频嵌入和全局提炼。
VideoPrism的出色表现不仅体现在分类和定位任务上,还能进行视频-文本检索和QA问答。例如,给定一段视频,VideoPrism可以准确地检索出与文本内容相匹配的视频片段,或者根据视频内容回答相关问题。
谷歌团队表示,VideoPrism的成功验证了通用视觉编码器在视频理解领域的巨大潜力。未来,随着数据集的扩大和模型的不断优化,VideoPrism有望在更多领域实现突破,为视频理解和应用提供更强大的支持。
文章来源于互联,不代表科技云立场!如有侵权,请联系我们。
相关推荐
-
苹果Vision Pro头显在美国开启预售:许多零件来自中国
据此前消息显示,苹果Vision Pro头显已在美国正式开始预售,其他有256GB、512GB和1TB三种版本可选,售价分别为3499美元、3699美元、3899美元。 虽然起售价…
-
Google 谷歌 Tensor 芯片侵权的专利诉讼已经达成和解
1 月 25 日,根据美国马萨诸塞州联邦法院公示的文件,一起关于Google谷歌 Tensor 芯片侵权的专利诉讼已经达成和解,但目前并未披露和解细节。 今年 1 月 10 日报…
-
小米Xiaomi 14 Ultra全球版和Civi 4即将推出,获得TÜV Rheinland无闪烁认证
小米公司近期在研发多款新设备,包括小米 14 Ultra、Mix Flip、Pad 7 系列平板电脑、Mix Fold 4 和 Civi 4,预计将在2024年上半年亮相。最新进展…
-
苹果Vision Pro跌落测试惊艳表现:瓷砖破碎而玻璃毫发无损
近日,知名博主“胜利文绉绉”对苹果新发布的Vision Pro进行了一系列跌落测试,引发了广泛关注。这款标价5750元的高端设备在测试中展现出了令人惊叹的耐用性,特别是在其玻璃材质…
-
Meta推出新功能:Instagram和Threads用户可限制政治内容推送
近日,Meta公司宣布,其社交平台Instagram和Threads已向用户推出新功能,允许用户选择限制时间线上政治内容的显示。这一功能旨在减少用户在不关注的账户中看到政治内容的频…
-
Uber与澳大利亚出租车司机达成和解,支付巨额赔偿
近日,全球领先的网约车平台Uber与澳大利亚出租车司机团体达成了一项具有里程碑意义的和解协议。根据Uber官网公告,该公司将向发起诉讼的8000多名出租车司机及租车行运营者支付高达…
-
华为mate70什么时候上市?预计九月,硬刚苹果iPhone 16
随着科技的飞速发展和消费者对智能手机需求的日益增长,各大手机品牌之间的竞争愈发激烈。作为国际知名的科技巨头,华为一直以其领先的技术和创新实力引领着行业的发展。近日,关于华为Mate…
-
Android用户遭遇YouTube应用崩溃问题 以下是最新解决方案
最近,一些Android用户在尝试使用YouTube应用程序时遇到了崩溃问题。这个问题的主要症状是,当用户试图加载视频时,视频可以正常加载,但相关内容如描述、评论和相关视频却无法加…
-
支付宝“五福节”升级来袭 将于1月29日开启
支付宝在近日举行的发布会上宣布,今年的“集五福”活动将全面升级为“五福节”,为用户带来更多创新和福利。该活动将于1月29日正式开启,一直持续到大年三十,即2月9日。 与往年相比,今…
-
Zoom宣布为苹果Apple Vision Pro头显推出专属应用 将于2月2日正式上线
近日,全球知名的视频会议应用Zoom宣布为苹果的Vision Pro头显推出专属应用程序,该应用将于2月2日正式上线。此次合作标志着Zoom在虚拟现实(VR)领域的进一步拓展,为用…
