
谷歌研究团队近日发布了全新的通用视频编码器——VideoPrism,其在3600万高质量视频字幕对和5.82亿视频剪辑的数据集上进行了训练,并在33项视频理解基准测试中刷新了30项SOTA(最先进技术)成绩。
VideoPrism的设计旨在通过单一冻结模型处理各种视频理解任务,包括分类、定位、检索、字幕和问答等。其设计理念主要基于预训练数据和两阶段训练法。预训练数据方面,谷歌团队通过汇集高质量视频字幕对和带有噪声的并行文本,构建了一个庞大的语料库。在建模方面,VideoPrism采用了对比学习和掩码视频建模两个阶段,以优化语义视频嵌入和全局提炼。
VideoPrism的出色表现不仅体现在分类和定位任务上,还能进行视频-文本检索和QA问答。例如,给定一段视频,VideoPrism可以准确地检索出与文本内容相匹配的视频片段,或者根据视频内容回答相关问题。
谷歌团队表示,VideoPrism的成功验证了通用视觉编码器在视频理解领域的巨大潜力。未来,随着数据集的扩大和模型的不断优化,VideoPrism有望在更多领域实现突破,为视频理解和应用提供更强大的支持。
文章来源于互联,不代表科技云立场!如有侵权,请联系我们。
相关推荐
-
2024央视龙年春晚好评如潮,七大亮点惊艳观众
随着新春的钟声敲响,2024年央视龙年春晚圆满落幕,收获了观众的一致好评。今年的春晚以“欢乐吉祥、喜气洋洋”为主题,通过短片《我们的春晚》拉开序幕,展现了各行各业人们的生活故事和对…
-
Apple对Mac用户iMessage的打击:客户感到困惑和不满
近日,苹果公司对Mac用户iMessage的打击引发了广泛关注和用户的不满。苹果这一举措被视为对其服务控制权的进一步巩固,但同时也引发了关于隐私和反垄断问题的质疑。 苹果公司近期阻…
-
微软Xbox更新:25款云游戏支持键鼠操作,并推出《地狱之刃 2:塞娜的传说》专有频道
微软Xbox团队近日宣布了一系列重要更新,不仅为25款Xbox云游戏添加了PC鼠标和键盘支持,还专门为即将于5月21日发行的《地狱之刃 2:塞娜的传说》制作了专有频道。这些更新进一…
-
马斯克的脑机患者首次曝光 患者可用意念下棋
当地时间3月20日,知名企业家埃隆·马斯克旗下脑机接口公司Neuralink通过一场直播活动,向公众介绍了其技术的最新进展。在这次活动中,马斯克的脑机患者首次曝光,并展示了其使用意…
-
微软延长Win11 22H2家庭版和专业版可选更新时间至6月26日
微软近日发布通知,针对Windows 11 22H2家庭版和专业版用户,将可选更新时间的截止日期从原定的2月27日延长至6月26日。这一调整旨在为用户提供更充裕的时间进行系统迁移和…
-
技嘉发布全球首款DP2.1 UHBR20显示器:带宽超出想象
据外媒报道,技嘉在CESC 2024展会上发布了全新电竞级显示器—“AORUS FO32U2P”,这款产品是第一款支持UHBR20模式的DP 2.1接口显示器,传输带宽更高、距离更…
-
九号电动即将发布智能碳晶电池,引领铅酸电池质保新时代
九号电动在今日正式宣布,将于4月19日19:00进行一场备受期待的新品直播发布。此次发布会的主题口号为“灵感大作,碳晶之力”,预示着九号电动将带来一款具有划时代意义的创新产品。 从…
-
苹果WWDC 2024或将谨慎对待iOS 18中的AI技术
知名科技记者马克·古尔曼(Mark Gurman)近日透露,苹果公司将在今年的全球开发者大会(WWDC)上发布全新的iOS 18系统,并重点讨论该公司对于人工智能技术的看法与整合策…
-
传闻苹果WWDC 2024预计推出AI应用商店,加速AI生态布局
在全球科技领域,苹果公司一直在致力于为用户提供最前沿的技术体验。近日,据业内消息人士透露,苹果正计划在即将召开的WWDC 2024开发者大会上,展示一系列全新融入AI元素的系统和软…
-
YouTube TV多视图功能扩大适用范围,iOS用户率先尝鲜
随着科技的不断进步和人们对多媒体内容消费需求的日益增长,多视图功能已经成为许多流媒体服务平台的必备功能之一。YouTube TV近日宣布将其多视图功能从电视设备拓展至iOS设备,让…
