
谷歌研究团队近日发布了全新的通用视频编码器——VideoPrism,其在3600万高质量视频字幕对和5.82亿视频剪辑的数据集上进行了训练,并在33项视频理解基准测试中刷新了30项SOTA(最先进技术)成绩。
VideoPrism的设计旨在通过单一冻结模型处理各种视频理解任务,包括分类、定位、检索、字幕和问答等。其设计理念主要基于预训练数据和两阶段训练法。预训练数据方面,谷歌团队通过汇集高质量视频字幕对和带有噪声的并行文本,构建了一个庞大的语料库。在建模方面,VideoPrism采用了对比学习和掩码视频建模两个阶段,以优化语义视频嵌入和全局提炼。
VideoPrism的出色表现不仅体现在分类和定位任务上,还能进行视频-文本检索和QA问答。例如,给定一段视频,VideoPrism可以准确地检索出与文本内容相匹配的视频片段,或者根据视频内容回答相关问题。
谷歌团队表示,VideoPrism的成功验证了通用视觉编码器在视频理解领域的巨大潜力。未来,随着数据集的扩大和模型的不断优化,VideoPrism有望在更多领域实现突破,为视频理解和应用提供更强大的支持。
文章来源于互联,不代表科技云立场!如有侵权,请联系我们。
相关推荐
-
微软宣布Windows 11将移除Cortana、写字板及Tips应用
微软近日在其官方公告中宣布,即将发布的Windows 11 24H2版本将彻底移除Cortana、写字板(WordPad)以及Tips应用程序。这一决策反映了微软对于操作系统持续演…
-
谷歌Google推出新试点计划:增强安卓反欺诈保护
谷歌近日宣布将启动一项新的试点计划,旨在通过增强欺诈保护,帮助Android手机用户避免遭受财务和个人信息诈骗。该计划将利用Google Play Protect的功能,为用户提供…
-
微星发布MAG 341CQP游戏显示器:QD-OLED面板+175Hz刷新率
据外媒报道,微星发布了一款名为MAG 341CQP的游戏显示器,它搭载了34英寸三星QD-OLED面板,分辨率为3440×1440,刷新率为175Hz,响应时间(GtG)为0.03…
-
Apple Pencil新消息曝光,揭示与Vision Pro交互新可能
在科技界,苹果公司一直以其不断创新和精益求精的产品设计而著称。最近,有关Apple Pencil可能支持Vision Pro设备的消息引起了广泛关注。这一预测并非空穴来风,而是基于…
-
消息称三星Samsung Galaxy智能手机摄像头将可与Windows计算机共享
在本周的 CES 2024 展会上,三星与微软共同宣布了一项令人兴奋的新功能:通过即将推出的 Link to Windows 更新,Galaxy 智能手机将能够将其摄像头连接到 W…
-
小米Xiaomi 15 Pro 将搭载 Snapdragon 8 Gen4 及其测试卫星通信
小米Xiaomi公司再次挑战智能手机技术的前沿,即将推出的旗舰产品小米15 Pro,凭借其搭载的 Snapdragon 8 Gen 4 处理器和卫星通信功能,成为业界关注的焦点。 …
-
FTC将TikTok儿童隐私投诉移交司法部,TikTok强烈反对指控
美国联邦贸易委员会(FTC)于当地时间6月18日发布声明,罕见地公开了其决定,将针对社交媒体平台TikTok及其母公司字节跳动可能侵犯儿童隐私的投诉移交至美国司法部。FTC主席Li…
-
Apple和Google失去应用程序权力:未来的变化与挑战
随着科技巨头苹果和谷歌逐渐失去对应用程序的控制,用户将面临一系列前所未有的变化。据分析,这一趋势将对数字音乐订阅、游戏下载和应用程序内购买产生深远影响。 在未来的日子里,用户可能会…
-
谷歌Google Pixel 8超级碗广告:引领视觉障碍用户探索世界
在即将到来的超级碗比赛中,谷歌再次为Pixel 8和8 Pro打响了广告战。这次的广告主打Guided Frame功能,这一功能旨在通过人工智能和先进的摄影技术,帮助视觉障碍用户更…
-
谷歌Google将“附近的分享”更名为“快速分享” 进一步推动跨平台合作
谷歌Google宣布将其“附近的分享”功能更名为“快速分享”,这一举措旨在提高用户在不同设备之间共享内容的便捷性。此次更名是谷歌进一步推动跨平台合作的一部分,将有助于加强谷歌与三星…
