
谷歌研究团队近日发布了全新的通用视频编码器——VideoPrism,其在3600万高质量视频字幕对和5.82亿视频剪辑的数据集上进行了训练,并在33项视频理解基准测试中刷新了30项SOTA(最先进技术)成绩。
VideoPrism的设计旨在通过单一冻结模型处理各种视频理解任务,包括分类、定位、检索、字幕和问答等。其设计理念主要基于预训练数据和两阶段训练法。预训练数据方面,谷歌团队通过汇集高质量视频字幕对和带有噪声的并行文本,构建了一个庞大的语料库。在建模方面,VideoPrism采用了对比学习和掩码视频建模两个阶段,以优化语义视频嵌入和全局提炼。
VideoPrism的出色表现不仅体现在分类和定位任务上,还能进行视频-文本检索和QA问答。例如,给定一段视频,VideoPrism可以准确地检索出与文本内容相匹配的视频片段,或者根据视频内容回答相关问题。
谷歌团队表示,VideoPrism的成功验证了通用视觉编码器在视频理解领域的巨大潜力。未来,随着数据集的扩大和模型的不断优化,VideoPrism有望在更多领域实现突破,为视频理解和应用提供更强大的支持。
文章来源于互联,不代表科技云立场!如有侵权,请联系我们。
相关推荐
-
微软发布Windows Server 2025预览版:任务栏隐藏Copilot,版本号追平Windows 11
近日,微软正式发布了Windows Server长期服务通道(LTSC)的最新预览版Build 26085.1,此次更新将系统版本号追平至Windows 11,进一步统一了Wind…
-
苹果iOS 18及新系统更新亮点多,部分功能延迟上线
在今年的全球开发者大会(WWDC)上,苹果公司展示了一系列令人期待的软件平台新功能,包括iOS 18、visionOS 2和macOS Sequoia。然而,与以往不同的是,部分备…
-
三星AWE2024展新品:AI与艺术结合开启智慧家居新纪元
3月14日,备受瞩目的2024年中国家电及消费电子博览会(AWE2024)在上海新国际博览中心拉开帷幕。作为全球家电及消费电子领域的盛事,此次展会吸引了众多知名品牌和业内精英。其中…
-
OpenAI进军印度市场,聘请行业专家加速布局
在全球AI技术革新浪潮中,OpenAI公司正积极扩展其全球影响力,近日在印度迈出了关键的一步。该公司已聘请资深行业专家Pragya Misra作为其在印度的首位雇员,负责主管公共政…
-
德国亚马逊特惠!谷歌 Pixel 8 Pro + Buds A 系列,12/128GB,仅售999欧元!
在德国亚马逊上,您现在可以以特惠价购买谷歌 Pixel 8 Pro + Buds A 系列。这个套装包括了一部无锁的谷歌 Pixel 8 Pro 手机和 Pixel Buds A …
-
传闻领英LinkedIn开发内置游戏功能 员工得分或影响公司排名
职场社交平台领英(LinkedIn)正在积极研发一项创新的内置游戏功能,旨在通过游戏化的方式,增强用户之间的互动,并有望促进职场关系的深化。根据应用研究人员Nima Owji发布的…
-
【直播】汉唐荣耀版 超级发布会
2月28日15:00,比亚迪汉唐荣耀版焕新上市!作为王朝双旗舰,六边形冠军汉唐以超过25万元的成交均价,实现超120万的销量,成为中国品牌中唯一一个拥有超过百万用户基数的中高端双子…
-
微软旗下视频编辑工具Clipchamp迎来全新功能:AI自动创作和AI文本转语音
微软的视频编辑工具Clipchamp最近增加了一些新功能,包括AI自动创作和AI文本转语音。用户只需上传照片和视频,选择一个视频风格,AI就可以自动生成专业级的视频。此外,Clip…
-
Samsung Galaxy S24系列在印度预定量破新高:未来实现本地生产
此前三星发布了他们的旗舰机型—Samsung Galaxy S24系列,新机上市后被许多用户关注。 现在外媒放出最新消息,星宣布S24系列上市后在印度市场取得了惊人的成就,短短三天…
-
特朗普入驻TikTok,粉丝数迅速突破40万
在经历了一系列政治风波和司法挑战后,美国前总统唐纳德·特朗普于6月1日晚间在社交媒体平台TikTok开设了认证账号,并发布了其个人首个短视频。特朗普入驻TikTok迅速引发了广泛关…
