
谷歌研究团队近日发布了全新的通用视频编码器——VideoPrism,其在3600万高质量视频字幕对和5.82亿视频剪辑的数据集上进行了训练,并在33项视频理解基准测试中刷新了30项SOTA(最先进技术)成绩。
VideoPrism的设计旨在通过单一冻结模型处理各种视频理解任务,包括分类、定位、检索、字幕和问答等。其设计理念主要基于预训练数据和两阶段训练法。预训练数据方面,谷歌团队通过汇集高质量视频字幕对和带有噪声的并行文本,构建了一个庞大的语料库。在建模方面,VideoPrism采用了对比学习和掩码视频建模两个阶段,以优化语义视频嵌入和全局提炼。
VideoPrism的出色表现不仅体现在分类和定位任务上,还能进行视频-文本检索和QA问答。例如,给定一段视频,VideoPrism可以准确地检索出与文本内容相匹配的视频片段,或者根据视频内容回答相关问题。
谷歌团队表示,VideoPrism的成功验证了通用视觉编码器在视频理解领域的巨大潜力。未来,随着数据集的扩大和模型的不断优化,VideoPrism有望在更多领域实现突破,为视频理解和应用提供更强大的支持。
文章来源于互联,不代表科技云立场!如有侵权,请联系我们。
相关推荐
-
三星宣布2025年后率先引领3D DRAM内存时代
在全球半导体行业热烈讨论的焦点之一——3D DRAM内存技术方面,三星电子在近期举行的行业会议Memcon 2024上宣布了一个重磅消息:计划于2025年后在业界率先进入3D DR…
-
比亚迪2023年销量突破300万辆 自主品牌首次问鼎销冠
2023年中国车市销量终于出炉,过去一年,得益于新能源市场的爆发,比亚迪全年销售3024417辆,同比增长61.9%,超额完成年初定下的300万辆目标,增长势头迅猛,不仅一举夺得了…
-
谷歌推出“查找我的设备”网络,加强北美安卓设备定位服务
近日,谷歌在加拿大和美国推出了全新的“查找我的设备”网络,旨在通过创新的蓝牙扫描技术,帮助用户更轻松地找到丢失的安卓设备。这一服务的推出标志着谷歌在移动设备安全管理领域的又一重要进…
-
Honor Magic7曝光:这次功能上得到大幅度升级
随着Honor发布了Honor Magic6系列,许多用户对此非常关注。现在网上放出最新消息,下代的Honor Magic7在配置会得到大幅度升级。 荣耀Magic7Pro这次在外…
-
微软延长Win11 22H2家庭版和专业版可选更新时间至6月26日
微软近日发布通知,针对Windows 11 22H2家庭版和专业版用户,将可选更新时间的截止日期从原定的2月27日延长至6月26日。这一调整旨在为用户提供更充裕的时间进行系统迁移和…
-
Etsy CEO:将裁员11%,约合225名员工
Etsy是一家在线市场,允许买家和卖家交易独特的手工艺品,是最新一家在2023年裁员的公司。据首席执行官乔什·西尔弗曼证实,该公司将裁掉11%的员工,大约225名员工,这是该公司近…
-
三星Samsung与ASML达成历史性协议 推动2纳米芯片技术发展
近日,三星与阿斯麦(ASML)达成了一项历史性的协议,旨在推动2纳米芯片技术的发展。这一协议的签署标志着三星在半导体领域进一步巩固了其市场地位,并向着更先进的芯片制造技术迈进。 根…
-
三星推出Samsung Galaxy Z Fold 6与新型三折叠手机,回击华为HUAWEI
随着科技的不断进步和创新,可折叠手机市场逐渐成为各大手机制造商竞相争夺的焦点。近日,有消息透露,三星正计划在今年推出Samsung Galaxy Z Fold 6以及一款全新的三折…
-
真我realme新一代无双屏技术沟通会定档3月25日 引领手机屏幕进入“智能化时代”
近日,智能手机品牌真我realme正式宣布将于3月25日举办一场备受瞩目的“视界·无双”新一代无双屏技术沟通会。此次沟通会将展示真我品牌在手机屏幕技术上的最新突破,并宣告手机屏幕即…
-
苹果豪掷10亿美元竞购国际足联俱乐部世界杯美国独家转播权
《纽约时报》最新报道指出,科技巨头苹果公司正计划斥资高达10亿美元,参与竞购国际足联(FIFA)即将于2025年在美国举办的国际足联世界俱乐部杯的独家电视转播权。此举旨在通过体育直…
