
谷歌研究团队近日发布了全新的通用视频编码器——VideoPrism,其在3600万高质量视频字幕对和5.82亿视频剪辑的数据集上进行了训练,并在33项视频理解基准测试中刷新了30项SOTA(最先进技术)成绩。
VideoPrism的设计旨在通过单一冻结模型处理各种视频理解任务,包括分类、定位、检索、字幕和问答等。其设计理念主要基于预训练数据和两阶段训练法。预训练数据方面,谷歌团队通过汇集高质量视频字幕对和带有噪声的并行文本,构建了一个庞大的语料库。在建模方面,VideoPrism采用了对比学习和掩码视频建模两个阶段,以优化语义视频嵌入和全局提炼。
VideoPrism的出色表现不仅体现在分类和定位任务上,还能进行视频-文本检索和QA问答。例如,给定一段视频,VideoPrism可以准确地检索出与文本内容相匹配的视频片段,或者根据视频内容回答相关问题。
谷歌团队表示,VideoPrism的成功验证了通用视觉编码器在视频理解领域的巨大潜力。未来,随着数据集的扩大和模型的不断优化,VideoPrism有望在更多领域实现突破,为视频理解和应用提供更强大的支持。
文章来源于互联,不代表科技云立场!如有侵权,请联系我们。
相关推荐
-
Lenovo异能者A10平板电脑发布:通过蓝光认证 适合学生上网课使用
据外媒报道,Lenovo发布了新款平板电脑—异能者A10,该机配备配备10.1英寸“全面屏”,1280×800分辨率,60Hz刷新率,通过德国莱茵TUV低蓝光认证,同时支持爱眼不闪…
-
微软Copilot Pro全球扩张,覆盖超200个市场并提供免费试用期
微软近日宣布,其针对个人用户推出的高级订阅服务Copilot Pro正在逐步向更多区域开放,目前已覆盖全球超过200个国家和地区。Copilot Pro作为微软人工智能(AI)助手…
-
摩托罗拉Edge 50 Fusion宣传片曝光,全新设计引期待
近日,备受瞩目的摩托罗拉Edge 50系列手机再次成为科技圈的焦点。在摩托罗拉即将发布Edge 50专业版之前,其另一款新品——摩托罗拉Edge 50 Fusion的宣传片意外泄露…
-
谷歌首席隐私官将离职:任职13年,职位无人接替
6 月 5 日消息,据《福布斯》今日报道,谷歌首席隐私官 Keith Enright 将在效力 13 年之后离开公司,但谷歌目前尚未制定接替他的计划,因为公司正在重组负责隐私和法律…
-
vivo新品手机“冰冻后花屏”疑云散去,副总裁黄韬亲自解释原因
3月26日,在vivo新品手机的发布会上,一段疑似手机在长时间冰冻后出现花屏的视频在网络上引起了广泛关注。 vivo产品副总裁黄韬迅速对此事进行了回应,他解释称,这并非手机本身的问…
-
微软Microsoft:11月1日起Azure账户将不再支持TLS 1.0和1.1
微软公司Microsoft今日宣布,自2024年11月1日起,Azure账户将不再支持传输层安全性(TLS)1.0和1.1协议。这一决定将对所有使用TLS 1.0和1.1的现有和新…
-
OPPO为中国用户推出免费共享充电宝服务
随着智能设备的普及,充电需求日益凸显,共享充电宝服务在中国城镇如雨后春笋般涌现。为满足用户需求,OPPO与知名公共共享充电宝公司品森联手,为中国用户带来了一项创新服务——免费共享充…
-
库克现身上海,见证苹果静安零售店盛大开业
今日(3月20日),苹果公司的掌门人蒂姆·库克现身中国上海,为即将于次日开业的苹果静安零售店揭幕。这一举措不仅彰显了苹果公司对中国市场的重视,也标志着苹果在全球零售布局上的又一重要…
-
苹果被曝在测试一款新Apple Pencil 有望用于Vision Pro
据外媒报道,苹果公司在去年6月份的全球开发者大会上推出,已于2月2日开始在美国市场上市的Vision Pro,在操作上同苹果此前推出的产品有明显不同,不需要外部的操控工具,采用的是…
-
腾讯Tencent在游戏业务上面临重大挑战,子公司进行大规模裁员
腾讯Tencent CEO马化腾:面临游戏业务挑战,子公司大规模裁员 腾讯公司CEO马化腾近日表示,腾讯在游戏业务上正面临重大挑战,新产品未能达到预期,而老牌游戏如《王者荣耀》和《…
