
谷歌研究团队近日发布了全新的通用视频编码器——VideoPrism,其在3600万高质量视频字幕对和5.82亿视频剪辑的数据集上进行了训练,并在33项视频理解基准测试中刷新了30项SOTA(最先进技术)成绩。
VideoPrism的设计旨在通过单一冻结模型处理各种视频理解任务,包括分类、定位、检索、字幕和问答等。其设计理念主要基于预训练数据和两阶段训练法。预训练数据方面,谷歌团队通过汇集高质量视频字幕对和带有噪声的并行文本,构建了一个庞大的语料库。在建模方面,VideoPrism采用了对比学习和掩码视频建模两个阶段,以优化语义视频嵌入和全局提炼。
VideoPrism的出色表现不仅体现在分类和定位任务上,还能进行视频-文本检索和QA问答。例如,给定一段视频,VideoPrism可以准确地检索出与文本内容相匹配的视频片段,或者根据视频内容回答相关问题。
谷歌团队表示,VideoPrism的成功验证了通用视觉编码器在视频理解领域的巨大潜力。未来,随着数据集的扩大和模型的不断优化,VideoPrism有望在更多领域实现突破,为视频理解和应用提供更强大的支持。
文章来源于互联,不代表科技云立场!如有侵权,请联系我们。
相关推荐
-
苹果Apple推出DeepPCR算法 加速神经网络训练和推理能力
苹果公司近日发布了DeepPCR机器学习算法,该算法通过并行处理常规顺序操作,可以加速神经网络的推理和训练。神经网络已经能够处理文本或图片合成、分割和分类等复杂任务,但由于计算需求…
-
HUAWEI华为MateBook D 14 2024笔记本上架:定价4299元
近日据外媒报道,大家关注已久的华为MateBook D 14 2024目前已经上架,目前定价4299元,喜欢的朋友可以看一看。 据悉,华为MateBook D 14 2024笔记本…
-
微软Build 2024前瞻:PowerToys将迎来AI驱动的高级粘贴功能
在即将到来的微软Build 2024开发者大会上,一项备受瞩目的更新计划即将揭晓。根据微软官方公布的会议日程,公司计划对其官方系统优化和扩展工具PowerToys进行重大升级,引入…
-
AI时代拍摄新体验 三星Galaxy S24系列再创移动影像标杆
由AI引领的新一轮科技革命正在为很多行业带来变革,智能手机也不例外。正当人们期待AI的创新成果能够在智能手机上落地之时,三星带来全新的Galaxy S24系列,通过由Galaxy …
-
谷歌推出Jpegli:新JPEG编码技术大幅提升图片压缩率
谷歌近日发布了一款名为Jpegli的开源编码库,该技术针对JPEG格式存在的画质损失和压缩伪影问题进行了显著改进,将图片压缩率提升至前所未有的水平。据官方宣称,Jpegli能在保证…
-
英特尔Intel破冰新领域 成立新AI公司Articul8 AI
近日,英特尔Intel宣布成立一家专注于人工智能的新公司——Articul8 AI,以提供全栈、垂直优化的生成人工智能软件平台。这一举措进一步巩固了英特尔在人工智能领域的领先地位,…
-
消息称苹果将重新开放其海湾街零售店 提供全球苹果零售店信息的应用也发布
苹果公司Apple宣布,其位于加州埃默里维尔的海湾街零售店将于当地时间1月8日(周一)上午10点重新开放。这是自9月初该店因装修而关闭以来,首次重新向公众开放。 据苹果公司Appl…
-
iOS版谷歌Chrome浏览器新增实验性分组标签页功能
谷歌近日在iOS版Chrome浏览器中引入了实验性Flag,允许用户启用分组标签页功能,该功能此前已在安卓版Chrome和iPad版Chrome上推出,为用户带来了更为有序和高效的…
-
带你了解play store app更多小技巧:看完你就学会了
众所周知,在Google的play store app上,大家可通过Google Play商店上查找和下载应用和数字内容,一起来看看相关技巧吧。 Google Play 的各种用途…
-
微软或成英伟达最大客户,占其去年营收近20%
近日,芯片巨头英伟达公布的财报显示,其客户结构呈现高度集中化,少数几家大型科技公司贡献了公司收入的大部分。瑞士银行(UBS)分析师Timothy Arcuri认为,微软可能是英伟达…
