当前位置：首页 > 科技 > 正文

“找片儿”太难？大模型+视频搜索轻松解决！

启示号
科技
1年前
203

上述技术方案的能够满足使用者基本的视频检索需求，但是也存在缺陷：

• 大量视觉信息无法参与检索召回：基于现有多模态算法的搜索，只能识别处于标签体系内的人、物、ASR、OCR等内容，大量视觉信息（比如在蓝天翱翔的飞鸟），无法文本化参与检索。

• 强依赖知识图谱与语义分析：知识图谱的维护与更新、意图理解的能力，均需要不断地投入与更新，使用负担较大。

• 基于关键词的搜索丢失语义联系：以“马老师骑自行车”为例，基于关键词的搜索只能合并搜索“马老师”和“自行车”两个关键词，丢失“骑”这个概念，导致召回偏差。

与此同时，随着时代发展，大家找片子的手法也越来越刁钻。使用者希望不再满足于某个关键词，而是希望使用类似下面的自然语言，去匹配视频本身的内容，而不仅仅是人、物、ASR、OCR可文本化的内容，比如：足球运动员受伤、飞机穿越天门山、春风化雨育桃李......

如果要实现这样智能的搜索效果，应该怎么做呢？我们先来回顾视频检索技术的发展历程。

02 视频检索技术发展历程

第一代：基于文本的传统视频检索

在网络还不发达的时代，计算机对于音视频的处理能力及其有限，媒体数据仅仅被当作是文本数据的扩展。为了能够搜索媒体数据，网站编辑一般会对媒体数据做一次人工编目：取好标题，写好描述，甚至会手动添加若干关键词。

所以，传统的视频检索，本质上是退化为文本检索，通过利用关系型数据库（如mysql）或文本倒排数据库（）的能力，对文本分词，进行检索排序。

第二代：基于AI标签的跨模态视频检索

随着互联网音视频数据量的日益增长，媒资人工编目已经到了不可持续的地步，必然要求更高生产力技术的引入。

到21世纪10年代，基于CNN架构神经网络的日趋成熟，AI已能简单理解和认识视频中的客观实体，并能通过分类模型给视频分类，此时智能标签技术便应运而生。以阿里云视频云的智能标签技术为例，它能够给视频自动打出以下标签：

• 客观实体：名人/政治人物/敏感人物、地标、Logo

• 场景与动作事件

• 时间、地域、人物等关键词

• 视频类目信息

第二代视频检索技术是在第一代技术的基础上，对视觉、听觉的模态进行了自动分析，将其转化为文本数据，其总体架构仍然未变，仍是基于文本的检索。

搜索代际变革_搜索代际变革网站_第三代搜索

第三代：基于大模型的自然语言视频检索

上述搜索依赖于关键字或标签进行内容索引和检索，但这类方法存在明显的限制，尤其是对于非文本内容，如：图片、视频，用有限的标签来描述它们的全面信息是非常困难的。这些标签可能既无法覆盖所有相关的概念，也无法表达内容的细致差异和深层含义。

随着AIGC和所谓的“通用人工智能（AGI）”崛起，尤以大语言模型（LLM）为代表的大模型全面应用为契机，第三代视频检索技术开始成熟。LLM内部包含着人类海量知识的表征，将LLM延展到音视频模态，我们即可实现对媒体数据的表征。

多模态表征大模型能够将文本、图片、音频、视频等内容转换成高维空间中的向量表示，也称为嵌入（）。这些嵌入可以捕捉到内容的语义信息，并将其映射到一个连续的向量空间内，使得语义上相似的内容在这个向量空间中彼此接近。

大模型检索技术支持自然语言搜索，用户可以用自己的话描述他们想要找的内容，而不是依赖于预先定义好的关键词或标签。通过对自然语言描述的理解，大模型可以将这些描述转换为相应的向量表示，并在高维空间中寻找最匹配的内容。

第三代搜索_搜索代际变革_搜索代际变革网站

第三代检索技术的优势在于它的灵活性和表现力。用户不必再局限于有限的关键字，而可以用自己的语言进行更精确和细腻的描述。同时，由于大模型能够理解内容的深层意义，搜索结果通常更加相关和准确，增强了用户体验，并为获取和发现信息提供了更加强大的工具。

例如，一个用户想要找到一张描绘“一个穿着古代盔甲的战士在日落时分静立在山巅”的图片和视频。在传统的基于标签的搜索系统中，用户可能需要尝试各种组合的关键词，比如“战士”、“盔甲”、“日落”、“山巅”等。而在大模型的跨模态检索系统中，用户可以直接输入完整的描述，检索系统会理解其语义并返回匹配的图片和视频。

03 自然语言视频检索上线

阿里云视频云基于达摩院的多模态表征大模型，在点播和智能媒体服务中上线了自然语言视频检索。并结合已有的AI标签检索、人脸检索、图像相似度检索，形成了完整的多模检索解决方案。

自然语言视频检索演示：

我们当前实现的自然语言视频检索技术，支持性能参数：

• 最大支持10万小时规模的视频中召回相关片段

• 在10QPS搜索速度下RT

• 召回的片段准确率达到80%以上

当然，在实现自然语言视频检索的过程中，我们也遇到了一系列的难点和挑战。

第三代搜索_搜索代际变革_搜索代际变革网站

下文将讲述我们如何克服这些难点与挑战，并介绍实现的技术原理与方案，以及未来视频检索进化的方向。

04 多模态表征大模型算法

算法原理

CLIP 是在2021年提出的一个视觉分类模型，在没有微调的情况下，预训练模型能够在下游任务中达到十分出色的迁移效果。为了摆脱监督学习对标注数据集的强依赖，CLIP采用了自监督对比学习方案，从互联网收集的4亿对图文数据对中学习图像和文本的对应关系，进而获得了视觉-语言的对齐能力。

CLIP预训练模型包含两个主要模块：Text 和 Image ，其中Text 用来提取文本的特征，采用63M参数的text 模型，而Image 用来提取图像的特征，采用基于CNN架构的模型或者基于架构的ViT模型。

第三代搜索_搜索代际变革_搜索代际变革网站

基于文本搜索图像是CLIP的一个最直接的应用，先将待检索图像送入Image 生成图像特征并存储，再将检索文本送入Text 生成文本特征，使用文本特征与存储的图像特征逐一进行比对，其中余弦相似度最高的就是检索得到的图像。

CLIP虽然是基于文本-图像对训练的，它也可以很自然的推广到文本-视频检索任务中：对视频抽帧获得关键帧图像，再将关键帧图像送入Image 提取图像特征即可。

算法选型

尽管CLIP具有优异的zero-shot迁移能力，但它是基于英文数据集训练的，要将其应用到中文搜索中需要非常麻烦的翻译工作。为了避免增加翻译模块而引入额外的计算量，我们找到了达摩院发布的两个开源中文检索模型：TEAM 和。

TEAM是达摩院在2022年发布的一项工作，作者在CLIP的双塔结构上新增了一个名为Token （TEAM）的模块，该模块用于对token级别的图像特征与文本特征做显式对齐，并为输入的图文对生成匹配得分。

所述框架中Image 采用vit-large-结构，Text 采用bert-base结构。作者还构建了一个10亿级规模的中文视觉-语言与训练数据集（通过夸克收集），通过在这个数据集上对所提出框架进行预训练，在中文跨模态检索基准测试（-CN, -CN 和 COCO-CN ）中达到了先进的性能。

搜索代际变革网站_第三代搜索_搜索代际变革

是达摩院在2022年发布的另一项工作，主要是基于2亿规模的中文数据集（原生中文数据+汉化中文数据）完成了对CLIP的汉化工作，而模型结构没有做大的改动。

为了实现跨模态基础模型对中文数据的高效迁移，作者开发了一种两阶段预训练方法，其核心思想是利用LiT（-image ）使文本编码器能够从CLIP的基础视觉模型中读出高质量的表示，然后将整个模型转移到新的预训练数据域。

首先使用已有预训练模型对图文双塔做参数初始化，其中Image 使用CLIP的参数，Text 使用中文的参数。第一阶段，冻结Image 参数，只对Text 进行预训练参数更新；第二阶段，通过对比学习同时微调Image 和Text 。通过两阶段训练，在中文跨模态检索测试（MUGE, -CN, 和 COCO-CN）中达到了最先进的性能。

搜索代际变革网站_搜索代际变革_第三代搜索

算法评测

基于阿里云视频云AI编辑部长期积累的数据，最终采用了一些短视频作为测试视频集。该视频集以几分钟到10几分钟的短视频为主，包含新闻、宣传片、访谈、动画等各种类型的视频，这也十分符合视频云客户定位。

搜索代际变革_第三代搜索_搜索代际变革网站

将测试视频集入库之后，我们设计了一些自然语言句子作为搜索的query，会保证query一定有对应的视频。考虑到视频集规模较小，我们最终只评估召回TOP1的准确率。

经过实际测试，TEAM和都能够达到TOP1返回80%的准确率，二者都可作为大模型特征提取器嵌入系统框架中。

05 搜索工程技术方案

在系统架构设计上，我们的搜索服务架构采用Core-设计体系，把最核心不易变化的搜索流程设计为Core模块，把各种不同的搜索业务，分开做成不同的。搜索Core模块内部有个管理器，管理所有（设计上允许自注册）。

每个包含3个接口信息分为特征提取、查询改写、聚合打分。

第三代搜索_搜索代际变革网站_搜索代际变革

上述传统搜索、跨模态检索、大模型搜索分别对应3种，另外还支持新增人脸搜索、DNA搜索，后续其他搜索可以支持扩展。

第三代搜索_搜索代际变革_搜索代际变革网站

在入库流程上，媒资入库时支持多维度的内容理解：

• 基础信息base-：传统搜索引擎

• 智能标签-：依托达摩院自研智能标签算法，支持物体、场景、地标、事件、LOGO、字幕OCR、语音ASR、词、类目、主题、人物角色、自定义标签识别

• 人脸特征face-：人脸识别

• DNA特征dna-：同源检测特征提取

• 大模型特征mm-：多模态大模型特征提取，进行内容理解

把媒资按照不同维度进行内容理解，传统标量数据存ES构建倒排索引，向量数据存在自研分布式向量数据库。

搜索代际变革网站_搜索代际变革_第三代搜索

在搜索流程中，跨模态大模型搜索根据用户query文本，再经过大模型提取文本特征，搜索向量底库得到目标内容，针对视频内容会先聚合片段方便后续展示命中视频媒资内部的细节信息。用户也可以进行传统ES文本搜索得到目标内容，用户可以结合两种搜索方式使用，多路召回能力目前还于内测中。

当前视频抽帧频率是1秒1帧，大模型搜索命中可以得到秒级别的片段信息，满足用户精准定位目标内容需求；依托了我们自研的分布式向量数据库，支持海量数据（10亿级别）特征数据存储，搜索时延在1s内。

目前针对自然语言描述搜索TOP1准确率达80%，针对复杂语义的理解搜索还存在困难，后续结合LLM做改进优化。

人脸检索支持以图搜，多模检索支持以文搜，大模型检索支持以文搜、以图搜。

搜索代际变革_搜索代际变革网站_第三代搜索

在扩展性上，大模型搜索支持多租户，各租户之间数据相互隔离，既支持低成本共享实例，也支持高性能独享实例；用户管理媒资数据时支持建立多个搜索库，每个搜索库可分别设置搜索索引，搜索索引底层算子支持配置选择；用户根据搜索库增删改查媒资数据，满足客户不用使用场景，搜索架构具有高扩展性、可靠性、稳定性。

第三代搜索_搜索代际变革网站_搜索代际变革

06 总结和展望

本文介绍了智能媒体服务的跨模态大模型检索技术实现和使用，我们把媒资进行多维度分析，使用传统的基于ES的标量检索和基于向量的特征检索有机结合，满足用户对长视频的内容理解和跨模态精准检索的需求。

但是，视频检索技术还远远没有进化到终点，在下面几个方面仍待优化与突破。

一是算法的提升。

准召率优化：当前达摩院表征大模型TEAM和，召回准确率达80%；达摩院在研新多模态信息表征合一模型MBA召回准确率可达93%，后续待接入。

新的模态融合：当前接入的表征大模型，仅支持文本与图像的对齐，音频模态是缺失的。想象一下，如果我搜“空山新雨后”，找到了一幅搭配雨声的山水风景视频，是多么酷的体验。

多表征融合：当前算法仅基于句子级别的文本，以及帧级别的图像进行特征提取，其实是丢失了视觉中的人物、物体等客观实体细节的。理想中的表征大模型，应该是多表征融合的。例如我搜“梅西捧着金球奖”，出现的应该是梅西拿着金球奖，而不是C罗捧着金靴奖。这意味着表征大模型需要有人物识别和文字识别的能力，而不仅仅依赖训练中的文本-图像对。

二是成本与性能的平衡。

表征特征压缩：当前是768维维向量，已经实现了压缩为uint8搜索效果基本保持一致，正在探索压缩为01二值向量，实现低成本存储与搜索。

基于片段的表征：当前视频每秒抽取一帧进行特征计算存储，已经研究出视频片段合并，提前进行特征聚合减少抽帧数量，降低存储同时提升搜索效率。

三是在工程与体验上。

多路召回：针对AI标签搜索、人脸检索、大模型检索，支持用户进行同时搜索，搜索结果合并后重新打分排序。

检索增强LLM：支持对用户复杂搜索语句的理解，搜索时针对用户query语句进行query改写实现QP能力，识别、等字段进行搜索语句SQL式转换，搜索结果结合原始query通过大模型再次分析过滤排序等；自然语言搜索增强形式，结合大模型实现问答式搜索，支持企业快速构建媒资知识库。

目前，自然语言视频检索已在阿里云智能媒体服务（IMS）上线，欢迎大家咨询体验。

媒资搜索产品文档：

欢迎加入官方答疑「钉钉群」咨询交流：

参考文献及大模型：

[1] 《视频搜索太难了！阿里文娱多模态搜索算法实践》：[2] 《深度 | 上亿用户每天看100分钟！基于多模态及检索的短视频内容理解》：[3] 《优酷推出“AI搜片” | 模糊搜索精准匹配，解决找片难》：[4] 模型：[5] TEAM图文检索模型：

你可能想看：

一文搞定隐形圆8大模型（基础篇提高篇）

定角定周，使得BD=AB，则DE的长等于△ABC的周长，作△ABC的旁切圆⊙O，则△ODB≌△OEB，△ODC≌△OFC。∴BD=BE，∴AE+AF等于△ABC的周长，又∵△AOE≌△AOF，∴AE=...

UC头条：尿频尿急尿不尽尿痛八正散轻松解决

想要了解某个食材或药材的功效可以看《中药学》，生病时想要自己尝试用中药方，最近阿公一次生病就是翻看《方剂学》找的方子治疗，阿公这个情况在中医上属于湿热淋证，尤其是阿公说的吃了西瓜就缓解症状，正是刚好对...

这4个问题，用分列都能轻松解决！

分列和替换都是很普通的功能，比如文本型日期、分隔符号用.、没有分隔符号的8位数字等。分列比替换更好用，2.从系统导出的文本型数据处理文本型日期，没法直接右键组合，需要先将日期和时间拆分。文本型数字也没...

水管冻住了怎样快速解冻？这里有三个实用方法，任选其一轻松解决

直接让水龙头、水表、水管、花洒产生了上冻现象，又有哪些好方法可以防止水管被冻呢？水管冻住快速解冻的方法，热敷方法可以说是快速解冻水管的常见方式，操作方法就是将一条毛巾包裹住水管裸露的被冻的部分。而最佳...

10种常见健脾中成药，轻松解决脾虚【一点资讯】

体内湿邪过重首先会导致脾胃运化失常食欲不振，10种清热化湿健脾的中成药，脾胃功能不好的可以食用调理。有效的祛湿调理脾胃。平胃丸有着很好的燥湿健脾的功效，其主要治疗因为湿邪过盛导致的脾胃运化失常，祛湿健...

大明：路由器经常断网是什么原因？教你3招，轻松解决

路由器经常断网的原因有可能是“路由器长期开启运行不稳定，步骤一首先将路由器断电等待2至3分钟后再开启“长期开启运行导致内部电子元件运行不稳定，所以需要将路由器断电后再开启。避免路由器经常断网的问题”建...

女人每天踩一踩脚，不易得妇科病！问题轻松解决~

意思是说全身许多疾病可以从足而治愈。我们这样做不仅能保养妇科、消除内在炎症”脚后跟的反射区是生殖腺（则泌尿生殖系统）：也就是说脚后跟可以调节人的泌尿生殖系统问题，不能充养于足跟时，则会出现足跟痛的症状...

手机“wifi”明明已连接，却上不了网？教你一招，轻松解决

不少朋友在使用手机上网浏览网页，观看电视电影的时候经常都会遇到wifi明明已经显示连接上了，其实我们只需要简单更改一下设置就能快速解决这些问题，接着找到已经连接的【wifi】信号！然后往下找到【IP设...

炒牛肉还用淀粉腌？滑溜溜的太难吃！试试这做法，又鲜又嫩不粘锅！

但炒牛肉可是个技术活，加了淀粉的牛肉口感虽然鲜嫩了很多，用这个方法炒出来的牛肉呀，但滑蛋牛肉并不是鸡蛋炒牛肉这么简单，有人会通过水淀粉先勾芡后下蛋液的方法制作滑蛋牛肉，想要牛肉滑嫩，腌制时也要注意味料...

中药药用知识一览表，太难得了！家庭必备！

消食化瘀的好手：凉血止血的草根太医；清热解毒之最—---金银花：利水渗湿之最———茯苓：泻火之最———黄连：生津之最———石斛：化痰之最———半夏“平肝之最———羚羊角”止痛之最———元胡：补阴之最—...

菊花有点难拍，尤其是菊花展上的菊花，太难...

菊花有点难拍，尤其是菊花展上的菊花，太难拍了。花朵密集，背景杂乱，各种各样的菊花，的确太漂亮了。作为一名花卉摄影爱好者，每年的菊花必拍，拍摄菊花，主体花朵要突出，背景不能杂乱，要么用大光圈或长焦虚化，...

太难找了，最全人体穴位解秘（保健者最爱，望得者珍惜）！

位置在手掌面关节横纹的中央，手心拇指(肺经)、中指(心包经)小指(心经)手背食指(大肠经)、无名指(三焦经)、小指(小肠经)。在手肘关节弯曲凹陷处，手指的肺穴;改善颈部僵硬。消除黑眼圈、眼部减压;可舒...

127思维模型：合作模型一合作不是基于信任，而是持续的关系

所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。均衡状况会是两个囚徒都选择背叛，在这种情况下没有一个参与者可以通过独自行动而增加收益，如果甲独自改变策略进行合作，这种...

【解题研究】中考数学几何必会模型：三垂直全等模型

许兴华数学：1458篇原创内容，公众号：今天老师给大家整理了中考数学需要掌握的几何模型：助力中考；三垂直全等模型“中考数学几何必会模型”三垂直全等模型，（4）投稿邮箱，或加主编微信xuxinghua1...

茶叶均价不到70一斤？大家平时喝的口粮茶是什么茶，多少钱一斤？

首先我们需要了解当下国内茶叶生产和消费的具体情况，叫做《2020年中国茶叶产销形势报告》，一、2020年中国茶叶产销量分配。以上这4类占据了我国茶叶97%以上的份额。剩下的白茶和黄茶。2020年我国茶...

抖音作品发第二遍会火吗？大数据告诉你，真相是这样的

听说发第二遍会火，关键是他这个作品还真的火了，不管之前作品数据怎么样，这类的标题就自带新奇感，间接就提高了作品的完播率数据。转发量）.完播率是非常重要的。那又有朋友会问到，第二次发布作品能火的概率很低...

为什么饭店炒菜那么香？大厨说漏嘴，原来用了它，难怪那么好吃

我们发现和多放点炒菜都很香，我们自己就炒不出那样的香味。厨房里有很多调料，酱油也是厨房中必不可少的调料。酱油有独特的酱香味，炒菜的时候放些酱油不仅味道更香，其实饭店里做的菜那么好吃，饭店的大厨巧用酱油...

印度为何不敢吞并不丹王国？大国夹缝中的不丹又将何去何从？

虽然我国没有跟不丹建交，因为不丹的外交政策受印度指导，所以印度不让不丹和中国建交。之后不丹便一直接受着清王朝的册封，那是无时无刻不想将南亚小国给灭了。直接吞并小国锡金王国，印度再也没有灭国。那么印度为...

吃螃蟹，蘸姜醋汁不好吃？大厨教你调制秘制料汁，比姜醋汁味道好

吃螃蟹螃蟹配什么吃，蘸姜醋汁不好吃？大厨教你调制秘制料汁，特别配螃蟹的味道，味道难免变得单调不好吃。我就分享给大家蘸螃蟹的秘制料汁的做法，味道会变得特别的鲜美好吃，秘制料汁分享给大家。少许胡椒粉，接下...

初中数学常用几何模型及构造方法大全，掌握它轻松搞定压轴题！

相邻等线段绕公共顶点旋转，翻折成正方形或者等腰直角三角形、等边三角形、对称全等：倍长中点相关线段转换成旋转全等问题，旋转半角模型。旋转半角的特征是相邻等线段所成角含一个二分之一角”模型变形主要是两个正...

为什么概率论这么难？这不是你的问题，而是人类的集体性自我错觉

人类认为我们对概率论中最基本的问题也具有本能的理解和直觉。归纳、整合和自动反应的线路根本行不通，我们不知道在处理的是一个不确定性系统，我们几乎没有办法将一个随机系统的经验推广到另一个随机系统。看过卡内...

恒指技巧：止损为何如此难？

在恒指交易中如何理解和使用止损是每一个投资者必须面对和解决的问题，止损是投资者控制风险，止损却依然不能够得到投资者的重视，止损行为是在交易过程中自然产生的，市场的不确定性造就了止损存在的必要性和重要性...

[390] 创业究竟有多难？

最容易破冰深入交流的是哪类人呢？有时候遇到一些正在上班的人聊自己的创业想法，只有会游泳的人才更懂，之所以说有些上班中的人谈及的创业理想浅薄，压根没有失败时的预案，只谈论成功时的辉煌。却根本不考虑失败时...

衡中老师：阅读理解难？吃透这份万能答题模板，语文满分不愁！

阅读理解是语文考察的重点，在语文试卷中，阅读理解所占分值非常高，语文总分数的差距基本就是在这个部分拉开的。阅读理解考察的其实是孩子的理解能力、阅读能力同时还有答题能力。在中小学语文考试中，阅读理解的确...

和妈妈关系不好的孩子，长大后建立亲密关系有多难？| 附破解指南

能在自己的家庭中寻求到安宁的人是最幸福的人“我在咨询室里几乎每一天都会听到对原生家庭的控诉。我们的命运真的是被原生家庭决定的吗，再糟糕的原生家庭都不能决定你的命运，我们是否能够客观和成熟地认识家庭的影...

困在关中县城的体制内女性：条件越好，嫁人越难？

有晃晃悠悠看似没放稳的桌板，赵前进的女儿赵晓终于嫁人了。赵晓才有了一丝自己真的结婚了的，赵前进拿着女儿的结婚证反复摩擦，赵晓拥有铁饭碗——县城最好小学的语文老师，赵晓也不知道问题出在了哪里，爸妈就觉得...

祛湿为什么这么难？身体湿气重，有齿痕，试了好多方法效果都不好

很多病症只需要用常识+思维就能自己解决。都知道自己身体湿气重，我们把湿气的本质再深入一层往下去挖。通俗点来理解就是体内气化状态的水蒸气。水在温度的蒸发作用下就会成为水蒸气，只有湿气太多才对身体有害。我...

视频检索模型搜索文本

上一篇
他是沈腾一手带火，曾经因汤唯演《色戒》与之分手，如今婚姻幸福

下一篇
长安商用要摘“商用”帽或定名长安欧尚