技術趨勢:視頻生成(cheng)正在由檢索生成(cheng)、局部生成(cheng)走向(xiang)依靠(kao)自(zi)然(ran)語言提示詞(ci)的全量生成(cheng),生成(cheng)內(nei)容更加(jia)靈活豐富,應用空間廣(guang)闊(kuo)
檢索生成主要是對現有的視頻素材根據關鍵詞和標簽進行檢索匹配,再進行相應的拼接和排列組合
特點
1 采用傳統的(de)跨模態視頻檢索(suo)技術,通(tong)過視頻標 簽(qian)的(de)或者(zhe)視頻語義理解的(de)方(fang)式從(cong)數(shu)據(ju)庫(ku)中的(de)檢 索(suo),再將這些素材進行剪輯、組合拼接在一起(qi), 本質(zhi)上還(huan)是鍵值對匹(pi)配的(de)邏輯
2 例如(ru)短視(shi)頻(pin)平臺的知識類視(shi)頻(pin)、解(jie)說類視(shi)頻(pin), 通過(guo)文本關(guan)鍵字在(zai)數據庫中進行(xing)素材檢索,然(ran) 后(hou)在(zai)進行(xing)拼接(jie)組合生成
3 創意空(kong)間(jian)有限,沒有貢獻增量素(su)材,但成本極 低,生成速度極快
僅針對視頻的一部分進行生 成,例如視頻中人物角色、 動作、背景、風格化、特殊 效果等
特點
1 采(cai)用傳統的計算(suan)機視(shi)覺(Cv)、計算(suan)機圖形學 (CG)技術,但生成(cheng)功(gong)能(neng)有(you)限,主(zhu)要是一些(xie)局 部(bu)的垂點(dian)功(gong)能(neng)
2 例(li)如(ru)效(xiao)果(guo)生(sheng)成(cheng),在現有視頻上添加(jia)多種(zhong)效(xiao)果(guo), 如(ru)濾鏡(jing)、光影、風格化、美顏特效(xiao)等。也可(ke)以 做(zuo)局部(bu)動態化,如(ru)人物的面(mian)部(bu)表(biao)(biao)情生(sheng)成(cheng)、搞笑 表(biao)(biao)情、爆款特效(xiao)、舞蹈(dao)動作(zuo)生(sheng)成(cheng)等
3 有(you)一(yi)定創(chuang)意空(kong)間,生成部(bu)分新元素(su),成本低但 應用(yong)的(de)場景有(you)限
通過文字、圖片、視頻作為提示 詞來進行憑空生成,不依賴外部 素材,核心在于大模型的能力
特點
1 采用基于Transformer或(huo)者擴散模型的(de)大模型路 線,可以(yi)通過(guo)自然語言或(huo)者指(zhi)導圖進行全局生成 (但也可以(yi)嵌(qian)入(ru)已有內容(rong)),視頻的(de)內容(rong)、風格(ge)、 長(chang)短、分辨率、寬高比都可以(yi)進行靈活調整
2 例(li)如(ru)生成天馬(ma)行空的創意視頻、藝術視頻、卡(ka)通 視頻等等,非常靈活
3 創意空間無(wu)限,所有的元素都是全新生成,現 階段(duan)成本高昂,但天(tian)花板高,應用場景(jing)廣泛
附件:AI視頻生成研究報告-由檢索生成、局部生成走向依靠自然語言提示詞的全量生成
智能服務機器人 |