新科技速遞|  文字生成視頻現突破   合成數據致現實脫節

新科技速遞| 文字生成視頻現突破 合成數據致現實脫節

Table Of Contents
sora
Sora對物理世界的理解粗淺,容易出現不符現實的幻覺(Hallucination),尤其是物件在互動時,更容易穿幫和露破綻,例如人物的手部動作和蠟燭火焰向氣流反方向靠攏。

[新科技速遞]

OpenAI推出文字生成視頻的新工具Sora大模型,根據文字提示,自動馬上生成1分鐘高清影片,場景內容細緻,運用流暢和高難度鏡頭角度拍攝、人物表情生動。

Sora尚未公開,雖然Google、Meta、Runway、Pika、Stable Video等亦有同樣工具,不過從OpenAI展示多條短視頻,Sora技術畫質細節遙遙領先,已是不爭事實。

OpenAI和Microsoft都面對數據以及版權的困擾,面臨《紐約時報》和多位作者的訴訟,並未公佈Sora是利用那些數據訓練出來。另一方面,Sora內容逼真亦引起擔憂。據網站透露,OpenAI正測試各項漏洞,以免Sora用作不良用途;包括確認有問題的資訊、仇恨和偏見內容等提示,避免用於「深度偽造」,正以對抗性方式測試模型。

Sora是技術突破已無懸念,相較於以往文本生成視頻,從OpenAI公佈短片質素,已足見可用於商業用途。

直覺學習物理運動

輝達(NVIDIA)高級研發科學家Jim Fan承認,Sora比OpenAI推出DALL·E 2文本生成圖像技術,已跨越一大步,屬於「數據驅動物理學級引擎」(Data-driven physics engine),Sora不單生成動畫,以產生符合物理互動動作,變成栩栩如生的動畫素像,但不是沒有缺陷。

Sora產生航拍和追蹤鏡頭,論逼真和細節程度,令人拍案叫絕,長遠確對影視製作及電玩遊戲帶來巨變,不過Jim Fan指Sora模型訓練方式,仍有不少挑戰要克服,完全取代人手製作,還會有一段距離。

原因在於Sora不是完全以現實世界數據訓練,不少卻是向壁虛構,憑空捏造的境像,這些數據變成模型。換言之,Sora是從直覺學習了物理運動,模擬出符合現實世界情景。Sora可以揉合現實和虛擬,符合物理定律運動模擬,產生出現實不可能存在,卻又合乎情理的境像。

合成數據天馬行空

Jim Fan估計,Sora可能是通過製作電玩遊戲3D開發引擎的Unreal Engine 5,再產生大量「合成數據」(Synthetic data)訓練,3D遊戲引擎產生文字和動畫內容,學習複雜渲染技術、模擬直覺物理現像、以遠視距的推理和語義基礎,通過去噪和梯度數學建立動畫內容,換言之Sora並非從真實世界數據訓練。

訓練Sora數據並不是來自現實,合成數據是模仿真實世界數據,經AI自行創建的數據集,基於演算法和類比創建出來,只是具有實際數據相同數學特性,故此大模型可利用少量數據訓練,後果是與現實世界脫節。

Sora轉化物件成為3D後、加入光線追蹤,從不同短片學習得來物理運動方式,產生3D動畫素像,過程類似3D遊戲引擎,但遊戲引擎通過人工編程產生動畫,一定較為精確;Sora憑訓練數據直覺產生動畫,全靠數據和物理推論,有時出現低級錯誤。

乍看之下,Sora製作驚艷,Jim Fan指出多條短片內容,推斷Sora短期內不能取代人手,原因是對物理世界理解過於粗淺,容易出現幻覺(Hallucination),尤其物件在互動時更易穿幫和露出破綻,簡單如拍手掌動作節奏不一致,不能分辨空間互動細節,物件正常的運動方向,玻璃撞擊後不爆碎破裂、吹蠟燭時火焰相反,一個人咬了一口餅乾,餅乾上卻沒現咬痕。

除非Sora經多模訓練,再加上更多真實數據,加上條件反射,才能變得更逼真,成為真正的自然模擬器。

牛糞沼氣取代柴油   環保燃料供應卡車

牛糞沼氣取代柴油 環保燃料供應卡車

芬蘭Vuorenmaa牧場以芬蘭首輛牛糞沼氣為動力牛奶卡車,注滿農場自己產生沼氣燃料運送牛奶 新科技速遞 畜牧糞便衍生之沼氣(Biogas)燃料,1980年代已用來發電力,不過沼氣中含甲烷,必須以沼 …

了解更多
地產商發行NFT作品   配合客戶宣傳品牌

地產商發行NFT作品 配合客戶宣傳品牌

OXO房地產NFT系列是全球首個房地產NFT藝術品系列,NFT數碼藝術品成為品牌宣傳的手段之一。 金融創新 以往NFT(非同質化代幣)多是針對體育運動或者網上遊戲市場發行,數碼畫作、圖像、影音、短 …

了解更多
東盟加速數碼貨幣   R3提供數字貨幣沙盒

東盟加速數碼貨幣 R3提供數字貨幣沙盒

新加坡金融管理局金融科技總監Sopnendu Mohanty:各地部署區塊鏈興趣愈來愈大,又導致了全球必須具備兼容區塊鏈,更有效率的國際支付結算平台。(圖片來源:新加坡金融論壇) 金融創新 新加坡金 …

了解更多