AIGC推動創(chuàng)意落地,突破表達瓶頸雖然AI能幫助人類更好的釋放創(chuàng)意,但從劇本到熒幕仍是一段漫長的距離。從創(chuàng)意到表達的跨越,AI可以保駕護航,幫助人類化不可能為可能。舉例來說,當前勞動密集型的影視生產方式難以滿足觀眾對質量日益提高的要求。2009年上映的《阿凡達》令全球觀眾旗艦了解3D電影的魅力,此后沉浸式觀影體驗成了影視產業(yè)鏈上共同的追求。為了滿足這種追求,影視特技與應用呈現井噴式發(fā)展,但后期制作與渲染,復雜程度也都水漲船高,傳統的作業(yè)方式已經難以為繼,而AI技術就有推動變革的潛力。從技術角度來說,影視特技行業(yè)的作業(yè)流程是極為繁瑣的,比如場景中的建模就需要從一草一木、一人一物開始,逐漸打造世界的雛形,再通過骨骼綁定和動作設計讓模型活起來,之后的定分鏡、調燈光、鋪軌道、取鏡頭等等無不費時費力,后期的解算和渲染等工作同樣如此。可以說在影視工作的每個環(huán)節(jié)都有大量重復性工作或等待時間,無形中拖慢了工作節(jié)奏。因此現在就有企業(yè)致力于解封流程生產力,比如優(yōu)酷的“妙嘆”工具箱,在動漫中實時渲染,幫助工作者實時把握效果或做出修改,節(jié)省了大量成本,減輕人員負擔,目前已被多家國漫企業(yè)采用。 另外DAVID MARR提出了機器視覺方 面的新理論,例如,如何通過一副圖像的陰影,形狀,顏色,等信息辨別圖像.三明AIGC案例
【應用】:圖像生成(AI繪畫)、文本生成(AI寫作、ChatBot)、視頻生成、多模態(tài)生成等。從生成內容層面AIGC可分為五個方面:1、文本生成基于NLP的文本內容生成根據使用場景可分為非交互式與交互式文本生成。非交互式文本生成包括摘要/標題生成、文本風格遷移、文章生成、圖像生成文本等。交互式文本生成主要包括聊天機器人、文本交互游戲等。【代表性產品或模型】:JasperAI、、ChatGPT、Bard、AIdungeon等。2、圖像生成圖像生成根據使用場可分為圖像編輯修改與圖像自主生成。圖像編輯修改可應用于圖像超分、圖像修復、人臉替換、圖像去水印、圖像背景去除等。圖像自主生成包括端到端的生成,如真實圖像生成卡通圖像、參照圖像生成繪畫圖像、真實圖像生成素描圖像、文本生成圖像等?!敬硇援a品或模型】:EditGAN,Deepfake,DALL-E、MidJourney、StableDiffusion,文心一格等。3、音頻生成音頻生成技術較為成熟,在C端產品中也較為常見,如語音克隆,將人聲1替換為人聲2。還可應用于文本生成特定場景語音,如數字人播報、語音客服等。此外,可基于文本描述、圖片內容理解生成場景化音頻、樂曲等。【代表性產品或模型】:DeepMusic、WaveNet、DeepVoice、MusicAutoBot等。 漳州谷歌AIGC前景盡管經歷了這些受挫的事件,AI仍在慢慢恢復發(fā)展.新的技術在日本被開發(fā)出來,如在美國原創(chuàng)的模糊邏輯。
諸如我們熟知的聊天對話模型ChatGPT,基于。計算機視覺(CV)預訓練大模型自然語言處理(NLP)預訓練大模型多模態(tài)預訓練大模型微軟Florence(SwinTransformer)谷歌Bert/LaMDA/PaLMOpenAI的CLIP/DALL-EOpenAI的GPT-3/ChatGPT微軟的GLIPStabilityAI的StableDiffusion(1)計算機視覺(CV)預訓練大模型FlorenceFlorence是微軟在2021年11月提出的視覺基礎模型。Florence采用雙塔Transformer結構。文本采用12層Transformer,視覺采用SwinTransformer。通過來自互聯網的9億圖文對,采用UnifiedContrasiveLearning機制將圖文映射到相同空間中。其可處理的下游任務包括:圖文檢索、圖像分類、目標檢測、視覺對答以及動作識別。(2)自然語言處理(NLP)預訓練大模型LaMDALaMDA是谷歌在2021年發(fā)布的大規(guī)模自然語言對話模型。LaMDA的訓練過程分為預訓練與微調兩步。在預訓練階段,谷歌從公共數據數據中收集了,feed給LaMDA,讓其對自然語言有初步認識。到這一步通過輸入prompt能夠預測上下文,但是這種回答往往不夠準確,需要二次調優(yōu)。谷歌的做法是讓模型根據提問輸出多個回答,將這些回答輸入到分類器中,輸出回答結果的安全性Safety,敏感性Sensible。
一.AIGC是什么?AIGC(即ArtificialIntelligenceGeneratedContent),中文譯為人工智能生成內容。簡單來說,就是以前本來需要人類用思考和創(chuàng)造力才能完成的工作,現在可以利用人工智能技術來替代我們完成。在狹義上,AIGC是指利用AI自動生成內容的生產方式,比如自動寫作、自動設計等。在廣義上,AIGC是指像人類一樣具備生成創(chuàng)造能力的AI技術,它可以基于訓練數據和生成算法模型,自主生成創(chuàng)造新的文本、圖像、音樂、視頻、3D交互內容等各種形式的內容和數據。二.AIGC發(fā)展歷史AIGC的發(fā)展歷程可以分成三個階段:早期萌芽階段(上世紀50年代至90年代中期),沉淀累積階段(上世紀90年代至本世紀10年代中期),快速發(fā)展階段(本世紀10年代中期至今)。在早期萌芽階段(1950s~1990s)由于技術限制,AIGC有限于小范圍實驗和應用,例如1957年出現了首支電腦創(chuàng)作的音樂作品《依利亞克組曲(IlliacSuite)》。然而在80年代末至90年代中期,由于高成本和難以商業(yè)化,AIGC的資本投入有限,因此未能取得許多斐然進展。作者:HOTAIGC鏈接:源:簡書著作權歸作者所有。商業(yè)轉載請聯系作者獲得授權,非商業(yè)轉載請注明出處。 從圖靈影響深遠的奠基性研究到機器人和新人工智能的飛躍。
智能數字內容編輯:智能數字內容編輯通過對內容的理解以及屬性控制,進而實現對內容的修改。如在計算機視覺領域,通過對視頻內容的理解實現不同場景視頻片段的剪輯。通過人體部位檢測以及目標衣服的變形控制與截斷處理,將目標衣服覆蓋至人體部位,實現虛擬試衣。在語音信號處理領域,通過對音頻信號分析,實現人聲與背景聲分離。以上三個例子均在理解數字內容的基礎上對內容的編輯與控制?!緫谩浚阂曨l場景剪輯、虛擬試衣、人聲分離等。3、智能數字內容生成:智能數字內容生成通過從海量數據中學習抽象概念,并通過概念的組合生成全新的內容。如AI繪畫,從海量繪畫中學習作品不同筆法、內容、藝術風格,并基于學習內容重新生成特定風格的繪畫。采用此方式,人工智能在文本創(chuàng)作、音樂創(chuàng)作和詩詞創(chuàng)作中取得了不錯表現。再比如,在跨模態(tài)領域,通過輸入文本輸出特定風格與屬性的圖像,不僅能夠描述圖像中主體的數量、形狀、顏色等屬性信息,而且能夠描述主體的行為、動作以及主體之間的關系。 而從一個語言研究者的角度來看,要讓機器與人之間自由交流那是相當困難的,是一個永無答案的問題。。莆田科技AIGC好處
大腦不是計算機,不會亦步亦趨、按部就班的根據輸入產生輸出。三明AIGC案例
應用:在擴散模型(diffusionmodel)的基礎上產生了多種令人印象深刻的應用,比如:圖像超分、圖像上色、文本生成圖片、全景圖像生成等。如下圖,中間圖像作為輸入,基于擴散模型,生成左右視角兩張圖,輸入圖像與生成圖像共同拼接程一張全景圖像。生成全景圖像產品與模型:在擴散模型的基礎上,各公司與研究機構開發(fā)出的代替產品如下:DALL-E2(OpenAI文本生成圖像,圖像生成圖像)DALL-E2由美國OpenAI公司在2022年4月發(fā)布,并在2022年9月28日,在OpenAI網站向公眾開放,提供數量有限的無償圖像和額外的購買圖像服務。Imagen(GoogleResearch文本生成圖像)Imagen是2022年5月谷歌發(fā)布的文本到圖像的擴散模型,該模型目前不對外開放。用戶可通過輸入描述性文本,生成圖文匹配的圖像。StableDiffusion(StabilityAI文本生成圖像,代碼與模型開源)2022年8月,StabilityAI發(fā)布了StableDiffusion,這是一種類似于DALL-E2與Imagen的開源Diffusion模型,代碼與模型權重均向公眾開放。(4)Transformer2017年由谷歌提出,采用注意力機制(attention)對輸入數據重要性的不同而分配不同權重,其并行化處理的優(yōu)勢能夠使其在更大的數據集訓練,加速了GPT等預訓練大模型的發(fā)展。 三明AIGC案例