首頁
資訊
視頻
直播
鳳凰衛視
財經
娛樂
體育
時尚
汽車
房產
科技
讀書
文化
歷史
軍事
旅游
佛教

科技 > 人工智能 > 正文

叫板Sora出圈后，Luma AI如何接住潑天的流量？

36氪

下載客戶端
獨家搶先看

2024年11月27日 12:01:54 來自北京

Luma AI在視頻領域叫板OpenAI故事，好比中途改打網球的杜蘭特，打贏了網球男單大滿貫納達爾。

最近，這家成立于2021年的硅谷AI公司，在和《智能涌現》的交流中，復盤了視頻生成模型Dream Machine AI爆火的過程。

在硅谷率先發布一款效果能對標OpenAI Sora的視頻模型，對一家初創公司而言并不容易——更何況，Luma AI在視頻生成領域算得上是“半路出家”：

2024年前，這還是個主攻3D生成、規模在10人左右的小公司。Luma AI數據產品負責人Barkley Dai告訴《智能涌現》，2023年12月決定轉型做視頻生成后，團隊才擴充了視頻領域的人才，規模增加到了50人。

他提到，Luma AI能成為視頻生成領域的螞蟻雄兵，技術實力、發布時機和運營策略缺一不可。

人才，是這家公司認為做出視頻模型最重要的資產。2023年12月，決定從3D轉型做視頻生成后，Luma AI吸納了40個AI領域的人才。

而和OpenAI、Google打擂臺，Luma AI又對模型的算法和Infra做了諸多優化。Barkley對《智能涌現》表示，團隊在Sora同款DiT架構的基礎上，采用了獨家改進的架構，保證生成效果的同時，還節省了訓練和推理成本。

視頻模型“Dream Machine AI”的發布時間，2024年6月13日，踩中了視頻模型賽道的空白點——這也讓Dream Machine AI具有了稀缺性，除了快手“可靈”之外，這是唯一真正對大眾開放的視頻模型；

而模型的“限免”策略，又立刻吸引了大量試用者：上線4天，Dream Machine AI的用戶量就破了百萬。Barkley對《智能涌現》透露，Dream Machine AI的投流費用是0，全靠KOL自發安利，和用戶的口碑發酵。

爆火之后，提高用戶留存，不讓輝煌曇花一現，是Luma AI如今的命題。

2024年11月26日，在視頻模型發布后近6個月，Luma AI在iOS和web端上線了Dream Machine AI創意平臺。與之配套發布的，還有Luma AI自研的首款圖像生成模型，Luma Photon。

△Dream Machine iOS界面。

Luma AI產品設計師Jiacheng Yang（楊家誠）告訴《智能涌現》，與Midjourney、Adobe等專業設計工具不同，Dream Machine不需要用戶學習如何寫Prompt（提示詞），也不需要用戶懂設計，“我們的目標就是做一款AI小白和設計小白都能輕易上手的AI視覺工具”。

據他介紹，Dream Machine共有5個核心功能：

（1）用自然語言進行對話，實現圖片的創作生成和編輯；

（2）由AI提供創意點子，根據用戶輸入的Prompt，自動提供創意、風格選項；

（3）視覺參照，根據用戶輸入的照片，生成帶有相同主體或者風格的圖片；

（4）將AI設計的圖片轉化為視頻，供用戶查看圖片中主體在不同角度下呈現出的細節；

（5）將所有AI生成的素材發布在面板上，并生成可供分享的鏈接，有助于團隊進行頭腦風暴。

△Dream Machine視覺參照功能。

為什么選擇用圖像設計平臺，去承接視頻模型的用戶？“想要擴大AI視覺領域用戶的盤子，只有視頻生成是不夠的。圖像生成的應用場景會更廣泛，所以我們想做一個很好上手的設計平臺，用戶能夠輕易上手的同時，也能展現我們的模型能力。”Barkley提到。

行業競爭，是作為初創企業的Luma AI不得不面對的問題。他們認為，打出差異化優勢，是讓模型和產品在行業中具有辨識度和獲客的關鍵。

比如面對Midjourney等圖像產品的競爭，Dream Machine把語言理解能力做到了“天花板”。以及，這也是一個最會設計字體的模型——相較于Midjourney和GPT生成的帶文字的圖片，Dream Machine圖片中文字的設計感和清晰度是最高的。

△Dream Machine在圖片中生成的配文。

和視頻模型一樣，Luma AI給Dream Machine花費的投流預算，是0。在Barkley看來，燒錢營銷看的是回報率，這意味著最終還是要用產品說話。以及，“AI市場還很小，我覺得對AI公司來說，燒錢營銷還為時尚早。還不如把營銷的錢，投到產品研發上”。

以下《智能涌現》與Luma AI增長負責人Barkley Dai、Luma AI產品設計師Jiacheng Yang的交流，內容略經《智能涌現》編輯：

燒錢營銷，AI公司還為時尚早

《智能涌現》：2024年6月發布視頻模型Dream Machine的時候，團隊有沒有預料到會爆火？

Barkley：其實當時是遠超我們預期的，我們一度出現服務器和GPU資源沒有辦法承受的情況。

《智能涌現》：如果要總結爆火的經驗，你覺得是什么？

Barkley：其實最早發布的版本，還不是效果最好的版本。但我們決定全量免費放給所有的用戶去使用。

在當時，還沒有一個視頻模型能夠做到這樣。所以短時間內吸引了很多用戶的關注。

《智能涌現》：對于創業公司來說，做免費的決定是不是還挺不容易的？

Barkley：其實我們當時也給免費設置了一個額度，我覺得這是一個行業的standard practice（基本操作）。

只是當時的峰值對我們來說過高，大量的用戶在短時間內涌入，服務器后臺收到了太多的request。

《智能涌現》：公司能負擔流量帶來的推理成本嗎？

Barkley：其實我們還是在技術層面做了很多成本的優化，比如不斷去提升視頻生成的速度，最開始我們的模型生成5秒的視頻需要120秒，現在只需要20秒。

以及在保持原有生成質量的情況下，視頻模型的推理還有很多優化的空間。所以在半年時間里，視頻模型的成本是在下降的。

所以我覺得推理成本對我們來說不是特別大的負擔，當然也是一筆開支，但未來會變低。

《智能涌現》：你提到Dream Machine是有免費額度的，那么使用完免費額度后的用戶付費率怎樣？

Barkley：說實話我們對付費率完全沒有任何預期。因為當時我們對Dream Machine的定位是教育用戶的產品，讓用戶知道Luma AI視頻生成的潛力有多大。當時市面上還沒有一個視頻模型是按照對標Sora的水平發布的，所以我們對付費率完全沒有對標的對象。

但現在發布的AI設計平臺，我們的定位是最終去獲客的產品。所以現在我們對它的收入和付費率有更高的期待。

《智能涌現》：Dream Machine在營銷上投入了多少？

Barkley：0，我們在發布的時候沒有做任何的營銷付費。

當然我們提前去聯系了很多創作者，他們試用后都覺得很興奮，甚至大多數人之前用過Runway，還有人用過可靈。但他們用了我們的產品后，都覺得說“This is the next big thing”，在推特上自發幫我們推廣。

但我們沒有做任何的投放，因為我們還是堅信成功的因素就是產品本身。

《智能涌現》：燒錢營銷，這一套打法在硅谷AI公司常見嗎？

Barkley：我感覺硅谷大部分還是比較產品驅動的，運營這一套主要是中國公司。

視覺領域的市場還很小，我覺得對AI公司來說，燒錢營銷還為時尚早。即便ChatGPT的用戶很多，但是像一些視覺模型，用戶還是很少數。

這個時候如果你做投流，去做跑馬圈地，留存肯定不高，還不如把這些錢投入到模型和產品的研發上，用更好的模型和產品吸引用戶的增長。

《智能涌現》：在發布視頻模型之前，Luma AI的技術和產品還是圍繞3D生成的。團隊是什么時候決定做視頻生成模型的？

Barkley：大約在2023年12月。

《智能涌現》：為什么從3D轉向做視頻和圖像模型？

Barkley：我們原來其實也不會說自己是一個3D公司，公司的定位還是視覺領域的AI公司，我們想去理解這個世界在視覺上的構造，是如何幫助AI對世界進行理解的。

從創始團隊的研究背景來看，一開始3D是Luma AI比絕大多數公司和團隊更擅長的事。后續我們也確實做了很多3D生成上的技術突破。

但是3D可以被用于訓練的數據量級，相較于圖片和視頻來說都會少很多。同時在使用場景上，目前手機和電腦還是主要的產品載體，但3D也會比視頻更受到限制。

但是當我們有更多的算力、更多的人才，也有更多的能力去推進我們的愿景，也就是更好地了解世界，我們也自然地會從3D轉向做視頻。

《智能涌現》：這會不會讓公司看起來戰略有些搖擺？

Barkley：從我作為一個內部成員的視角來看，我覺得不管是3D還是視頻生成，一直都是合理的。

因為不管是3D，還是視頻和圖片，都只是一種模態。如果我們最終想做到的是對這個世界的理解，那么不管是一種模態、一種生成，還是一種創意的發揮，我覺得只要目標不變，這些媒介就只是幫我們達成目標的手段。

《智能涌現》：從3D轉型做視頻生成，期間有遇到什么困難嗎？

Barkley：我覺得整個過程還是比較順利的，因為我們在做3D生成的時候，團隊也就在十幾人的規模，但當我們做視頻生成以后，引入了很多視頻領域的人才，現在團隊規模已經超過了50人。

這個過程其實是吸納了更多新成員去推進目標的實現，而不是說原來大家就在頻繁地換方向。只是原來做3D的人，現在也在逐漸開始做視頻方面，比如數據等各方面的工作。

《智能涌現》：做3D的經歷對視頻生成有幫助嗎？很多反饋說Dream Machine的運動軌跡做得很好，這和3D積累下的空間理解能力有關嗎？

Barkley：我覺得可能不一定有那么直接的關系。

但從我們發布最早版本的視頻模型開始，我們對相機的軌跡運動，包括視頻里有多少機位的變化，是十分側重的。

所以當時用戶也會普遍反饋說，Luma AI的模型雖然有時候生成結果不是那么穩定，但是它能給到很多的機位的移動，以及復雜的人物運動軌跡。

我覺得過去在3D上的一些經驗，能夠讓我們在做視覺模型的時候，意識到提升機位的豐富度和運動軌跡的復雜度，能夠提高用戶對視頻生成內容的消費意愿。

不過我覺得過去的經驗，包括模型本身之間，其實沒有那么大的關聯性和借鑒意義。

《智能涌現》：所以技術轉型最重要還是補充新的技術人才是嗎？

Barkley：是的。

承接住模型的爆火，需要有產品

《智能涌現》：6月份Dream Machine走紅后，你們怎么考慮用戶留存的問題？

Barkley：我們發布Dream Machine的時候，就知道后面一定要有產品去承接用戶持續穩定的需求。

比如你作為一個ChatGPT的長期用戶，即便后續會出來很多能力做得和GPT差不多的模型，你還是大概率會選擇使用ChatGPT。因為ChatGPT通過長期的深度學習，已經把握了用戶習慣，能夠更好地理解你的意圖。

行業里永遠會有更好的模型出現，但產品最終是能夠讓用戶留存的點。

《智能涌現》：團隊是從什么時候計劃做這樣AI設計平臺的？

Barkley：這個想法其實在我們最開始做視頻模型的時候就有了。所以產品的想法是去年（2023年）12月和視頻模型同步推進的。

只是在產品的設計過程中，我們后來意識到，要想把整個設計流程涵蓋，也必須要做到能夠生成圖片。所以在視頻模型發布5個月以后，我們覺得圖片模型也足夠好的時候，把兩部分同時整合成一個產品。

《智能涌現》：平臺的目標用戶是哪些人？專業設計師還是大眾？

Barkley：其實我們覺得原來的Dream Machine，更多的用戶還是偏專業的，至少是有做AI電影的經驗，或者知道怎么用Prompt去生成更好的效果。

但其實我們更希望現在的產品，讓之前沒有用過AI甚至沒有設計經驗的人用起來。比如，如果他們在工作中需要用這樣的流程，可以非常容易地通過一輪一輪地和AI進行對話去實現。

我們在6月份發布的視頻模型Dream Machine，其實還是需要一些使用門檻的。我們在那時候就在想，希望普通人也能access這些視覺工具，就好比視覺里的GPT。

但視覺是一個很小眾的垂類領域。我們做設計平臺的想法就是，如何去擴大這個群體。只有擴大群體，才能讓視覺領域的AI獲得更好的發展。

《智能涌現》：非專業設計師很難把一整套設計的工作流用得很深入。我的大部分生圖需求，可能輸入一個簡單的Prompt，用GPT，或者Midjourney就能滿足。

Jiacheng：我們的想法是，把用戶能輕易感受到差別的功能做到最好，比如我們圖像能力比GPT好，但是語言理解能力比Midjourney要好。

我用同一個最基礎、完全不復雜的Prompt，讓Dream Machine和Midjourney對比一下：i want to make a poster for my brother band “crazy avocado”.（我想為我兄弟的樂隊“瘋狂牛油果”做一張海報。）

△Dream Machine根據“i want to make a poster for my brother band ‘crazy avocado’”生成的樂隊海報。

△Midjourney根據“i want to make a poster for my brother band ‘crazy avocado’”生成的樂隊海報。

你看Midjourney生成的海報，既不Crazy，也沒有Avocado的元素，也看不出來是個樂隊的海報。

語義理解的能力其實比你想象的重要，會影響很多場景的落地。因為生成隨機的、好看的圖片，在實用場景中意義不是很大。

如果要讓Midjourney真正還原你的意圖，你需要寫很多Prompt，包括海報的設計、上面寫的文字、解釋Crazy的風格等等。學會寫Prompt，我大概花了兩三個月時間。

但我相信ChatGPT的大部分用戶是不會去學的，他們就是進來問一個問題，得到一個結論。

我們做設計產品的思路，也是一樣的。按照之前市面上的產品，如果我想要得生成還原我意圖的圖片，首先，我要花20美金買Claude或者GPT，幫我生成Prompt；其次，我要再花20美金到40美金買Midjourney，生成圖片；最后我還要花20美金的訂閱，把這些圖片變成視頻。

算下來，文生視頻起碼要花60-80美元。現在用Dream Machine，可能10美元就能搞定了。

《智能涌現》：Dream Machine語言理解能力的來源，也是自研模型嗎？

Barkley：語言模型用了第三方的API，我們再去構建了一個Agent。這個Agent能夠理解用戶意圖，然后通過不同的Prompting的方式，把用戶意圖轉化為圖像和視覺模型能夠理解的指令。

《智能涌現》：Luma AI現在既有模型，又有產品，怎么去做商業化？

Barkley：產品還是會采用訂閱的方式。模型就是提供API。

《智能涌現》：不做定制化？

Barkley：定制化不太適合初創公司，會分散精力。

目前沒有專業視覺工具，在定義交互范式

《智能涌現》：一個俗套的問題，你們怎么看待巨頭下場？按照國內的情況，字節和快手的下場，已經給很多初創公司帶來了融資和獲客上的壓力。

Barkley：我們發現，這個問題其實是公司和股東之間的問題。只有股東才會關心：如果哪天一個巨頭把你這個事情做了，會怎么樣？

但實際上，我們公司很多Research都有這樣的感覺：當公司達到一定規模，需要你去協調各種各樣的東西的時候，你推進的速度會變得特別慢，創新的速度也會掉下來。

雖然Luma AI的團隊在過去一年多的時間里也擴張了很多，但還是保持著快速創新、快速迭代的節奏。

我覺得有一個類比特別好：其實你在大公司里，真正去做視頻模型和相應產品的團隊，可能也只有幾十個人。比如OpenAI看起來很大，但Sora的團隊也就這么多。

當然說到更大的公司，比如Google，他們可能有比我們更好的distribution channel（擴散渠道），但他們同樣會受制于各種流程上，一個新產品會有商業化等很多方面的concern，推進的速度不會那么快。

《智能涌現》：Luma AI的迭代節奏有多快？

Barkley：整體迭代速度一直是以幾個月，甚至是1-2個月來計算的。期間會加入新的功能，底層模型的效果也在提升。

就像Dream Machine 1.0在2024年6月發布，1.5版本是在8月發布。1.6版本加了camera control（鏡頭控制）功能，在9月底發布。

《智能涌現》：一個新的設計工具型產品，怎么去獲客？

Jiacheng：我覺得首先可以去分析ChatGPT是怎么獲客的。你會發現，ChatGPT不光最好的程序員在用，你隔壁的大叔大媽也在用。

我覺得AI工具帶來的最大的變化是，由于它本身的可塑性和靈活性，它可以服務幾乎所有有視覺需求的人。

我并不覺得目前特定的視覺專業的軟件，有非常好的交互，換句話說，目前沒有專業視覺工具定義了整個行業的交互范式。

《智能涌現》：你怎么定義“好的交互范式”？

Jiacheng：比如ChatGPT就定義了整個行業ChatBot的交互范式，像現在美國的小孩都不是說ChatGPT，他都是說你有么有問你家的“Chat”。

這里的“Chat”，已經成了一個像“Google一下”的行為。

我們做Dream Machine也是一樣的。誰能先把普通大眾的想象，通過一個流暢、簡單的方法，呈現出一個好看有趣，然后能分享給別人的或者有用的圖片，誰就能在這個領域有優勢。

《智能涌現》：從立項到上線，期間你們對交互形式進行了哪些探索？

Jiacheng：我們目前來說，包括行業對我們的認知，都是一個視頻模型科研公司。

但是如今的AI技術是一個非常以用戶體驗為核心的產品，技術型產品的目標和迭代過程很明顯，就是最好的用戶體驗。

我們能想到的最好的用戶體驗，就是用最自然的交流方式，把Dream Machine當成一個創意助手或者Creative Partner。你怎么和設計師互動，就怎么和系統互動。

有了這樣一個目標，我們就會去了解我們的圖片和視頻模型，能夠提供怎樣的能力。同時也去了解整個行業處于怎樣的發展階段，第三方的語言模型能夠給我們怎樣的幫助。

期間，各種各樣的Agent軟件工具也在迭代，大家對于AI應用層的思考也有變化。所以一年以來，我們的產品就是一個持續迭代的過程，具體就是一個月根據行業變化打磨，再花一個月去修改。

這些東西總體統籌、融合起來，才有了現在這樣的效果。

Barkley：期間我們也發現，在AI視頻生成領域，目前圖生視頻比文生視頻更加受歡迎，因為用戶在乎可控性。

所以所有能夠提升可控性的，都是用戶非常需要的功能點。

《智能涌現》：期間行業哪些產品或者認知的動向，會對公司的產品研發節奏產生影響？

Barkley：其實我覺得過去一年時間里，我們的產品策略沒有變太多，還是一直想做能讓所有人輕松使用模型的產品，不會隨著其他AI產品的發布去做任何的策略調整。

我覺得產品團隊更關心的事一些Research上的動態和進展，比如我們想做風格轉換、風格遷移的功能，就會去查有哪些最新的學術研究和論文，甚至產品團隊會加入Research團隊的討論，去看研發功能的可行性。

《智能涌現》：產品團隊在日常工作中是怎么和算法團隊交流的？

Barkley：立項的時候，我們會從用戶的角度，覺得風格借鑒這樣的功能很重要。

但是從Research的角度，其實他們不確定這個功能能不能做出來，以及能達到怎樣的效果。所以Research會先去做很多的實驗，直到他們把算法做出來以后，我們看到這個功能的極限，再去思考怎么把功能融入到整體產品和體驗上。

所以其實Research是一個更加不確定的過程，往往需要比較長的時間，也不知道要花多長時間訓練。

《智能涌現》：期間也會舍棄很多暫時不夠好的功能。

Barkley：對。所以其實很多功能我們會從用戶的角度去想，有的功能Research團隊能夠在短時間內做出來，有的功能我們又繼續投入，去做更長的研判，體現在未來的產品里。

“特別聲明：以上作品內容(包括在內的視頻、圖片或音頻)為鳳凰網旗下自媒體平臺“大風號”用戶上傳并發布，本平臺僅提供信息存儲空間服務。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

百家乐平注常赢玩法 (中国）有限公司官网

叫板Sora出圈后，Luma AI如何接住潑天的流量？

親愛的鳳凰網用戶:

第三方瀏覽器推薦: