Sora关键技术逆向工程图解
Sora 生成的视频效果好吗?确实好。Sora 算得上 AGI 发展历程上的里程碑吗?我个人觉得算。我们知道它效果好就行了,有必要知道 Sora 到底是怎么做的吗?我觉得最好是每个人能有知情的选择权,任何想知道的人都能够知道,这种状态比较好。那我们知道 Sora 到底是怎么做出来的吗?不知道。马斯克讽刺 OpenAI 是 CloseAI,为示道不同,转头就把 Grok 开源了。且不论 Grok 效果是否足够好,马斯克此举是否有表演成分,能开源出来这行为就值得称赞。OpenAI 树大招风,目前被树立成技术封闭的头号代表,想想花了上亿美金做出来的大模型,凭啥要开源?不开源确实也正常。所谓 “开源固然可赞,闭源亦可理解”。但是,我个人一年多来的感觉,OpenAI 技术强归强,然而有逐渐把技术神秘化的倾向,如果不信您可以去读一下 Altman 的各种访谈。在这个 AI 技术越来越封闭的智能时代,技术神秘化导向的自然结果就是盲目崇拜,智能时代所谓的 “信息平权” 或只能成梦想。我不认为这是一个好的趋势,我发自内心地尊敬对技术开放作出任何贡献的人或团体,且认为对技术神秘化的去魅,这应该是 AI 技术从业者值得追求的目标。本文试图尽我所能地以通俗易懂的方式来分析 Sora 的可能做法,包括它的整体结构以及关键组件。我希望即使您不太懂技术,也能大致看明白 Sora 的可能做法,所以画了几十张图来让看似复杂的机制更好理解,如果您看完对某部分仍不理解,那是我的问题。 Key Messages 这部分把本文关键信息列在这里,特供给没空或没耐心看长文的同学,当然我觉得您光看这些估计也未必能看明白。Key Message…