【聊聊Sora】第一期:Sora硬核技术解读,欢迎来到AI生成的世界!-【聊聊Sora】第一期:Sora硬核技术解读,欢迎来到AI生成的世界!
热门回复:
- Dubai终于有硬币改名了:视频简介:
Datawhale【聊聊Sora】第一期:欢迎来到AI生成的世界
我们邀请了
袁超逸|某大厂NLP算法工程师
成晨|魔搭社区技术运营负责人
叶娇娇|之江实验室高级研究专员
李孝杰|HuggingSD负责人
杨知铮|厦门大学平潭研究院研究员
来为大家细致的聊聊Sora背后的故事,话题、干货很多,大家没有时间的话也可以直接选择自己感兴趣的部分听~
Datawhale - AI视频生成学习文档: 链接见视频简介
- AI视频小助理:一、SOLA等人工智能技术的相关内容,包括生成式人工智能、快速从研究领域向大众领域扩散、通用人工智能未来可期等。
00:17 - AI生成技术快速向大众领域扩散,如open i、solo等产品的发布
01:03 - 提供基础的文档和技术报告,帮助大家了解塑料的本质和时代趋势
03:37 - 提供AI视频生成学习教程,动手实践建立工作流,优化工作流程
二、一种新的数据格式,它借鉴了VT中的patch和CHEGBT中的token,能够统一不同大小格式的视频和图像数据,具有很好的扩展性和匹配性。此外,它还不需要统一输入尺寸和进行数据增强,可以与世界进行互动,具有AGI的潜力。
08:22 - VT中的patch数据格式被借鉴用于统一视频和图像数据格式
09:20 - Patch的组合可以匹配不同形状的视频,无需统一输入尺寸
13:04 - Patch的特征包括3D建模、长视频生成和与世界互动的能力
三、SORA模型在视频生成方面的应用和潜力,以及CV大一统的可能性。此外,我们还讨论了Patch的概念和模型参数量的估计。
16:41 - SORA通过经验学习物体特性,非理论学习
17:41 - CV大一统可能性增强,影响2D/3D任务
20:57 - 模型大小估计在30B左右,但信息量太少,难以准确估算
四、OpenAI在视频生成任务中的技术方案,包括使用自回归的方式进行训练和预测,以及使用patch作为基本单元进行生成。同时,视频生成任务与传统的ALP也有很大的区别。
25:00 - SORA使用自回归方式进行视频生成
25:50 - 使用patch作为最小单元,记录时间和序列信息,进行预测和生成
28:47 - 使用生成关键帧再插帧的技术方案,但目前还未确认是否使用
五、一个视频生成模型的训练方式和数据配比,包括视频切片、压缩、token数计算等。同时,它还使用了视频和图片混合的训练方式以及文对的标注。
33:20 - 视频数据token非常高,训练数据需要切成一分钟以内的视频来降低计算复杂度
36:08 - 可能使用了高质量的图片来扩充数据集,并混合视频和图片进行训练
--本内容由AI视频小助理生成,关注解锁AI助理,由@小菜鸡沐林风 召唤发送
- 小菜鸡沐林风:@AI视频小助理 总结一下
- 路過的管理员:[支持]
- 梦穸风呓:最硬核的 Sora 解读[打call]