Skip to content

Latest commit

 

History

History
74 lines (37 loc) · 5.53 KB

2024-01-19.md

File metadata and controls

74 lines (37 loc) · 5.53 KB

1.一键实景转动画,清华系初创公司全球首发4D骨骼动画框架,还能生成个性化角色

前几日,苹果宣布首款虚拟头显设备 Vision Pro 将于 2 月 2 日正式发售,XR 设备作为下一代终端预计将迎来快速发展。未来随着虚拟显示设备的普及,数字交互将从平面走向立体,立体模型、立体动画将成为未来主流的内容形态,虚实融合下的多维沉浸式交互也将成为潮流。

但从数据规模看,现阶段内容产业的数据积累仍以 2D 图像、平面视频为主,3D 模型、4D 动画等数据基础较为薄弱。其中,4D 动画是在传统 3D 模型的基础上引入时间序列,即随时间变化的 3D 模型,可以呈现出动态立体效果,在游戏动画、电影特效、虚拟现实等领域具有广泛的应用,但也是目前内容生态开发中最困难的环节。

论文地址:https://arxiv.org/pdf/2312.03795.pdf

项目地址:https://animatabledreamer.github.io/

论文标题:AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation

2.扎克伯格宣战AGI:Llama 3训练中,今年要囤35万块H100,砸近百亿美元

为了通用人工智能(AGI)的宏大目标,扎克伯格正在给 Meta 的 AI 研究部门进行大幅度的改组。

本周四,Meta 首席执行官马克・扎克伯格宣布,他的公司正在致力于为人工智能助手构建「通用智能」并「负责任地开源」,Meta 正在将其两个主要研究小组(FAIR 和 GenAI)合并在一起以实现这一目标 。

https://mp.weixin.qq.com/s/xilVijUIaO9Vi27ukK_jIg

https://twitter.com/Yampeleg/status/1748068273843744847?s=20

3.Runwayml 多动作画笔:通过独立的动作控制你的视频生成中的多个区域

https://twitter.com/runwayml/status/1747982147762188556?s=20

4.GPT-SoVITS

这是一个利用GPT(Generating Pre-trained Transformer)和SoVITS(Vector quantized Contrastive Predictive Coding based Speaker Encoder)实现的少样本语音克隆(few shot voice cloning)的语音合成(TTS)模型。

该模型只需要很少的语音样本(1分钟内),就可以训练出一个说话人的语音模型,实现该说话人的语音克隆。这大大降低了训练语音合成模型所需语音数据量。

模型结构上,利用了GPT来生成语音特征,然后通过SoVITS语音编码器将语音特征转换为语音波形。

该项目提供了模型代码、训练和推理流程、预训练模型等资源,可以让开发者快速上手语音克隆相关的研究和应用。

https://github.com/RVC-Boss/GPT-SoVITS

5.TaskWeaver

这是一个基于代码优先的代理框架,用于无缝规划和执行数据分析任务。

它允许用户用Python代码描述任务流程,然后自动生成代理程序来执行这些任务。

用户只需要定义任务的输入、输出和操作,框架会处理任务的调度、监控、故障处理等问题。

框架支持编排多个任务的执行流程,进行复杂的数据处理和分析。

框架可以和多种数据源集成,如数据库、对象存储等,使得任务可以访问各种数据。

框架采用了插件式架构,支持扩展新的数据源、任务类型等。

框架可以与GPT-3等LLM集成,自动生成任务代码。

https://github.com/microsoft/TaskWeaver

6.Atom Capital: 1000x的超级码农——AI编程的机会和未来

每个阶段的特点不同,AI起的作用相应的不一样。

Spec。Spec是把用户的需求转化成软件任务的过程。这个环节涉及到大量与人的交互,包括市场调研、反复沟通理解确认用户需求,目前这个环节靠人来做效率是最高的。

Design Doc。这是真正有竞争力的环节,也是AI自动生成软件的核心挑战所在。挑战的核心在于规模——如果规模很小,只是一次性任务,AI目前的能力已经可以做到每次都从零开始生成代码,不需要设计。但如上文所述,软件真正产生价值的地方在于长时间积累的复杂系统,如何让AI理解现有的架构、并在此基础上进行增量工作,有很大难度。 用一个简单的例子类比,让AI在现有的系统上增加个新功能,就好比要给一个城市增加地铁系统。其中涉及大量对现有城市交通状态的理解与规划,需要考虑全局的交通效率、做路线规划和资源分配,每个节点的变化都牵扯到其他一些节点的,不是单独增加一个地铁站就可以的。对应到代码集,系统级代码非常复杂,有很多相互关联的复杂函数调用、全局变量等约束及边界条件。AI要解决这个问题,需要的是一个“全局地图”——一个能够让AI可以快速定位每个变动对于全局影响的“地图”。一旦有了这个全局地图,AI就能快速地理解代码、确定变化范围开始工作了。

Coding。实现阶段是对各模块的代码和测试。AI核心需要解决两个问题:

其一是对于开发环境的理解。任何代码最终都要落在具体的平台上,在哪个操作系统上、用什么编程语言、如何编译、代码管理、部署等等……这些都要求AI要对平台有深入的了解,就像人类工程师一样。人类工程师所掌握的,远远不止对编程语言的理解,而是对这一整套适配环境的理解。

其二是自动测试和Debug的能力。代码生成后,需要测试它是否正确地工作,有问题要能够找到问题所在。这是一个完整的Code Agent必需的能力之一。

https://mp.weixin.qq.com/s/IE1P-USAJDlbPcssJltNnw