1.即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了
图像到视频生成(I2V)任务旨在将静态图像转化为动态视频,这是计算机视觉领域的一大挑战。其难点在于从单张图像中提取并生成时间维度的动态信息,同时确保图像内容的真实性和视觉上的连贯性。大多数现有的 I2V 方法依赖于复杂的模型架构和大量的训练数据来实现这一目标。
近期,由快手主导的一项新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》发布,该研究引入了一个创新的图像到视频转换方法,提出了一种轻量级适配器模块,即 I2V-Adapter,它能够在不需要改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频。
论文地址:https://arxiv.org/pdf/2312.16693.pdf
项目主页:https://i2v-adapter.github.io/index.html
代码地址:https://github.com/I2V-Adapter/I2V-Adapter-repo
2.五种资源类别,如何提高大语言模型的资源效率,超详细综述来了
资源高效的 LLM 需要理解 LLM 生命周期中涉及的关键资源。在这项综述中,作者将这些资源系统地归类为五个主要类别:计算、内存、能源、资金和通信成本。高效性在这里被定义为投入资源与产出的比例,一个更高效的系统能够在消耗更少资源的同时产生相同水平的输出。因此,一个资源高效的 LLM 旨在在所有这些维度上最大化性能和能力,同时最小化资源开销,从而实现更可持续和更易获取的 AI 解决方案。
论文链接:https://arxiv.org/pdf/2401.00625
3.字节&复旦大学多模态大模型解读视频太香了
https://arxiv.org/abs/2401.06071
4.微软超越苹果成市值最大公司!Sam Altman 对话盖茨,OpenAI 很多事与 YC 建议完全相反
截止本周五收盘,微软市值达到 28872.11 亿美元,超过苹果公司的 28746.76 亿美元,成为美股市值最大的公司,而在不久前微软创始人 Bill Gates 与Sam Altman 展开了一次对谈。
他们探讨了 AI 技术的现状、未来方向以及对社会和工业的深远影响,除了 AI 技术背后的复杂性,还提供了管理与创新方面的独到见解,核心内容不限于:
技术创新与发展策略:Sam 强调了 OpenAI 在 AI 研究和开发方面的领导地位,尤其是他们对于长期研究与发展的承诺,以及他们在实现智能技术方面的开拓性工作。
组织与团队构建:讨论了构建高效团队的重要性,以及如何在一个较年长、经验丰富的工作环境中激发创新。他强调了拥有共同愿景和使命的重要性,并让团队成员在实现这一愿景的过程中保持自主性。
风险与机遇的权衡:Sam 谈到了创业和技术创新中的风险承担,特别是在留下舒适区、追求更高目标时的心理挑战。
AI 的社会影响:讨论了 AI 在解决复杂社会问题(如教育和医疗保健)方面的潜力,同时也关注了技术发展可能带来的伦理和社会挑战。
合作与竞争:Sam 强调了与大型技术公司(如微软)合作的重要性,这样的合作为 OpenAI 提供了实现其愿景所需的资源和支持。
具体内容关注公众号:比尔盖茨(这是官方号)
5.大模型隐蔽后门震惊马斯克:平时人畜无害,提到关键字瞬间“破防”
经过特殊训练,它们就可以做到平时深藏不露,遇到关键词就毫无征兆地变坏。
而且,一旦训练完成,现有的安全策略都毫无办法。
ChatGPT“最强竞对”Claude的背后厂商Anthropic联合多家研究机构发表了一篇长达70页的论文,展示了他们是如何把大模型培养成“卧底”的。
他们给大模型植入了后门,让模型学会了“潜伏和伪装”——
被植入后门的模型平时看起来都是人畜无害,正常地回答用户提问。
可一旦识别到预设的关键词,它们就会开始“搞破坏”,生成恶意内容或有害代码。
这篇论文一经发布就引起了广泛关注,OpenAI的科学家Karpathy表示自己也曾想象过相似的场景。
他指出,这可能是比提示词注入攻击还要严峻的安全问题。
https://arxiv.org/abs/2401.05566
6.ChatGPT在亚马逊上「开网店」,一夜之间成了网红
「我们的 [产品] 可用于多种任务,例如 [任务 1]、[任务 2] 和 [任务 3],使其成为你家庭的多功能补充。」
没想到,ChatGPT 的机器人话竟然在电商网站上火了。
GPT-5 的发布还尚需时日,最近 OpenAI 正在发力大语言模型的应用,开出了应用商店 GPT Store。与此同时,用户们也在积极探索各种 ChatGPT 的应用方向。