You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
同时,各类应用 APP 也开始接入/集成 AI 服务,给 APP 的功能带来质的变化。比如,代码编辑器可以接入如 GitHub Copilot 这样的 AI 代码助手,只要一个函数名称或一段注释,对应的代码就立即出现了;比如在线会议软件的 AI 助手,可以实时将会议内容转换为文本记录,会议结束后归纳出会议重点;比如钉钉文档的 AI 助理,可以学习公司知识库的文档文件,当你需要某些内容时,不用找特定的文件、直接问 AI 助理即可——沉淀的知识不再是一潭死水(利益相关:我曾经是钉钉文档的开发)。
随着技术的发展,除了文本内容,AI 助手们生成图片/视频也越来越快、越来越逼真。我真的已经看到杭州接头 宣传窗张贴的海报、地铁内容播放的宣传片等已经从原先拙劣的卡通😬变成了以假乱真的 AI 图片/视频。
AI 还在持续进化,越来越强的能力、越来越多的细分场景和应用。除了上述应用,还推动着自动驾驶、医疗诊断等更具价值的领域。
作为一个程序员,虽然我的工作不是 AI 强相关,但也一直在关注相关内容。这篇文章整理了我所了解的 AI 知识,以科普性质介绍目前 AI 方面常见的概念和应用,这既为了让自己的理解更清晰、也希望能帮助有需要的同学对 AI 有个基本的了解。
前言——这波 AI 真的有点东西
这波 AI,我印象中是随着 ChatGPT 的出现开始火爆起来的,突然间大家就纷纷讨论 AI、想办法注册 ChatGPT 试用起来、并感叹其强大,接着各家厂商们也陆续推出自家的 AI 产品。其中一个有趣的现象是各家都搞一个 waitlist、用户得排队等使用资格😆
对大众而言,这波 AI 接触到最多的是
生成式 AI, GenAI, Generative AI
——根据提示,AI 大模型生成文本、图像、语音、视频等形式的内容。最常见的产品形式则是聊天机器人,一般叫 AI 助手、助理等,用户发送的消息就是「提示」,AI 根据提示生成最符合的内容回复给用户。就像和真人聊天发消息,AI 助手就可以辅导你学习新知识,不懂的点可以持续追问;可以帮你写工作小结、写论文,扩写、润色内容,要更正式地书面用语、随意的口头用语都可以;可以解读论文、总结重点……可以做的事太多了,无法一一列举。
同时,各类应用 APP 也开始接入/集成 AI 服务,给 APP 的功能带来质的变化。比如,代码编辑器可以接入如 GitHub Copilot 这样的 AI 代码助手,只要一个函数名称或一段注释,对应的代码就立即出现了;比如在线会议软件的 AI 助手,可以实时将会议内容转换为文本记录,会议结束后归纳出会议重点;比如钉钉文档的 AI 助理,可以学习公司知识库的文档文件,当你需要某些内容时,不用找特定的文件、直接问 AI 助理即可——沉淀的知识不再是一潭死水(利益相关:我曾经是钉钉文档的开发)。
随着技术的发展,除了文本内容,AI 助手们生成图片/视频也越来越快、越来越逼真。我真的已经看到杭州接头 宣传窗张贴的海报、地铁内容播放的宣传片等已经从原先拙劣的卡通😬变成了以假乱真的 AI 图片/视频。
AI 还在持续进化,越来越强的能力、越来越多的细分场景和应用。除了上述应用,还推动着自动驾驶、医疗诊断等更具价值的领域。
AI 的基础技术和发展过程
首先,
人工智能, AI, Artificial Intelligence
是一个比较宽泛的概念,主要指 让机器具备/模拟人类的能力,比如「听、说——语音/音频的识别、生成」、「读、写——文本/自然语音的处理、生成」、「图像识别——计算机视觉」等。机器学习, ML, Machine Learning
则是 AI 的一个具体方向——让机器通过对已有数据的学习、在之后的任务中做出决策。而神经网络, Neural Network
,则是机器学习的主要领域之一,顾名思义就是模拟大脑中神经元之间的连接。机器学习和神经网络的概念其实在约 1950s 就已经提出,到了 1980s 才开始有一些重要的进展。反向传播算法 Backpropagation
在此期间被提出,让陷入停滞的神经网络技术再次起步;卷积神经网络 CNN
应用到手写数字识别的场景中,取得了不错的效果;接着在 2010s,神经网络取得了关键进展,
深度学习, DL, Deep Learning
概念形成并崭露头角 —— 因为算力的发展和大规模数据集的出现,神经网络的层级得以构建得更大更深,所以基于此的机器学习方向就称为 Deep Learning。天时地利人和
因为读了李飞飞的自传《The Worlds I See》,我对 2010s 期间的发展印象比较深刻。
在 2006 年,出于研究计算机视觉的需要,李飞飞开始构建 ImageNet 数据集。初版 ImageNet 于 2009 年面世:从 10 亿张图片中筛选、标注了 1500 万张图片,分类到了 2000 多个类别中。
ImageNet 数据集完成后,为了吸引大家基于 ImageNet 探索更高效的计算机视觉方案,李飞飞组织了「ImageNet 大规模视觉识别大赛」。在前两届,收到的作品基本就是对当时主流方案的修修补补、效果一般;而在 2012 年第三届挑战赛上,一支队伍的作品展现出了惊人的效果 —— 作品名为 AlexNet,采用了当时冷门的神经网络(具体就是卷积神经网络 CNN)方案,经过 ImageNet 数据的训练,在进行图像识别时展现出了惊人的准确率。
于是这场大赛吸引了业界大量的关注。神经网络技术一炮走红,使越来越多的研究者投入其中,各种算法模型、数据集、应用场景开始涌现;ImageNet 和李飞飞被大家熟知,现在她更是被称为「AI 教母」 —— 至此 AI 的发展进入了快车道,逐渐形成现在大家熟知的 AI。
和 ImageNet 的诞生类似,神经网络的方案能在 2012 年一鸣惊人,依赖了 ImageNet 数据集的规模之大,也更依赖于 GPU 的发展带来算力的大幅提升(以这都是天时地利人和啊~)。
什么是 AI「大模型」
模型, Model
,在目前讨论下就是指神经网络的算法模型。又因为现在训练模型的数据规模很大、网络层级非常深,因此也叫「大模型」。「模型」相关的术语,具体的又有:
大语言模型, LLM, Large Language Model
,指处理文本/自然语言的模型(也常看到把 LLM 泛指大模型的);多模态模型, Multi-modal Large Model
,指能处理多种数据类型的模型,比如既可以接受文本输入、也可以接受音频输入,既可以输出文本、也可以输出图片等。对应地,「单模态」的模型就是只能输入或产出一种数据类型;基础模型, FM, Foundation Model
则是指已经用大量数据集训练过的预训练模型,已经具备一定的能力,用户可以直接使用,或者再按需进行微调 Fine-tuning
训练。ChatGPT、GPT、OpenAI 都什么关系 —— 区分 AI 模型和应用
OpenAI 是一家公司,研发了各种 AI 模型。
GPT
就是其中的一个自然语音模型系列,具体模型有GPT-4o
、GPT-1
等;DALL-E
、文生视频模型Sora
等;ChatGPT
则是 OpenAI 推出的 AI 聊天机器人应用/APP
,背后对接了 GPT 模型——用户向 ChatGPT 发送的消息,应用转发给 GPT 模型来生成对应的答案、再给到用户。👆 inspired by https://www.youtube.com/watch?v=2IK3DFHRFfw
类似地:
通义
命名,包括大语言模型千问 Qwen
系列、图像生成万相
、音频合成CosyVoice
等。并提供了通义
APP 供用户进行聊天问答,也提供了百炼
平台供开发者调用通义模型能力 —— 模型列表_大模型服务平台百炼(Model Studio)-阿里云帮助中心豆包
系列模型、百度有文心
……也有很多新厂商的模型也很有竞争力,比如月之暗面、百川智能等。参考资料
The text was updated successfully, but these errors were encountered: