科普向 AI 概念和应用介绍 #21

shhider · 2024-10-11T07:17:39Z

作为一个程序员，虽然我的工作不是 AI 强相关，但也一直在关注相关内容。这篇文章整理了我所了解的 AI 知识，以科普性质介绍目前 AI 方面常见的概念和应用，这既为了让自己的理解更清晰、也希望能帮助有需要的同学对 AI 有个基本的了解。

前言——这波 AI 真的有点东西

这波 AI，我印象中是随着 ChatGPT 的出现开始火爆起来的，突然间大家就纷纷讨论 AI、想办法注册 ChatGPT 试用起来、并感叹其强大，接着各家厂商们也陆续推出自家的 AI 产品。其中一个有趣的现象是各家都搞一个 waitlist、用户得排队等使用资格😆

对大众而言，这波 AI 接触到最多的是生成式 AI, GenAI, Generative AI——根据提示，AI 大模型生成文本、图像、语音、视频等形式的内容。最常见的产品形式则是聊天机器人，一般叫 AI 助手、助理等，用户发送的消息就是「提示」，AI 根据提示生成最符合的内容回复给用户。

就像和真人聊天发消息，AI 助手就可以辅导你学习新知识，不懂的点可以持续追问；可以帮你写工作小结、写论文，扩写、润色内容，要更正式地书面用语、随意的口头用语都可以；可以解读论文、总结重点……可以做的事太多了，无法一一列举。

同时，各类应用 APP 也开始接入/集成 AI 服务，给 APP 的功能带来质的变化。比如，代码编辑器可以接入如 GitHub Copilot 这样的 AI 代码助手，只要一个函数名称或一段注释，对应的代码就立即出现了；比如在线会议软件的 AI 助手，可以实时将会议内容转换为文本记录，会议结束后归纳出会议重点；比如钉钉文档的 AI 助理，可以学习公司知识库的文档文件，当你需要某些内容时，不用找特定的文件、直接问 AI 助理即可——沉淀的知识不再是一潭死水（利益相关：我曾经是钉钉文档的开发）。

随着技术的发展，除了文本内容，AI 助手们生成图片/视频也越来越快、越来越逼真。我真的已经看到杭州接头宣传窗张贴的海报、地铁内容播放的宣传片等已经从原先拙劣的卡通😬变成了以假乱真的 AI 图片/视频。

AI 还在持续进化，越来越强的能力、越来越多的细分场景和应用。除了上述应用，还推动着自动驾驶、医疗诊断等更具价值的领域。

下面开始介绍一些在 AI 相关资讯中常见的概念及其关联。

本文作者 shhider

AI 的基础技术和发展过程

首先，人工智能, AI, Artificial Intelligence 是一个比较宽泛的概念，主要指让机器具备/模拟人类的能力，比如「听、说——语音/音频的识别、生成」、「读、写——文本/自然语音的处理、生成」、「图像识别——计算机视觉」等。

机器学习, ML, Machine Learning则是 AI 的一个具体方向——让机器通过对已有数据的学习、在之后的任务中做出决策。而神经网络, Neural Network，则是机器学习的主要领域之一，顾名思义就是模拟大脑中神经元之间的连接。机器学习和神经网络的概念其实在约 1950s 就已经提出，到了 1980s 才开始有一些重要的进展。

第一届国际机器学习会议 ICML 在 1980 年举办；
反向传播算法 Backpropagation 在此期间被提出，让陷入停滞的神经网络技术再次起步；
2018 图灵奖得主杨立昆在此期间将卷积神经网络 CNN应用到手写数字识别的场景中，取得了不错的效果；

接着在 2010s，神经网络取得了关键进展，深度学习, DL, Deep Learning概念形成并崭露头角 —— 因为算力的发展和大规模数据集的出现，神经网络的层级得以构建得更大更深，所以基于此的机器学习方向就称为 Deep Learning。

天时地利人和

因为读了李飞飞的自传《The Worlds I See》，我对 2010s 期间的发展印象比较深刻。

在 2006 年，出于研究计算机视觉的需要，李飞飞开始构建 ImageNet 数据集。初版 ImageNet 于 2009 年面世：从 10 亿张图片中筛选、标注了 1500 万张图片，分类到了 2000 多个类别中。

其实 ImageNet 得以面世，很大程度依赖了互联网的发展、众包平台的出现。因为一张张图片都是需要人工标注的。初期，李飞飞尝试招募学生组建了标注团队，但 ImageNet 的工作量预估需要标注团队工作 19 年…

ImageNet 数据集完成后，为了吸引大家基于 ImageNet 探索更高效的计算机视觉方案，李飞飞组织了「ImageNet 大规模视觉识别大赛」。在前两届，收到的作品基本就是对当时主流方案的修修补补、效果一般；而在 2012 年第三届挑战赛上，一支队伍的作品展现出了惊人的效果 —— 作品名为 AlexNet，采用了当时冷门的神经网络（具体就是卷积神经网络 CNN）方案，经过 ImageNet 数据的训练，在进行图像识别时展现出了惊人的准确率。

AlexNet 作者背后的导师就是 Geoffrey Hinton —— 2024 年诺贝尔奖的获得者；

于是这场大赛吸引了业界大量的关注。神经网络技术一炮走红，使越来越多的研究者投入其中，各种算法模型、数据集、应用场景开始涌现；ImageNet 和李飞飞被大家熟知，现在她更是被称为「AI 教母」 —— 至此 AI 的发展进入了快车道，逐渐形成现在大家熟知的 AI。

和 ImageNet 的诞生类似，神经网络的方案能在 2012 年一鸣惊人，依赖了 ImageNet 数据集的规模之大，也更依赖于 GPU 的发展带来算力的大幅提升（以这都是天时地利人和啊~）。

所以，现在也有说法把「神经网络」、「GPU」、「ImageNet 数据集」称为现代 AI 的三大基石 —— 也就是算法、算力和数据。

什么是 AI「大模型」

模型, Model，在目前讨论下就是指神经网络的算法模型。又因为现在训练模型的数据规模很大、网络层级非常深，因此也叫「大模型」。

「模型」相关的术语，具体的又有：

大语言模型, LLM, Large Language Model，指处理文本/自然语言的模型（也常看到把 LLM 泛指大模型的）；
多模态模型, Multi-modal Large Model，指能处理多种数据类型的模型，比如既可以接受文本输入、也可以接受音频输入，既可以输出文本、也可以输出图片等。对应地，「单模态」的模型就是只能输入或产出一种数据类型；
基础模型, FM, Foundation Model则是指已经用大量数据集训练过的预训练模型，已经具备一定的能力，用户可以直接使用，或者再按需进行微调 Fine-tuning训练。

ChatGPT、GPT、OpenAI 都什么关系 —— 区分 AI 模型和应用

OpenAI 是一家公司，研发了各种 AI 模型。

GPT 就是其中的一个自然语音模型系列，具体模型有GPT-4o、GPT-1等；
- 除了自然语言模型，OpenAI 还有文生图模型DALL-E、文生视频模型Sora等；
ChatGPT则是 OpenAI 推出的 AI 聊天机器人应用/APP，背后对接了 GPT 模型——用户向 ChatGPT 发送的消息，应用转发给 GPT 模型来生成对应的答案、再给到用户。
- GPT 模型对外提供了一系列接口 API，通过这些接口可以调用 GPT 的能力。开发者可以开发自己的 APP，在其中调用这些接口来集成 GPT 的能力；
- 所以简单来说，ChatGPT 就是 OpenAI 自己接入 GPT 接口做的一个 APP。

👆 inspired by https://www.youtube.com/watch?v=2IK3DFHRFfw

类似地：

阿里巴巴的模型以通义命名，包括大语言模型千问 Qwen系列、图像生成万相、音频合成CosyVoice等。并提供了通义APP 供用户进行聊天问答，也提供了百炼平台供开发者调用通义模型能力 —— 模型列表_大模型服务平台百炼(Model Studio)-阿里云帮助中心
Google 有 Gemini 等系列 —— Our leading AI models – Google AI
Meta/Facebook 有 Llama 等系列 —— Models and libraries - Meta AI
字节有豆包系列模型、百度有文心……也有很多新厂商的模型也很有竞争力，比如月之暗面、百川智能等。

参考资料

AI, Machine Learning, Deep Learning and Generative AI Explained - YouTube
- 简短地介绍了 AI 相关概念和相互关系；
Generative AI in a Nutshell - how to survive and thrive in the age of AI - YouTube
- 一个非常全面的科普向视频；
《The Worlds I See》- 李飞飞, Li Fei-fei
- 李飞飞的自传。看完让人感叹科技的进步需要天时地利人和，也必需科研工作者的热情、专注和坚韧。
ChatGPT，豆包，通义……😆

本文作者 shhider

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

科普向 AI 概念和应用介绍 #21

科普向 AI 概念和应用介绍 #21

shhider commented Oct 11, 2024

科普向 AI 概念和应用介绍 #21

科普向 AI 概念和应用介绍 #21

Comments

shhider commented Oct 11, 2024

前言——这波 AI 真的有点东西

AI 的基础技术和发展过程

天时地利人和

什么是 AI「大模型」

ChatGPT、GPT、OpenAI 都什么关系 —— 区分 AI 模型和应用

参考资料