Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

科普向 AI 概念和应用介绍 #21

Open
shhider opened this issue Oct 11, 2024 · 0 comments
Open

科普向 AI 概念和应用介绍 #21

shhider opened this issue Oct 11, 2024 · 0 comments

Comments

@shhider
Copy link
Owner

shhider commented Oct 11, 2024

作为一个程序员,虽然我的工作不是 AI 强相关,但也一直在关注相关内容。这篇文章整理了我所了解的 AI 知识,以科普性质介绍目前 AI 方面常见的概念和应用,这既为了让自己的理解更清晰、也希望能帮助有需要的同学对 AI 有个基本的了解。

前言——这波 AI 真的有点东西

这波 AI,我印象中是随着 ChatGPT 的出现开始火爆起来的,突然间大家就纷纷讨论 AI、想办法注册 ChatGPT 试用起来、并感叹其强大,接着各家厂商们也陆续推出自家的 AI 产品。其中一个有趣的现象是各家都搞一个 waitlist、用户得排队等使用资格😆

对大众而言,这波 AI 接触到最多的是生成式 AI, GenAI, Generative AI——根据提示,AI 大模型生成文本、图像、语音、视频等形式的内容。最常见的产品形式则是聊天机器人,一般叫 AI 助手、助理等,用户发送的消息就是「提示」,AI 根据提示生成最符合的内容回复给用户。

就像和真人聊天发消息,AI 助手就可以辅导你学习新知识,不懂的点可以持续追问;可以帮你写工作小结、写论文,扩写、润色内容,要更正式地书面用语、随意的口头用语都可以;可以解读论文、总结重点……可以做的事太多了,无法一一列举。

同时,各类应用 APP 也开始接入/集成 AI 服务,给 APP 的功能带来质的变化。比如,代码编辑器可以接入如 GitHub Copilot 这样的 AI 代码助手,只要一个函数名称或一段注释,对应的代码就立即出现了;比如在线会议软件的 AI 助手,可以实时将会议内容转换为文本记录,会议结束后归纳出会议重点;比如钉钉文档的 AI 助理,可以学习公司知识库的文档文件,当你需要某些内容时,不用找特定的文件、直接问 AI 助理即可——沉淀的知识不再是一潭死水(利益相关:我曾经是钉钉文档的开发)。

随着技术的发展,除了文本内容,AI 助手们生成图片/视频也越来越快、越来越逼真。我真的已经看到杭州接头 宣传窗张贴的海报、地铁内容播放的宣传片等已经从原先拙劣的卡通😬变成了以假乱真的 AI 图片/视频。

AI 还在持续进化,越来越强的能力、越来越多的细分场景和应用。除了上述应用,还推动着自动驾驶、医疗诊断等更具价值的领域。

下面开始介绍一些在 AI 相关资讯中常见的概念及其关联。

本文作者 shhider

AI 的基础技术和发展过程

首先,人工智能, AI, Artificial Intelligence 是一个比较宽泛的概念,主要指 让机器具备/模拟人类的能力,比如「听、说——语音/音频的识别、生成」、「读、写——文本/自然语音的处理、生成」、「图像识别——计算机视觉」等。

机器学习, ML, Machine Learning则是 AI 的一个具体方向——让机器通过对已有数据的学习、在之后的任务中做出决策。而神经网络, Neural Network,则是机器学习的主要领域之一,顾名思义就是模拟大脑中神经元之间的连接。机器学习和神经网络的概念其实在约 1950s 就已经提出,到了 1980s 才开始有一些重要的进展。

  • 第一届国际机器学习会议 ICML 在 1980 年举办;
  • 反向传播算法 Backpropagation 在此期间被提出,让陷入停滞的神经网络技术再次起步;
  • 2018 图灵奖得主杨立昆在此期间将卷积神经网络 CNN应用到手写数字识别的场景中,取得了不错的效果;

接着在 2010s,神经网络取得了关键进展,深度学习, DL, Deep Learning概念形成并崭露头角 —— 因为算力的发展和大规模数据集的出现,神经网络的层级得以构建得更大更深,所以基于此的机器学习方向就称为 Deep Learning。

天时地利人和

因为读了李飞飞的自传《The Worlds I See》,我对 2010s 期间的发展印象比较深刻。

在 2006 年,出于研究计算机视觉的需要,李飞飞开始构建 ImageNet 数据集。初版 ImageNet 于 2009 年面世:从 10 亿张图片中筛选、标注了 1500 万张图片,分类到了 2000 多个类别中。

  • 其实 ImageNet 得以面世,很大程度依赖了互联网的发展、众包平台的出现。因为一张张图片都是需要人工标注的。初期,李飞飞尝试招募学生组建了标注团队,但 ImageNet 的工作量预估需要标注团队工作 19 年…

ImageNet 数据集完成后,为了吸引大家基于 ImageNet 探索更高效的计算机视觉方案,李飞飞组织了「ImageNet 大规模视觉识别大赛」。在前两届,收到的作品基本就是对当时主流方案的修修补补、效果一般;而在 2012 年第三届挑战赛上,一支队伍的作品展现出了惊人的效果 —— 作品名为 AlexNet,采用了当时冷门的神经网络(具体就是卷积神经网络 CNN)方案,经过 ImageNet 数据的训练,在进行图像识别时展现出了惊人的准确率。

  • AlexNet 作者背后的导师就是 Geoffrey Hinton —— 2024 年诺贝尔奖的获得者;

于是这场大赛吸引了业界大量的关注。神经网络技术一炮走红,使越来越多的研究者投入其中,各种算法模型、数据集、应用场景开始涌现;ImageNet 和李飞飞被大家熟知,现在她更是被称为「AI 教母」 —— 至此 AI 的发展进入了快车道,逐渐形成现在大家熟知的 AI。

和 ImageNet 的诞生类似,神经网络的方案能在 2012 年一鸣惊人,依赖了 ImageNet 数据集的规模之大,也更依赖于 GPU 的发展带来算力的大幅提升(以这都是天时地利人和啊~)。

  • 所以,现在也有说法把「神经网络」、「GPU」、「ImageNet 数据集」称为现代 AI 的三大基石 —— 也就是算法、算力和数据。

什么是 AI「大模型」

模型, Model,在目前讨论下就是指神经网络的算法模型。又因为现在训练模型的数据规模很大、网络层级非常深,因此也叫「大模型」。

「模型」相关的术语,具体的又有:

  • 大语言模型, LLM, Large Language Model,指处理文本/自然语言的模型(也常看到把 LLM 泛指大模型的);
  • 多模态模型, Multi-modal Large Model,指能处理多种数据类型的模型,比如既可以接受文本输入、也可以接受音频输入,既可以输出文本、也可以输出图片等。对应地,「单模态」的模型就是只能输入或产出一种数据类型;
  • 基础模型, FM, Foundation Model则是指已经用大量数据集训练过的预训练模型,已经具备一定的能力,用户可以直接使用,或者再按需进行微调 Fine-tuning训练。

ChatGPT、GPT、OpenAI 都什么关系 —— 区分 AI 模型和应用

OpenAI 是一家公司,研发了各种 AI 模型。

  • GPT 就是其中的一个自然语音模型系列,具体模型有GPT-4oGPT-1等;
    • 除了自然语言模型,OpenAI 还有文生图模型DALL-E、文生视频模型Sora等;
  • ChatGPT则是 OpenAI 推出的 AI 聊天机器人应用/APP,背后对接了 GPT 模型——用户向 ChatGPT 发送的消息,应用转发给 GPT 模型来生成对应的答案、再给到用户。
    • GPT 模型对外提供了一系列接口 API,通过这些接口可以调用 GPT 的能力。开发者可以开发自己的 APP,在其中调用这些接口来集成 GPT 的能力;
    • 所以简单来说,ChatGPT 就是 OpenAI 自己接入 GPT 接口做的一个 APP。

AI 模型和应用

👆 inspired by https://www.youtube.com/watch?v=2IK3DFHRFfw

类似地:

参考资料

本文作者 shhider

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant