原文:
www.kdnuggets.com/the-case-of-homegrown-large-language-models
大多数著名的 LLMs 擅长广泛使用的语言,如英语,但未涵盖能够有效服务全球文化和地区细微差别的语言多样性。
图片来源:作者
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升您的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持您在 IT 领域的组织
建立自家研发的 LLMs 是一个重要的技术进步,值得称道。它为每个人参与数字化转型树立了先例,为双方带来了双赢——既能更广泛地接触到客户,又能使企业扩大覆盖范围,联系并服务全球多样化的客户群体。
AI 在许多应用中找到吸引人的用例,同时处理认知过载、信息获取的便捷性和增强客户体验。
训练于多种语言背景的 LLMs 涵盖了所有三个领域,提供了便捷且及时的信息获取。这种触手可及的知识促进可以帮助许多地方社区获得急需的帮助和支持,以解决他们的咨询。
虽然我们已经探讨了建立此类模型的诸多优点,但同样重要的是指出,模型开发需要接触本地语言的数据。不言而喻,这一过程起初可能会显得具有挑战性,但并非无法实现。
事实上,当数据收集过程在规模上高效建立时,它迅速成为地方社区的福音,尤其是在数据标注方面(更多内容将在后续部分介绍)。
图片来源:作者
此外,开发 LLMs 需要高性能的计算基础设施,如 GPU 和云计算服务,这些是昂贵的,并且需要赞助商/合作伙伴提供资金支持。
毋庸置疑,任何国家的成功都依赖于打造更便宜、更节能的芯片,以构建下一代 AI 模型。同时,需要增加研发资金,以促进学术界、工业界和政府之间的广泛合作,汇聚智力资源。
数据不再是新的石油,但知道如何处理如此大量的数据的人变得更为重要,这提高了对节能芯片的需求。
除了软件,开发本地语言训练的模型需要资助前沿技术的研发,并在硬件方面建立自给自足。此外,大型模型严重依赖需要大量电力的数据中心,这就提高了对节能芯片的需求。
这让我们感受到一种统一感,我们正在让每个人都成为这一技术突破的一部分,同时,他们也成为了数字世界即数据的一部分,因此下一波的新模型也会包括他们,从而解决未来的误代表问题。
用本地语言训练的 LLM 不仅会在数据领域占据主导地位,还会在推广多样文化方面发挥重要作用。
虽然大多数人认为 LLM 可能对就业部门产生负面影响,但它也有积极的一面。这是一个双赢的局面,因为它为技术开发者以及整个技术栈中的参与者提供了就业机会。
此外,消除非英语使用者使用技术的障碍可以在有意义的方式上改善他们的生活。这可以打开机会的大门,让他们成为如何运行世界的积极参与者。
更多的工作岗位将会被创造出来。虽然创建多样化的数据在表面上看似是一项挑战,但一旦高效地大规模完成,它很快就会成为为贡献者提供工资机会的机会。本地社区可以参与这种数据生成活动,并在基础层面参与这场革命,同时因其贡献而获得工资和版权的认可。
知识获取是最大的杠杆,而数字化是一个巨大的平衡器。据报道,发展中国家的“教师、律师、医生支持”与“人口”的比例明显低于发达国家,这清晰地突出了一条可以通过帮助客户在早期解决问题或获得下一步指导的应用程序来高效弥合的差距。如果用户对 AI 驱动的聊天机器人的对话语言感到舒适,这将变得可行。
图片作者
考虑像农业这样的领域,在这些领域,LLM 可以帮助农民克服语言障碍。农民可以获得关于灌溉最佳实践和提高水资源使用效率的指导。
再举一个医疗保健领域的例子。理解这些保险政策中的复杂领域特定术语对我们所有人来说都是具有挑战性的。开放一个能够利用其适应性教学风格来用人们理解的语言教育所有社区的聊天机器人,是促进平等的重要举措。
包含多种语言的 AI 模型有助于缩小数字鸿沟,并将每个人带入这些技术进步带来的机会画布上。最重要的是,这种包容性将必要的重点放在边缘化群体上,使他们成为这场革命性变化的关键参与者。它通过为地方群体提供公平的访问来考虑伦理问题。
Vidhi Chugh是一位人工智能战略家和数字化转型领导者,致力于在产品、科学和工程交汇处构建可扩展的机器学习系统。她是一位获奖的创新领导者、作家和国际演讲者。她的使命是普及机器学习,并打破术语,使每个人都能参与这场转型。