新加坡领导开发东南亚多模态语言模型的倡议

新加坡投资5200万美元开发与西方国家不同的独特语言模型

新加坡领导的研究项目为东南亚开发多模态语言AI模型

🌐 东南亚地球仪 🌐

一个新的研究计划正在进行中,旨在构建一个更符合东南亚国家人口特点的大型语言模型(LLM)。

国家多模态LLM计划的介绍

这个激动人心的计划被称为国家多模态LLM计划,由新加坡领导,旨在开发一个支持该地区多元文化和语言的人工智能(AI)大型语言模型。🇸🇬

信息媒体发展局(IMDA)、新加坡人工智能(AISG)和新加坡科技研究局(A*STAR)这三个政府机构合作启动了这个研究项目,国家研究基金为其提供了7000万新加坡元(5248万美元)的资金支持。

东南亚为什么需要本地化的语言模型

这些机构在一份联合声明中表示:“随着技术的快速演进,发展LLM的主权能力变得迫在眉睫。新加坡和该地区的当地文化、价值观和规范与大多数大型语言模型的西方国家不同。”

为了真正理解与该地区多样化的文化和语言相关的背景和价值观,开发东南亚的多模态和本地化语言模型至关重要。这包括解决新加坡多语言人口在不同语言之间切换的挑战。

建立研究和工程能力

该研究计划将利用新加坡国家超级计算中心的高性能计算资源,专注于发展该国在多模态LLM方面的研究和工程能力。新加坡致力于成为全球人工智能中心的决心是明确的,信息媒体发展局商业技术团队的助理首席执行官王振锜表示:“语言是合作的重要推动力。通过为区域语言投资人才和大型语言AI模型,我们希望促进跨境产业合作,推动东南亚的下一波人工智能创新。”

SEA-LION:迈向更大的本地化的一步

该计划将建立在新加坡人工智能(AISG)的东南亚一体化语言(SEA-LION)项目的基础上,这是一个设计比市场上的LLM更小、更灵活、更快速的开源LLM。SEA-LION项目有两个基本模型:30亿参数模型和70亿参数模型。

通过创建更好地代表“非WEIRD”(非西方、受过教育、工业化、富裕、民主)人群的LLM,SEA-LION旨在解决现有模型中存在的偏见。SEA-LION项目的训练数据包含9810亿语言令牌,有潜力弥合差距,提供对东南亚语言和文化更准确的表达。

新加坡雄心勃勃的人工智能战略

构建本地化的LLM与新加坡的人工智能战略相一致,该战略旨在使该国成为2030年全球人工智能解决方案开发的中心。该全面战略包括计划将该国的人工智能专业人士数量增加两倍,达到1.5万人,在治理、测试、基准测试和人工智能伦理及安全指南等方面进行倡导。

新加坡副总理黄循贤在全国人工智能战略发布会上强调了负责任地开发和采用人工智能的重要性。他指出,随着人工智能的发展,可能出现具有人类认知能力、自我意识和独立决策能力的机器。因此,有必要有针对性地引导人工智能的发展和应用。

问答:读者还想了解什么?

问:什么是大型语言模型(LLM)? 答:大型语言模型是一种能够生成类似人类文本、回答问题并理解语境的人工智能系统。它利用大量数据学习和复制类似人类语言模式的能力。

问:现有的语言模型如何显示偏见? 答:现有的语言模型往往会显示出偏见,这是由它们使用的训练数据引起的,这些数据通常来自于互联网。这些数据往往具有西方、受过教育、工业化、富裕、民主(WEIRD)的背景,从而在文化价值观、政治信仰和社会态度方面产生偏见。非WEIRD族裔在这些模型中的代表性较低。

“`html

问:建立本地化语言模型有什么好处? 答:建立本地化语言模型能更好地理解特定地区的细微差别、文化背景和价值观。通过解决现有模型的偏见和限制,本地化模型提供更准确的表达,并推动区域语言在人工智能应用中的进展。

问:SEA-LION 如何为语言本地化做贡献? 答:SEA-LION 是一个开源的语言本地化模型,专门设计用于代表非西方、非规范群体。通过利用其训练数据,包括东南亚和华人地区的语言标记,SEA-LION旨在为东南亚文化提供更全面、包容的语言模型。

问:新加坡人工智能战略的长期影响是什么? 答:新加坡人工智能战略的目标是将该国定位为全球人工智能发展的领导者。通过促进产业合作,增加人工智能专业人员的数量,并注重治理和道德,新加坡旨在推动人工智能领域的创新、经济增长和社会进步。

结论

新加坡领导的国家多模态语言模型计划展示了对开发更能代表东南亚文化和语言的人工智能语言模型的承诺。通过解决偏见、语言特定环境和本地价值观,这些本地化模型为人工智能应用的进步铺平了道路,促进了该地区的创新。新加坡雄心勃勃的人工智能战略将该国定位为全球人工智能发展的领导者,强调负责任的人工智能采用的重要性,以及拥抱人工智能的变革力量的必要性。


参考文献:
1. TomTom and Microsoft Launching AI Driving Assistant 2. The Ethics of Generative AI: How We Can Harness This Powerful Technology 3. DALL·E 3: How ChatGPT Can Read and Modify Images, Come See 4. A Thorny Question: Who Owns Code, Images, and Narratives Generated by AI? 5. CBS Paramount Owner National Amusements Says Hacked 6. OpenAI Releases ChatGPT Data Leak Patch: Issue Completely Fixed 7. 7 Advanced ChatGPT Prompt-Writing Tips You Need to Know


你觉得这篇文章有趣吗?请在下方评论中分享你的想法,并不要忘记通过你最喜欢的社交媒体平台分享这篇文章! 🚀😄

“`