自选
我的自选
查看全部
市值 价格 24h%
  • 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

为何马拉维的奇契瓦语AI推动是非洲大陆消除语言鸿沟竞赛的一部分?

2026-06-25 21:02:01
收藏

马拉维的奇切瓦语AI:解决数据问题

在马拉维的奇森佩雷村,小农户甘蔗种植者阿利福西纳·姆特塞特卡对着手机描述了一种侵害她秋葵作物的害虫后,收到了用她母语奇切瓦语提供的防治建议。这个名为Ulangizi的AI聊天机器人奏效了。她购买了药剂进行喷洒,作物恢复了生机。这虽然是一个小事件,却指向了一个宏大的可能性:长期偏向英语使用者的人工智能,或许终于能够开始以非洲大多数人的语言来服务他们。

如今,这一可能性已成为一项由政府支持的正式倡议的明确目标。马拉维启动了“马拉维低资源语言数据信托计划”,这是一项系统性的项目,旨在构建能够理解并回应奇切瓦语的人工智能系统。奇切瓦语是马拉维约70%人口使用的国语,在赞比亚、莫桑比克和津巴布韦也广泛使用。该计划正在开发核心的人工智能框架,并收集获得授权的奇切瓦语内容,以扩充可用于AI应用的训练数据。项目得到了世界银行和盖茨基金会的支持。

该项目旨在打破长期存在的语言障碍,让AI驱动的系统能够用当地语言提供信息和服务,尤其惠及那些英语并非主要交流语言的农村社区。具体而言,项目将从政府档案和媒体内容中构建数据集,为语音和文本聊天机器人提供支持。包括国家出版有限公司在内的媒体机构将贡献奇切瓦语内容,用于训练模型。

在利隆圭举行的启动研讨会上,马拉维国防部长费斯顿·考帕代表信息通信技术部长发言,强调了紧迫性:他说,那些战略性采用人工智能的国家将更有能力推动创新、提高生产力并在全球经济中竞争。这番言论出自一个被列为世界最贫穷国家之一的国家,令人瞩目,但它反映了整个非洲大陆日益形成的共识:人工智能不是奢侈品,而是基础设施问题;错过它就意味着进一步落后。

马拉维的奇切瓦语AI:解决数据问题

马拉维试图解决的结构性挑战在于:目前大多数大型语言模型都是在超过90%的英语文本上训练的,这凸显了英语与世界其他语言之间的巨大鸿沟。非洲语言尤其处于劣势。尽管在马拉维、赞比亚和莫桑比克共有约2100万人使用奇切瓦语,但由于互联网上数字化数据不足,无法训练用于机器翻译和自动语音识别等任务的机器学习模型,该语言仍属于低资源语言。

这一差距带来的后果并非抽象概念。当AI工具无法理解当地语言时,它们也就无法服务于当地民众。医护人员无法用它们来查阅临床指南;农民无法获取虫害管理建议;公民无法查询政府服务。实际上,数字经济运行的语言,大多数人在家中并不使用。

用奇切瓦语训练人工智能系统已被证明是困难的。该语言的低资源状态意味着早期的模型有时会让母语者感到奇怪,甚至一度让回答带上了印度口音。Ulangizi的开发者坚持了下来,最终打造出了一个如今被数千名农民使用的系统。这一经验对政府更广泛的努力具有启发意义:技术解决方案是存在的,但需要持续的投资和社区根基。

马拉维的战略将农业韧性列为优先事项,与医疗保健和金融普惠并列——这些领域历来因语言障碍而最严重地阻碍了人们获取服务。愿景是让公民能够以文本和语音两种形式与AI应用互动。这一设计选择在一个识字率和智能手机普及率差异巨大、但语音交流近乎普及的国家意义重大。

世界银行的“全球数据设施”已将开发AI就绪的语言数据图书馆列为前瞻性优先事项,认识到随着人工智能越来越深入地嵌入发展实践,确保语言数据的包容性、代表性和可及性至关重要。马拉维的倡议正是这一优先事项在国家层面的直接体现。

非洲大陆的AI包容性努力

马拉维并非孤例。越来越多的非洲国家和研究社区正在抵制人工智能的语言排斥现象,各自以不同方式应对这一问题。

泛非倡议Lelapa AI推出了InkubaLM,据称是首个针对非洲语言的多语言AI大语言模型,重点关注斯瓦希里语、约鲁巴语、伊西科萨语、豪萨语和伊西祖鲁语。该公司首席执行官佩洛诺米·莫伊洛阿尖锐地指出,任何人都不应为了使用尖端工具而被迫接受外来文化。

像Masakhane这样的社区主导项目正在训练诸如AfriBERTa和SwahBERT等变换器模型,覆盖包括阿姆哈拉语、豪萨语、斯瓦希里语和约鲁巴语在内的多种非洲语言。这些模型在下游任务中往往优于多语言基线模型。在乌干达,Sunbird AI主张采用区域聚焦的方法进行语言AI开发,并以乌干达——一个语言多样性极高的国家——作为案例,展示了如何构建服务于使用人数较少群体的AI系统。

在东非,Jacaranda Health于2024年扩展了其开源AI模型UlizaLlama,以斯瓦希里语、豪萨语、约鲁巴语、科萨语和祖鲁语提供AI驱动的孕产妇健康支持。该项目针对内罗毕城郊的新妈妈和准妈妈,而这正是最容易被纯英语工具排除在外的群体。

最近,由微软AI for Good实验室与盖茨基金会、Masakhane和Google.org合作领导的LINGUA Africa倡议,已开放资金申请,征集专注于语言数据集、AI模型以及能够增加整个非洲大陆数字包容性的实际应用项目。该计划反映了大型科技公司作为合作伙伴和资助方进入非洲语言AI领域的趋势,这一转变带来了资源,但也引发了关于数据所有权以及谁最终控制基础设施的问题。

正是这个问题使得马拉维的模式显得格外引人注目。通过将自身努力定位为国家数据信托,以授权内容和政府档案为输入,该倡议对底层数据主张了一定程度的主权,这是纯商业方法无法保证的。

非洲人工智能市场预计将从2025年的45.1亿美元增长到2030年的165亿美元。那些现在就开始建设自身语言基础设施的国家,将更有能力在价值中分得一杯羹,而不是继续依赖那些不讲自己语言的外部系统。

展开阅读全文
更多新闻