12月6日,第十届语言服务高级论坛暨2025年度国家应急语言服务团学术年会在广州大学(大学城校区)举行。粤语语料库建设与大模型评测广州市哲学社会科学重点实验室(下称“实验室”)研发的AI-DimSum粤语语料库平台在大会上正式发布。

教育部语言文字信息管理司司长刘培俊,教育部语言文字应用研究所所长刘朋建,广东省教育厅副厅长朱建华,省委网信办副主任王敏伟,广州市社会科学界联合会党组书记、主席崔颂东,广州市教育局一级巡视员赵琼飞,广州大学党委书记欧阳谦,广州大学副校长张其学,国家语言服务与粤港澳大湾区语言研究中心主任屈哨兵教授,科大讯飞汪张龙等企业界代表,以及来自全国各地的学者代表参加活动。大会由广州大学副校长张其学主持。
成果发布环节商务印书馆余桂林副主编主持,实验室主任齐佳音介绍了AI-DimSum粤语语料库平台。之后,由朱建华、王敏伟、屈哨兵、崔颂东、张其学、齐佳音、张延平(广州大学社科处处长)、禤健聪(广州大学人文学院院长、实验室副主任)等共同启动AI-DimSum粤语语料库平台上线,标志着粤语语料库建设与大模型评测广州市哲学社会科学重点实验室第一年建设取得重要进展和标志性成果。
作为数字中文的关键领域,粤语不仅关涉粤港澳大湾区的文化共同体认同,更关涉中华文化全球传播的国际话语权,关涉全球华人与祖国情感的纽带。粤语作为汉语的一种方言,在海内外有上亿用户,但在网络世界中却属于低资源语言。岭南文化的传承要搭上人工智能的快车,亟待构建“技术为体,文化为本”的通用粤语语料库。
面向“数字中文建设”和粤港澳大湾区文化数字化需求,AI-DimSum多模态粤语语料库平台建设了语料采集子系统、语料标注子系统、大模型对接子系统、语料确权检索子系统、语料质量评估子系统、语料管理子系统以及应用商店子系统等七个子系统。通过子系统协同工作,实现从数据采集、清洗、标注、确权、存储检索,到模型接入与最终应用发布的一体化流程,为粤语语料库的构建、管理、利用与落地应用提供完整、模块化、可扩展的基础设施与运行机制。

AI-DimSum粤语语料库汇聚处理文本语料超过100万字,涵盖新闻、文学、社交媒体等领域;完成3000小时高保真语音标注及1TB以上的音视频资料,包括大模型训练专用语料集;功夫熊猫、小猪佩奇、哪吒、大圣归来、花木兰等包含粤语字幕与标注的动画影视作品;外来媳妇本地郎、溏心风暴等包含粤语字幕与标注的影视作品;超过1万句的多用途粤语生活场景音频+文字的语料;岭南文化图像素材10000张;构建了包含6669条权威词条、30000条扩展词条的粤语安全语料库;粤语大模型内容安全多模态评测题超过20万道。
在随后的主旨报告环节,实验室主任齐佳音以“如何建设“文化忠实、安全可信、AI友好、持续成长”的活态语料库?——粤语语料库建设的探索与思考”为题,分享了如何面向人工智能应用建设新型方言语料库的粤语语料库建设的经验,持续推动建设还要逐步解决的方言语料库治理及运营中的关键问题。
AI-DimSum语料库平台是全球首个集文化忠实、安全可信及AI友好于一体的多模态、大规模、通用粤语语料库平台,其探索出的“技术为体,文化为本”的方言语料库建设路径与独特的“1+1+N”协同创新机制为方言文化的数字化保护与传承发展提供了可复制、可推广的数字化方式。
(中国教育在线 林剑 通讯员/广大宣)
① 凡本站注明“稿件来源:中国教育在线”的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本站协议授权的媒体、网站,在下载使用时必须注明“稿件来源:中国教育在线”,违者本站将依法追究责任。
② 本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。




中国教育在线
