北京语言大学《方言通》团队:把科研论文写在抗疫主战场
北京日报客户端

2020-02-24 09:25



近日,在教育部语言文字信息管理司的指导下,经北京语言大学李宇明教授倡议,一支来自北京、湖北、广州等地的语言专家和学者组成“战疫语言服务团”,日日夜夜奋斗,制作并发布《抗击疫情湖北方言通》。其中,北京语言大学杨尔弘、刘晓海、王莉宁、饶高琦、田列朋、赵运、徐欣路作为重要成员。“方言通”的微信版上线72小时之内访问量22189,播放量计254489,平均一小时180人次,4000播放量。“方言通”及时帮助外地援鄂医疗队解决医患沟通的方言障碍问题,用语言学专业知识助力湖北省抗击新冠肺炎疫情。疫情面前,他们用专业知识诠释了北语人的家国情怀和责任担当,将论文书写在祖国大地上,书写在抗疫战场上。背后又有怎样的故事呢?基于大家关心的一些问题,我们采访了几位学者。

1.基于什么样的考虑主动发起的这个项目,基于哪些需求和人群来设计?

杨尔弘:在全国各地支援湖北防控疫情的过程中,帮助外地援鄂医疗队解决医患沟通的方言障碍是个比较显著的问题,随着一线工作不断开展,此类问题便逐渐通过各类媒体反映出来,山东医疗团队还开始自行编制方言学习材料。面对解决医患沟通障碍的实际需求,结合北语语言资源建设、语保工程的研究基础,李宇明教授第一时间倡议成立“战疫语言服务团”,动员北语语言资源高精尖中心、中国语言资源保护研究中心、中国语言政策与标准研究所以及校内其他单位有关研究人员,联合全国各有关单位研发《抗击疫情湖北方言通》,用语言学专业知识助力湖北省抗击新冠肺炎疫情。

2.各单位是如何快速分工和配合的?

杨尔弘:“战疫语言服务团”是在教育部语言文字信息管理司的指导下,经李宇明教授倡议,由北京语言大学语言资源高精尖创新中心、武汉大学中国语情与社会发展研究中心、北京语言大学中国语言资源保护研究中心、华中师范大学语言与语言教育研究中心、清华大学计算机科学与技术系、北京语言大学中国语言政策与标准研究所、首都师范大学国际文化学院和语言产业研究院、广州大学粤港澳大湾区语言服务与文化传承研究中心、暨南大学海外华语研究中心,以及商务印书馆、科大讯飞股份有限公司、传神语联网网络科技股份有限公司和语保工程湖北省各调查团队专家共同组成。“战疫语言服务团”通力配合,提取收集了医患交流中常用的156个词语、76个短句,研制了涵盖湖北9地市方言的《抗击疫情湖北方言通》,并以微信版、网络版、迷你视频版、融媒体口袋书、抖音版、即时翻译软件、在线方言服务等载体形式提供服务。其中北语重点承担了全部方言录音的采集、加工、管理、分发等基础性工作,《抗击疫情湖北方言通》迷你视频版的研发工作,并与合作单位一起开发微信版和网络版。从倡议发出,到微信版、网络版、微视频版、在线服务上线应用,不到2天时间。

3.中国语言资源保护研究中心在此次工作中提供了诸多语言资源和专家团队的专业支持,具体都发挥了哪些重要作用?

王莉宁:“战疫语言服务团”由我校语言资源高精尖创新中心发起,中国语言资源保护研究中心、中国语言文字规范标准研究中心共同参与,联合国内近十家高校、企业组成,面向防控疫情阻击战的主战场——湖北省现阶段医患沟通的迫切需求,在短短两天时间里推出了《抗击疫情湖北方言通》系列应用。

自2015年起,我校中国语言资源保护研究中心全面负责教育部、国家语委重大语言文化项目“中国语言资源保护工程”的日常管理和组织实施工作,现已完成工程的第一个建设周期,调查搜集了我国1700多个汉语方言点和少数民族语言点的语言资源数据,制定了语言资源调查、整理、编写、数据库建设等方面的系列规范标准,在全国范围内培养了大量语言资源专业人才,完成了迄今为止世界上规模最大的语言资源保护项目。养兵千日,用兵一时。在教育部语言文字信息管理司的指导下,中国语言资源保护研究中心为本次抗击疫情工作提供了语言资源和专家团队的专业支持,在关键时刻发挥重要作用。

一是紧急协调语保工程湖北省调查团队和发音人,克服种种困难,全力以赴完成《抗击疫情湖北方言通》的调查转写,采集语音样本,最快速度完成基础资源汇集工作。

二是利用语保工程已有的语言资源规范标准和音像收录软件,为本次《抗击疫情湖北方言通》的调查摄录提供了学术支撑,有关语言资源可以多次开发利用。

三是迅速联合语保工程采录展示平台项目组,运用语保工程采录展示平台的核心技术,结合方言条目展示页面的开发经验,快速研制出《抗击疫情湖北方言通》(微信版)的测试版;后经“战疫语言服务团”各成员单位和专家试用并提出修改意见加以完善,于2月12日推出第一版。截止2月15日,该系统上线72小时,访问用户累计超过22000人次,录音点击量累计超过25万次。

四是积极吸纳在读研究生参与抗击疫情知识普及、公益宣传和有关科研工作,引导研究生开展面向国家和社会需求的研究。自1月23日开始,语保中心公众号“语宝”每天均推出与抗击疫情有关的文章,该公众号由语保中心在读博士研究生(孙樱元、赵亚伟、周汪融)、硕士研究生(王倩倩、康健侨、罗娟、许可忻、蒋璨芬、潘莹莹、王芊芊)负责编辑和推送,在主管教师的指导下,学生们在假期坚持学习,持续参与推文选题、论证、编辑、推送工作,保持“日更”。此外,周汪融、蒋璨芬、潘莹莹、王芊芊等学生积极参与了《抗击疫情湖北方言通》语言资源文本和音频的校对工作,为维护系列应用、更新完善版本做出了努力。

4.此次应用了哪些现代化方法保障本次工作的效率?

饶高琦:“战疫语言服务团”的成果是以融媒体的思路,使用移动互联网相关技术提供服务,自然语言处理的相关技术在基础数据制备的过程中发挥了作用,也将很快加入到前端服务中来。

在会战过程中,团队完全体现了“在家办公”和“远程协助”。“战疫语言服务团”是完全“凭空出现”的团队。从周一中午建立到现在,所有团员到现在都没有彼此见过。完成通过微信进行联络沟通。期间还通过微信群召开音频、视频会议,部署任务。和语保团队进行数据交换,主要在百度云和金山云上。9个团队生产数据,4到5个团队使用数据,专人进行版本管理,并编写了几个perl语言脚本,提高文件管理效率,使数据生产分发有条不紊。

在制备各方言录音脚本的过程中,我和汉语国际教育研究院、语言智能研究院的研究生们在短时间内,迅速构建了一个袖珍新冠肺炎诊疗语料库。以相关医学术语为种子,利用问诊网站和文艺作品等资源,快速构建口语化的,问诊和护理场景必备的语句。利用关键词计算的方法,追踪武汉封城以来的媒体关键词。

融媒体宣传方面,商务印书馆团队和清华大学团队对每种方言和每类音频都制作了网页和二维码,方便宣传使用。后期,为提供多样化宣传,我们也使用一些多媒体软件,对现有音频数据进行了批量加工。这些也都是服务团远程协作完成的。

5.《抗击疫情湖北方言通》主要解决哪些应用场景的问题?

田列朋:《抗击疫情湖北方言通》开发7种产品,包括微信版、网络版、融媒体版、迷你视频版、抖音版、在线服务系统、即时翻译软件等。其中,语言资源高精尖创新中心承担迷你视频版本的开发制作工作。

“武汉胜则湖北胜,湖北胜则全国胜。”中心结合已完成的普通话和武汉话对照文本、音频的75个“诊疗常用语句”,按照患者自述症状、患者自述病史、患者自述用药史、患者自述治疗史、患者自述家庭情况、患者自述接触史、患者询问病情、患者提出需求、患者情绪表达等9个场景,加班工作,用了一晚上时间制作了10个迷你视频。这些分场景制作的迷你视频就是为了解决外地援鄂医疗队在武汉地区与医患沟通的方言障碍问题,助力武汉一线医护人员抗击新冠肺炎疫情。这些视频在制作完成的第2天就通过20多家语言类微信公众号进行了“联合”推送,产生一定反响。

 

6.下面还会有哪些工作跟进?

刘晓海:抗击新冠肺炎疫情是一场人民战争,全国人民甚至世界人民互相支援、相互鼓励、共克时艰。“战疫语言服务团”通过《抗击疫情湖北方言通》,在湖北主战场做出了语言学人的一点贡献,接下来我们仍然要尽一切力量,力求抗疫取得全胜。与此同时,我们还应该思考,国家的语言应急能力是否足够,社会大众是否具有语言应急意识,语言应急工作是否有积累、有组织、有准备。比如,是否应当研制SARS、MERS、NCP等传染病术语多语对照表,以便中外及时沟通;是否应当建医学常识多方言多民语对照表,以便对社会大众尤其是尚未普及国家通用语言文字的地区人群进行普及宣传,提升卫生保健意识和素养。此外,除了发生疫情,当有地震、洪水、火灾、战争等其他紧急事件时,需要什么样的语言应急能力?这些都是值得进一步深入思考并研究落实的事情。正如李宇明教授所说:“我们建设的东西要做到中国能用,外国能用,今天能用,明天备用”。我们不希望新冠肺炎这样的疫情再发生在世界上任何一个角落,但我们必须坚持底线思维,有备无患。

7.北语的研究生在服务团里发挥了哪些专业优势?

饶高琦:到今天,我校有来自语言智能研究院、汉语国际教育研究院和语言科学院的研究生“参战”。期间她们也都不同程度上发挥了自己的专业特长。

自媒体运营:比如“战斗”第一天,汉语国际教育研究院的夏恩赏同学是语言学微信公众号“汉语堂”的值班编辑。及时制作并刊发了齐鲁医院医疗队制备武汉方言手册的新闻,在语言学界获得了不小的影响(半天阅读量破2万,这种“语言学+自然语言处理”这个狭窄圈子里是不多见的),帮助“战斗”烘托了舆论氛围。

自然语言处理:来自语言智能研究院和汉语国际教育研究院的钱青青、邰沁清和李琪同学,在短时间内构建了面向新冠肺炎诊疗和护理的小规模语料库。语料库规模虽小,但并不容易,除了时间紧迫外,还要特别注重每个词和短句对场景需求的覆盖性,这并不容易。为了提高语料库在宣传和科普方面的效能。我们还爬取武汉封城以来的报刊数据,卫生部门的公告数据,用多种算法分析了每天的关键词,以保障语言服务的效能。

数据管理和多媒体技术:为配合抖音等平台的宣传,同学们还一起对音频数据进行了批量后期加工,体现出了较高的效率。

方言信息处理:来自语言科学院语保团队的同学,为方言录音的顺利采集和服务提供了很多帮助。时间紧,数据量大,对精度要求高,这些语保工程多年历练出来的同学,在关键时刻都冲得上,顶得住。

总的来说,这次战疫行动,一来需要研究生同学们高度的责任感和战斗热情、战斗毅力(多次通宵);二来也证明,语言学+信息技术的培养路线是正确的,是当今国家和社会急需的,也是语言学之有用,之能服务的关键。

8.参与此次工作的体会和感想?

徐欣路:我是北京语言大学语言科学院语言政策与标准研究所的徐欣路,“语言生活”理念的忠实信奉者。这次,我只是安排了我们公众号为产品的发布做了一个报道的范本而已,可以谈的是一点感想。这是一次在政府指导下语言学界联合企业界为社会提供语言服务的成功实践。这次行动告诉我们,未来语言学科的一大深刻变革就是要打破原有的陈旧框架,深入具体的社会领域,按照社会的真实需求来组织起学科的布局和人才的培养。正是因为中国语言学界有一批学者始终在探索语言学与社会结合的界面,始终在做与社会需求紧密相关的研究,始终跟信息技术产业保持着良好的互动,所以这次才能以那么快的速度响应需求,面向湖北一线提供切实可用的语言解决方案。

赵运:参加这这次方言通的项目,感觉能够用自己的特长为抗击疫情做点力所能及的事情,还是挺自豪的。我是北语2019届毕业的博士,师从李宇明老师,语言政策和语言规划专业,现在是上海外国语大学的博后。当时接到任务的时候已经快凌晨12点了,饶高琦师兄给我简单介绍了一下项目。医患沟通问题是个需要尽快解决的问题,所以接到任务就直接开始工作了。我这次负责的是普通话的发音,我从小在北京长大,除了普通话之外不会其他地区的方言,就是没有母方言的人,以前我还总觉得比其他人少了些什么,但也因为这样我的普通话相对标准。没想到在这次项目里这个“缺点”成了优点,这可能也是李老师选我做普通话发音人的原因吧。

普通话的发音是按照项目组中制定好的词表和句表进行逐一录音,后期要与其他方言点的方言录音进行匹配。我之前没有做过类似工作,任务来的也比较急,当时紧急学习了一下录音系统的使用,为了不耽误后续的工作,马上就开始录音。我是个平常语速比较快的人,但项目的目的为了能够帮助医护人员和患者沟通,所以我尽量降低了语速,每个字都尽量清晰咬字。每个词、每一句录完我都要听一遍,个别词句效果不佳也反复多次录制。

156个词、76个句子录完就将近3点了,但项目组的老师们都没有休息,都在加班工作。普通话的工作还相对简单,只需要录音,不需要进行转写,方言点的老师们不仅需要录音,还需要将方言用同音字等进行转写,工作要比我复杂一些。

在这个项目之前其实就知道齐鲁医学院48小时就制作出一本方言对照手册了,当时心里其实有点儿急,毕竟我们是语言学专业的,竟然没有想到医学院前面,感觉有些被动,但没想到很快方言通的项目就启动了,并且发挥了多个研究机构的优势,重新制定词表,多种方言对照,并且配上录音,虽然我们动手晚,但做得相对更周全一些,也更权威一些。

当时在群里李老师跟我说让我录完再睡,项目也需要争分夺秒,而且我本来就是夜猫子,根本就没犹豫而且夜深人静,正是录音的好时机。录的时候就想,几天之后,我的声音就能帮助医护人员更顺利地开展工作,也算为抗击疫情做了点儿贡献。

我父亲有一段时间就在武汉工作,那几年我每年都会去武汉,会去过早吃热干面、吃豆皮,去省博看曾侯乙编钟,上过黄鹤楼,走过长江大桥,武汉对我来讲不是个陌生的城市,是一个我生活过的地方,所以能参与这次的工作,对我来讲也是一种安慰。

9.我国缺乏“语言应急”准备

李宇明:疫情肆虐,各地医疗队舍生向前,令人感动。湖北方言比较复杂,外地人难以完全听懂。语言是医患沟通之桥,2月9日,齐鲁医院医疗队马上制作了《国家援鄂医疗队武汉方言实用手册》和《国家援鄂医疗队武汉方言音频材料》。这使我们看到了一线需求,压抑的情绪终于找到了可以用力的爆发口;同时也感到十分愧疚,解决语言障碍本来是语言学的职责,但我们这些做语言学的竟然没有想到,让医疗队为此分心。于是,我同赵世举、赫琳、杨尔弘、王莉宁、刘晓海、饶高琦、周洪波、余桂林、郭熙、王春辉、徐欣路、田列朋、汪张龙、李艳、张鹏等一商量,大家就马上行动了起来,还带上自己的研究生。前期我们有语言资源的准备、有懂得湖北方言的语保队伍、有语言信息化的技术素养,再加上教育部的支持,日夜工作,探讨可能满足一线需要的产品表现形式,特别是充分利用语言料库和融媒体的技术,现在广州大学和华中师范大学的团队正在试验利用抖音来推送。我们的工作还在继续,我很感谢我们的团队,感谢近10个学术团体的参与,感谢商务印书馆、科大讯飞和传神集团的参与、感谢30个语言类的微信公号都来助战,感谢北京语言大学的同仁。

我现在最大的体会是:我国突发公共事件的应急预案中,应有语言应急的内容;我国的语言学应当能为公共应急事件做支撑。


编辑:李如意


打开APP阅读全文