您当前所在位置 首页 教育信息化 新闻资讯 学术前沿

智能时代多语种信息处理技术的创新与发展 ——访中国工程院院士吾守尔·斯拉木教授

发布时间: 2021-10-29 09:57 浏览次数: 3011


吾守尔·斯拉木院士阐述了多语种信息处理技术的发展现状,围绕新兴技术与多语种智能信息处理的结合对教育的影响、民族语言信息化在一带一路建设中的特色和优势,以及多语种智能信息处理的产学研一体化发展等方面提出了诸多有价值的建议。吾守尔院士团队开拓了计算机民文信息处理新领域,突破和解决了民文信息处理领域的许多关键理论及核心技术;分析了大数据和人工智能技术在多语种智能信息处理中的应用,研发了智能双语教学系统,有效解决了民族教育发展不均衡、优质教育资源不能充分利用的问题;结合一带一路倡议,建设教育信息化丝绸之路,针对不同沿线国家共建需要开展多语种+”跨文化教育;分析了人工智能与多语种智能信息化处理相融合的交叉学科对学科建设和人才培养的影响。

关键词:智能时代; 人工智能; 多语种; 信息处理

1多语种信息处理技术的溯源及发展现状

智能时代多语种信息处理技术的创新与发展 

访谈者:吾守尔院士,您好!非常感谢您拨冗接受我们的采访。您是维吾尔族唯一的院士,研发出20多种多语种信息处理系统软件和工具,开拓了计算机民文信息处理新领域,突破和解决了民文信息处理领域的许多关键理论及核心技术。作为多语种信息化领域的著名专家、带头人,请您给大家介绍一下多语种信息处理的内涵和发展历程。

吾守尔·斯拉木:20世纪80年代初,计算机、互联网等现代信息技术的出现给世界科技和产业等各领域带来巨大的冲击和变革,信息化成为历史的发展趋势并逐渐渗透、改变人们的生活和发展方式。当时的计算机刚引入国内,操作系统为英文,如何让计算机能识别并处理少数民族语言文字,这在当时完全是一个不可企及的梦,要知道操作系统从英文到中文的本地化,汇聚了国内学术界大批优秀人才和工业界上百个企业的力量才实现。通过分析解剖Dos的输入、输出及数百个功能调用模块,在IBM PC/XT电脑上成功研发完成基于Dos2.0操作系统的多语种综合信息处理系统,实现了维哈柯文与汉语、英语完全兼容的混合处理功能,达到同类汉语操作系统的同等水平[1]19864月,我们团队开发的多语种综合信息系统软件在新疆人大会议上应用,实现了会议管理、会议资料和参会代表资料的维哈柯文录入、打印、排版。这一成果轰动了新疆乃至中西亚各界。

通过不断研发Dos3.0Dos6.2系列操作系统及应用软件,针对维哈柯文独有的自动选型、双向混合处理等特点,研发出不同版本的维哈柯文输入法、维汉声图文一体化系统。针对维哈柯文独有的字符连笔、不等宽、右向输入等文字特点,创造出维哈柯文变宽字符选形插入连接、连笔字左右字符智能判断、智能组合、光标不等宽管理等特殊技术和机制[2],使方块字处理技术发展成为变宽连笔字处理技术,基于上述技术基础实现Windows3.1/95/98/2000系列及其他许多应用软件、多媒体软件、网络应用软件的维哈柯文版本,并在全新疆及部分中西亚国家推广应用,其技术达到国际先进水平,属国内首创。

20世纪90年代初,通过剖析Windows系列体系结构及内核机制,提出并创建了外挂式嵌入方法,攻克了维哈柯文的混合智能输入编辑、嵌入式在线处理、分音节、分栏混排等多个关键技术[3],解决了维哈柯文信息的网络传送接收等国际难题[3]。彻底淘汰了原来办公用的维哈柯文机械打字机和蜡纸刻录方式,促使其进入电与光的时代,推动维哈柯文铅印排版革新为电子印刷排版,为维哈柯文信息处理进入电子化、自动化、网络化、多媒体化、智能化打下良好基础。

通过剖析Linux系列系统及嵌入式系统内核结构、国际化机制,创建了维哈柯文信息混合处理、输入编辑、存取检索、发送接收等技术及国际化、本地化机制,研发出具有自主知识产权的Linux系列维哈柯文操作系统桌面版、服务器版及应用软件,开发了多语种智能输入联想式3G、几种CDMA及飞利浦手机,为多语种国产软件奠定了基础[3]。创立了维哈柯文的附加管道——嵌入式字库技术,在线显示处理和IME技术,解决了维哈柯声、图、文混合文件的传输和接收展示问题,实现不安装民文软件也能正常浏览网站信息,解决了维哈柯文信息处理与交换面向全国、面向国际的难题,为新疆信息化事业保驾护航、为新疆信息化事业的多语种化、多媒体化、网络化提供技术支撑。

近年来,带领团队对自然语言理解、智能语音交互、机器翻译、视频图文处理等方面展开研究,针对典型反恐场景,结合可实际运行的示范应用场景,突破现有地区安全精细化程度不足的重大应用问题,构建了面向公共安全的多语言舆情监测、预警系统,实现了苗头性涉政涉恐事件提前发现、提前预警等功能,为实现地区安全能力升级、社会稳定和长治久安提供关键理论与技术支撑。

访谈者:您和研究团队经过长期攻关,将维吾尔文、哈萨克文、柯尔克孜文嵌入计算机系统,方便使用民族语言对计算机进行操作,这在技术方面遇到了哪些挑战?

吾守尔·斯拉木:维吾尔文、哈萨克文、柯尔克孜文(以下简称维哈柯文)属于阿尔泰语系,其书写方式为自右向左,具有字符变形、连笔、不等宽等与汉英文完全不同的特点[4],另外当时前后端使用的字库相互不兼容,会导致“前后端不一致”的问题,这些问题深深困扰着照排输出用户。20世纪90年代,针对上述问题,自主研发出民文信息处理系统使用的点阵字体和矢量字体,在微软和Adobe公司联合推出的Trutype字体基础上编制出16×1616×8全角、半角点阵维吾尔字库和矢量字库,制定了符合国家G18030标准的信息交换维、哈、柯文信息技术三项国家标准,后来又研制了4种与此对应的OpenType字体,使OpenType字体技术首次在新疆使用,提高了维哈柯文在新闻、图书、报刊电子印刷等方面的印刷质量和系统健壮性,为系统开发人员带来方便。1987年,最早研发的维哈柯文信息文输入法1发展成自动选型输入技术,该技术仅仅把33个维文字母布置到键盘上,让计算机自动选型(首连体、中连体、尾连体、独立体),大大提高了维哈柯文的输入效率[5]。同时制定了键盘布局的国家标准,提出创立了文字双向输入及混合编辑技术、光标不等宽控制技术、多语言混排技术,设计出相关词库,后来又研制出维哈柯智能输入法、语音输入法等技术,为维哈柯操作系统、办公套件的智能化、产业化应用打下坚实基础。

为了推进维、哈、柯文信息处理的标准化、规范化,把原来的维文56个基本字符、哈文50个字符、柯文49个基本字符输入键盘布局技术,发展成独立字母自动选型输入键盘布局技术,制定了维哈柯信息技术键盘布局国家标准。这些标准为多种文字共用计算机带来极大的方便,意义非常大[6]

2民族语言信息化:夯实民族教育发展之基

智能时代多语种信息处理技术的创新与发展 

访谈者:我国政府始终高度重视双语教育,国务院印发的《国务院关于加快发展民族教育的决定》规定:“科学稳妥推行双语教育”的方针。在教学方面,您合作研发了智能双语教学系统,您能介绍一下智能双语系统在教学中的应用以及效果吗?

吾守尔·斯拉木:新疆是一个多民族、多语言的地区,尚未掌握或根本不懂汉语的少数民族占大多数,特别是熟练掌握汉语的双语人口比例很低,这就导致教育资源匮乏的新疆更加落后。汉语作为国家通用语言,加快推广普及工作,对于偏远地区的教育均衡、脱贫攻坚更是至关重要。掌握好汉语对于加强各民族间的交流沟通,增进民族团结,维护祖国统一,实现新疆的社会稳定和长治久安具有重要而深远的意义。发挥“互联网+”技术的作用,利用人工智能、多语种智能互译等技术手段研制“能听会说”的教学设备、触手可及的教学资源,可以有效解决当前教育发展不均衡、优质教育资源不能充分利用的问题。通过“云端”的点对点教学模式,可以让每位学习者拥有一位AI老师实时帮助学习者纠正发音、高效学习,从而促进多样化、个性化学习,让学生随时随地学习,让教学变得更加专注和深入。智能远程教育打破了时空限制,支持远程多地互动教学,可以为少数民族和偏远地区的孩子构建班级标准的语言环境,实现优质教学资源共享,助力国家通用语言文字工作和推动脱贫攻坚迈上全新的台阶。

访谈者:您的研究团队开发了智能语音识别系统,能识别少数民族语言文字、听“懂”少数民族语言,也能根据文字读出文章内容。目前,智能语音识别系统已在教学中应用,您觉得对我国少数民族教育事业的发展会产生什么影响?

吾守尔·斯拉木:实现语言互通最便捷的方式就是利用语音识别、语音合成、机器翻译手段实现智能语音交互,并在教育、文化、旅游、通信、安全等领域推广应用。为此,我们研究了多语言的词法、句法、语义、篇章、情感、蕴含、信息抽取等语言分析方法,研究复杂形态语言和长距离语言模型、声学模型、跨语言文法推导方法等,重点突破同语系和跨语系语言机器翻译方法和训练模型,开展维汉等语音识别、语音合成、机器翻译研究开发[7],研发出维汉双向语音翻译系统,目前,我们维汉互译已经达到实用化水平,部分语音识别准确率已达到95%以上。在此基础上,通过互联网把语音云、智能识别等技术应用到少数民族的远程教育、双语教育中。这些可以扩大优质资源覆盖面,助力优质教育资源输血给教育资源欠缺地区,对于促进教育发展均衡,改变偏远地区落后教育现状起了重大作用。另外,随着“一带一路”建设的深入推进,中央提出加快培养拔尖创新人才、非通用语种人才、国际组织人才、国别和区域研究人才等,在新形势下,“多语种+”的研究可以助力打破学科壁垒和专业藩篱,培养复合型人才,提高新疆少数民族学生学业成就、知识水平,开阔他们的视野,培养经济社会发展所需的民汉兼通性人才,加强各民族文化交流、交融,让他们深入理解中华民族优秀传统文化,增强国家和民族认同感,推动民族团结进步,铸牢中华民族共同体意识[8]

3多语种智能信息处理技术:拓宽国际教育信息化的“丝绸之路”

智能时代多语种信息处理技术的创新与发展 

访谈者:在信息化发展历程中,大数据与人工智能等技术将被广泛应用于教育领域。您带领团队致力于研究基于云平台的多语种大数据处理、智能分析技术,从跨民族、跨文化教育的视角来看,将催生怎样的技术发展新趋势?

吾守尔·斯拉木:利用现代化技术手段,建立大规模、跨语言、多模态的多媒体语言资源工作对于开展语言研究进而突破同语系、跨语言互通意义深远,结合教育场景来看,其深远意义在于夯实跨文化、跨民族教育的基础。

我们团队的维哈柯语料库平台[9],主要包含大型平行语料库、词性标注语料库、语法信息词典、语言形态分析库、词频统计库、语义知识库等,建设了大规模、多层次综合型多语言知识库系统。重点研究多种自然语言智能理解技术、同语系和跨语系自然语言机器翻译方法和模型,研究阿尔泰语系、印欧语系等中西亚语系的词法、句法、语义、篇章、情感、蕴含、信息抽取等语言分析方法,突破了同语系相似语言的互译对齐和跨语系的序列迁移学习和深度学习等技术,基于黏着语的形态丰富与黏着性特点、同语言多文字等问题,开展了编码转换、语种识别、文字校对、词干提取、词类标注、命名实体识别与关系抽取、句法分析、框架语义构建与语义角色标注等方面的研究[10],研发了维哈柯文字校对中间件、维哈编码转换与语种识别系统、维语句法分析软件、维文命名实体识别中间件、维语框架语义平台以及维、哈词法分析软件等10余项多语言语料智能处理与管理系统,填补了我国面向黏着语的自然语言处理技术的空白,为进一步研究中西亚语言的自然语言处理奠定基础。

我认为,随着“一带一路”建设深入推进,需要进一步整合语种资源、数据资源,利用云计算、人工智能、大数据等技术深入开展智能语音交互、多语言翻译、视频图像处理、人脸识别、智慧教育等方面的研究,重点开发一批高度本地化、个性化及产业化的基础共性软件及信息化平台、跨语言智能化系统、应用软件,从根本上解决“一带一路”信息技术支撑体系和云服务产业;构建大数据信息融合处理平台、网络信息安全服务体系,开展跨语言网络信息内容安全研究,跨媒体多语言社会舆情分析与监测系统研发;搭建“一带一路”区域信息走廊及其服务体系,军民融合、国家化应用机制;研究多语言信息交换、信息抽取、自动文摘、跨语言检索、人机智能问答、机器翻译等技术,构建“互联网+”语言服务模式,通过云平台、智能平台、在线翻译等服务平台提供智能教育、远程教学平台、多语言多媒体课件、双语教育等现代教育服务,提升互联网条件下的现代化教学服务效率和专业化水平;推动人才培养模式、教学方法改革,促进构建包含智能学习、交互式学习的新型教育体系。

访谈者:随着“一带一路”倡议构想的逐步实施,我国与沿线各国的经济贸易、区域合作、金融文化交流与合作、互联互通,势必需要利用信息与网络平台和新媒体手段,通过教育信息化“丝绸之路”的建设,来进一步深化文化与信息交流。国家语委与新疆大学共同建设新疆多语种信息技术研究中心,请您介绍一下如何发挥该中心在信息技术与新疆及中西亚多语种的融合上所具有的特色和优势,服务“一带一路”建设?

吾守尔·斯拉木:2017年,国家语委与新疆大学签约共建新疆多语种信息技术研究中心(以下简称中心),这是国家语委与西部高校共建的第一家科研机构,中心以国家“一带一路”倡议、新疆社会稳定和长治久安、国家通用语言文字的普及、语言文字信息化建设、国家语言文字服务能力提升、各民族语言文字的科学保护等国家所面临的重大需求为导向,根据国家语言文字事业发展规划,以新疆维吾尔语、哈萨克语、柯尔克孜语、锡伯语等民族语言为主要研究对象,在汉语和维哈柯语之间的信息转换和交流的基础上进一步扩充,研发汉语和乌兹别克语、吉尔吉斯语等中西亚语言的信息交换的智能化工具和平台;开展在统一框架下的中西亚阿尔泰语系语言的语音声学参数数据库建设,开展少数民族语言和中西亚国家多语言、多模态资源与知识库建设及相关标准、规范的制定;发挥在Windows/Linux系列、嵌入式操作系统、办公套件、手机软件等方面的优势与特色,研发中西亚语言的多语种操作系统平台及其多文种Office等基础软件,以及电子商务、物流网、数据中心等多语种跨境电子平台系统,为国家软件出口及服务外包战略提供有力支撑[11];开展新疆少数民族语言和中西亚国家语言文字自然语言理解、智能语音交互、机器翻译、面向公共安全的舆情监测等技术研究,推动在相应国家的外贸销售、文化交流,促进我国多语种信息处理技术和成果在“一带一路”建设中的辐射、引领性作用;开展“丝绸之路经济带多种自然语言互译平台”研究与建设;开展国家通用文字普及、学习与评测平台的研发;开展服务特殊人群的语言文字信息技术研究。

根据人工智能一级学科建设进程,中心致力于推动多语言自然语言处理、语音识别成为人工智能学科下的二级学科,建设多语言自然语言处理及语音识别的课程体系、培养方案,开展高水平学术活动,探索教学和实践的人才培养模式,丰富学科发展,为国家和自治区培养优秀的现代化人才。以国家语言文字需求为发展导向,以学术研究为基础,积极推动多语言自然语言处理、智能语音交互等技术手段在新疆及中西亚国家的应用;积极承担国家和自治区的重大科研项目,攻关“卡脖子”问题,为“一带一路”提供科技支撑;积极开展与中西亚国在语言、文化、科技、教育等方面的国际交流,培养跨文化人才,助力国家“一带一路”倡议的实施。

访谈者:您之前提到需要在汉语和维吾尔语之间的信息转换和交流的基础上进一步扩充,开发汉语和哈萨克语、乌兹别克语、吉尔吉斯语、土耳其语,乃至阿拉伯语信息交换的智能化工具和平台,为“一带一路”的信息交流和人文交流提供智能化的工具和平台。您认为民族语言信息化对“一带一路”沿线国家的跨文化人才培养有什么影响?

吾守尔·斯拉木:自习近平总书记提出“一带一路”倡议以来,全世界都高度关注,沿线许多国家也都积极响应。民心相通是“一带一路”建设的重要内容,也是“一带一路”建设的人文基础,然而沿线60多个国家在历史传统、语言文化、社会制度、风俗习惯等方面存在较大差异,因此,如何消除语言障碍和文化隔阂是“一带一路”建设的重要环节。古丝绸之路的开辟,始于汉武帝派张骞出使西域,有了对沿线风土人情的考察和了解。今天的“一带一路”建设,也要从文化交融入手,在沿线60多个国家中有200多种语言都是非通用语言,通过对我国民族语言的信息化建设,研究复杂形态语言和长距离语言模型、跨语言文法推导方法等,突破同语系和跨语系语言机器翻译方法和模型、多语种信息化智能化技术,可以消除语言隔阂,为“一带一路”建设提供技术支撑。总体而言,我国在跨语言人才培养中尚存在一些缺陷和不足,一是了解西方主要发达国家语言文化和社会制度的人员比较多,而了解中小发展中国家相关情况的人员比较少;二是能够听、写国外语言的人虽然多,但真正深入了解外国政策法规、决策程序、民心走向的人比较少。

通过对我国民族语言信息化平台的建设,可以为我国培养高水平人才,让更多青年学生对“一带一路”沿线中小国家的语言产生兴趣、引发关注。最后,“一带一路”建设需要健全的跨文化教育体系、搭建跨境人文教育交流平台,多语种信息化就可以搭建交流平台,实现一民族对其它民族文化信息的获取和学习交流,努力打造好利益共同体、责任共同体、命运共同体,为“一带一路”营造良好的人文交流环境。

4 “产学研一体化”加速推进民族教育信息化步入快轨

智能时代多语种信息处理技术的创新与发展 

访谈者:从党的十八大报告中指出的“产学研相结合”到党的十九大报告中的“产学研深度融合”,反映了国家对产学研协同性的高度重视和更高期待。您及您的团队打造出多语种信息技术研发、生产、经营、服务一体化的产学研基地,您认为实验室多语种信息技术的研发向产业化转化对新疆信息化建设有何意义?

吾守尔·斯拉木:党的十九届四中全会审议通过的《中共中央关于坚持和完善社会主义制度、推进国家治理体系和治理现代化若干重大问题的决定》(以下简称《决定》),立足加快建设创新型国家的全局,重申党的十九大报告关于“建立企业为主体、市场为导向、产学研深度融合的技术创新体系”的总体要求,将其作为“完善科技创新体制机制”系列部署中的关键环节,对我国企业、高校、科研院所的协同创新,开创合作共赢新局面提出了更高的要求。这就要求高校和企业相互跟进搭建产学研协同创新、深度融合的资源服务平台,联合组建攻关团队,促进我国产学研协同创新、深度融合发展。

新疆是“一带一路”建设的核心区、桥头堡,新疆大学是新疆信息化建设的排头兵,一向高度重视产学研的深度融合。2019年,清华大学与新疆大学成立了新疆大学人工智能创新团队清华指导委员会,新疆大学成立了人工智能研究院,联合国家计算网络信息安全管理中心筹建了新疆网络空间安全联合实验室,联合电子科技大学、清华大学等申报了“一带一路”国际联合实验室。这些研究平台首先极大推进了新疆企业、高校、科研机构资源共享、优势互补,共建丝路文化资源库,共同利用数字化手段对新疆深厚、博大的文化资源进行挖掘梳理,提升新疆的文化软实力,扩大中华文化的影响力。其次可以整合已有的民文信息技术成果,完善其标准及技术支撑体系,建立一套与我国汉语信息处理技术体系相融合的民文信息处理技术体系架构,重点研发一批我国多语种基础共性软件,从根本上解决民文信息处理的核心技术和产业化[11]。最后通过共同开展科技创新,推动成果转化来提升产业基础能力和产业链现代化水平,助力国家及新疆信息化建设。

访谈者:近两年,许多高校相继开设人工智能专业,您研究的语音识别系统、智能双语教学系统也体现了人工智能技术,您认为人工智能与多语种信息化处理融合的交叉学科对学科建设和人才培养带来什么影响?

吾守尔·斯拉木:2013年我国提出“一带一路”倡议以来,中国企业和文化走出去的步伐进一步加快,使得语言服务在“一带一路”建设中的重要性和基础地位更加凸显出来,非通用语言、小语种的服务需求急剧上升,当今世界正步入一个“多语种+”的时代,高校必须积极为国家储备面向未来需要的人才。各高校应注意“差别化发展”,坚持将大数据、云计算、人工智能、深度学习、智慧教学等技术方法与自身优势相结合,走特色发展之路,突出自己的特色、突出创新特质,才能求得发展。当然特色并不意味着盲目跟风,被牵着鼻子走,坚持“特色”也绝非固步自封,我们要坚持的是特色中追求一流,谋取发展,以点带面,形成良性循环。各高校、各学科要打破专业、学科壁垒,注意培养学生思考和认识世界的能力,促进学生对中西文化的深刻理解,培养具有人文情怀、全球视野、创新精神和实践能力的跨文化、跨国别的“多语种+”国际化人才。

国家“一带一路”倡议需要语言服务来铺轨架桥,要实现民心相通,首要核心问题就是语言服务,语言服务能力已成为国家参与全球化事务的战略资源。当前高校多注重通用语种、大语种,然而“一带一路”沿线众多国家文化、国情民情、需求利益差异很大,非通用语言已超过200种。当前我国对一些非通用语言和小语种的关注还不够,存在一定的“赤字”。我们团队始终坚持从理论、方法、工具、系统等四个方面,结合新疆的特色与优势,展开阿尔泰语系、阿拉伯语系、印度—伊朗语族的智能语音交互、多语言机器翻译、语音合成等研究工作,有针对性地发展交叉学科,在特色上狠下功夫、深入钻研,提高我国语言服务的核心竞争力;在人才培养上,科学制订具有不同特点的交叉培养方案,将“精领域”和“通国家”相结合,培养能够参与全球事务的“通才”和“专才”;在科学研究上,要加强基础理论研究,支持科学家勇闯人工智能科技前沿的“无人区”,努力在人工智能发展方向和理论、方法、工具、系统等方面取得变革性、颠覆性突破;紧紧抓住人工智能基础研究与原始创新、技术研发、场景应用三个关键环节,不断开拓新疆少数民族信息的处理新时代,推动民文信息系统智能化、多媒体化、网络化的发展,发挥新疆核心区优势,助力国家“一带一路”建设[12]

参考文献:

[1] 刘俊,吾守尔·斯拉木,艾尼宛尔·托乎提.基于Windows的维哈柯文多语种操作系统的研究[J].现代计算机,2011(10)17-19.

[2] 天山网.吾守尔·斯拉木:新疆大学给予我空间 让我振翅飞翔[EB/OL].[2011-12-13].http//roll.sohu.com/20111213/n328869882.shtml.

陕西师范大学远程教育学院 [ 陕ICP备05001611号-10 ] 版权所有 Copyright © 2002-2015 School Of Distance Education Shaanxi Normal University