北辰智库咨询-汉语是不是AI研究的上风器用?复旦教悔给出谜底
你的位置:北辰智库咨询 > 产品 > 汉语是不是AI研究的上风器用?复旦教悔给出谜底
汉语是不是AI研究的上风器用?复旦教悔给出谜底
发布日期:2025-07-01 05:49    点击次数:193

20世纪50年代,当代语言学的伏击表面之一——依存语法出身,其中枢想想是通过分析词与词之间的依存关系(如主谓、动宾、修饰等)来揭示句子的结构模式和语义研究。

70多年后的今天,它从冷门变成“显学”,为东说念主工智能(AI)处理应然语言提供了澄澈的表面框架和推论器用。跟着AI时候向“理解智能”发展,依存语法与深度学习的王人集(如将语言学先验常识融入神经网罗)成为擢升AI语言领会武艺的伏击标的。

前不久加盟复旦大学的海外闻明计量语言学和依存语法研究人人刘海涛,凭借在计量依存语法等限制的研究,连气儿11年入选爱想唯尔“中国高被引学者”榜单。

在“教机器说东说念主话”的东说念主工智能发展历程中,文科能够助力几何?汉语是不是AI研究的上风语言?初夏的一个上昼,记者走进复旦大学外文楼5楼办公室,专访了身穿红蓝格子衬衫的刘海涛教悔。

行为一个母语为汉语的中国东说念主,咱们很快意听到对它的称赞。但行为不雅察东说念主类语言系统礼貌的研究者,可能要更严慎、客不雅地来看待。

周末周刊:您是一位语言学研究人人,研究内容是东说念主类语言中对于句法的浩荡礼貌,而这也可能成为开启东说念主工智能的钥匙之一。DeepSeek崛起之后,有一种声息认为,汉语在研究东说念主工智能的限制中是一种上风器用,能否站在语言学家的态度谈谈您的看法?

刘海涛:这个问题好像给我挖了个“坑”。我也扎眼到这个说法。行为一个母语为汉语的中国东说念主,咱们很快意听到对它的称赞。但行为不雅察东说念主类语言系统礼貌的研究者,可能要更严慎、客不雅地来看待。

我查了一下这个说法的泉源和字据。意象的是,检索到的好多关系信息,在很不起眼的地方都标注着“内容由AI生成”。

他们的主要依据有三个:一是汉语比拟其他拼音翰墨来说,翰墨比较私有。二是汉语是寥落孤身一人语(特质是词的形态不会随词的语法功能变化)。三是汉语文本的信息熵大,即抒发不异内容时,采选汉字的文本最短。

从语言科学的角度来讲,语言和翰墨不成视合并律,字和词也不是一趟事。从类型学的角度来讲,汉语也不是唯独的寥落孤身一人语。行为寥落孤身一人语言来讲,它们既有优点也有过失,和其他类型的语言一样。

能不成择善而从,充分附近这些汉语的上风构造出一个更好的咱们所但愿的东说念主工智能,可能是更值得温情的。以我目下对于大模子的浮浅了解来看,目下泛泛采选的大数据+深度学习的AI时候还难以充分附近以上三个特质。

而况,字据团队这些年来基于几十种语言果然语料进行的语言礼貌的发现和研究,咱们看到汉语与东说念主类其他语言之间的共性是多于个性的。因为东说念主类语言的浩荡性是由东说念主的生物意旨的浩荡性来决定的。

不外,在汉语与东说念主类其他语言的比较经由中,咱们如实发现了汉语的一个特殊之处,这亦然咱们在这个标的坚合手研究的驱能源之一。

哈德森开打趣说:你把这个搞深刻了,细则就名扬群众了。我说我不是很想名扬群众,但这个事情如实值得去搞深刻。

周末周刊:您所说的汉语的特殊之处是什么?

刘海涛:这可能要从依存语法中的一些基本主见提及。依存语法是竖立在依存关系基础上的一个当代语法表面。这个表面的一个中枢办法是,句子中的词不是寥落孤身一人的,它和这个句子中的其他词是关系系的,咱们把这种关系叫作词之间的依存关系。

比如,在“我吃了一个红苹果”这个句子中,“我”和“吃”之间有一个主语关系,“吃”和“苹果”之间有一个宾语关系。通过这么一些关系,咱们就能把一个句子连成一个合座。

这种研究对于咱们领会和生谚语言的意旨安在呢?依存语法的奠基东说念主、法国语言学家泰尼埃讲过这么一句话:“造句等于在一群不定型的词之间竖立起一个合座,成为一个合座的多样依存关系,从而赋予这一堆不定型的词以生命;反之,领会一个句子,等于要找出引导句子中各个不同词之间的悉数依存关系。”

显著,东说念主的语感单凭一个句子是变成不了的,而是需要许许多多的句子。计较机亦然如斯。为了发现东说念主类使用语言的句法礼貌,咱们需要屡见不鲜个经过句法分析的句子。对一种语言中大批真真话语进行依存语法标注后的数据,就变成了句法树库。树库不仅是发现句法礼貌的伏击资源,亦然机器学习东说念主类语言常识的珍惜源泉,而树库标注是东说念主类语言常识外化的经由。

树库的伏击性也可从浩荡依存关系(Universal Dependencies)项操办发展看出,该神气可能是目下东说念主工智能限制为数未几的需要语言学家参与的神气。甘休2025年5月,该神气已有179种语言的319个可供东说念主工智能限制使用的依存句法标注语料库(树库)。

有了树库,就不错对东说念主类语言进行多档次多角度的分析研究,这种数据驱动的法式所发现的语言的概轻松礼貌,有利于构建可阐述注解的AI,因为大语言模子AI的执行差未几等于“建模当然语言的概率分散”。在咱们研究的几十种语言树库里,小的大约有两三万词,大的有几百万词,如斯不带心扉地把东说念主类的多样语言都详尽出来,就不错变成东说念主类语言的趋势、礼貌和模式。

这种“详尽”,不错让咱们更澄澈地看到一种语言的“依存距离”。依存距离指句子中两个有句法关系的词之间的线性距离,其大小取决于终止词的数目。上头这个例句中,动词 “吃”和宾语“苹果”之间终止了“了”“一”“个”以及“红”这4个词,因此,它们之间的依存距离是4。

依存距离看起来浅易,但执行上,触及好多不浅易的东西。比如,咱们在说一句话的时候,说出来的词,怎么排序呢?要是语义密切关系的词相隔太远,这个词就很难找到和它语义平直关系的阿谁词,是以两个关系系的词一朝在句子中距离较大,比如卓绝四五个词,不仅你我方记不住,听话的东说念主也难以领会。因此,东说念主在谈话时,由于受东说念主类牵挂容量的料理,会除名一种“依存距离最小化”的礼貌。

所谓依存距离最小化等于指,在造一个句子的时候,咱们把句法或语义上关系的词尽可能地靠得近少量,从而使它们之间的“依存距离”尽可能短。

大约在20多年前,我用20种语言的依存树库,发现了“依存距离最小化”可能是东说念主类语言的一种浩荡礼貌。意象的是,在这20种语言中,汉语的依存距离最大。

当我把这个后果告诉不异是依存语法研究的人人、英国的哈德森(Hudson)教悔时,他很粗糙。在我写的《依存语法的表面与推论》一书的序论中,他这么写说念:“刘海涛的研究发现不同语言之间的依存距离是有彰着各异的,这是一个极为伏击的发现,应当激勉更多的后续研究。为什么两种语言的职责牵挂容量会如斯不同?是不是因为汉语词语更容易牵挂,是以以此不错激活更多的词语,或者因为说中国话的东说念主有更大的职责牵挂容量?”

其后哈德森开打趣说:你把这个搞深刻了,细则就名扬群众了。我说我不是很想名扬群众,但这个事情如实值得去搞深刻。

一系列后续研究标明,哈德森的这些问题不好修起,目下不错细则的是,汉语的依存距离不管换何种语料都是大于英语的,尽管咱们也发现了一些影响依存距离的成分,如汉语的虚词会增多依存距离等,但要修起“讲汉语的东说念主是不是职责牵挂就大”这类触及语言会影响理解结构的要紧问题,还需要更多学科的东说念主来互助研讨。

这个例子阐述,有时候,咱们从一个小切口脱手,能够引出一些出东说念主料想的东西,而这些东西可能比你原先想要研究的东西更伏击。这可能亦然科学研究的乐趣之一。

数据与智能的关系对于传统语言学而言,是相等生分的一个话题。事实上,恰是这种生分使主流语言学与这个期间渐行渐远。

周末周刊:在您看来,东说念主工智能中的“语言学元素”约占若干?语言学中的“AI元素”又是如何产生的?

刘海涛:毫无疑问,东说念主工智能是一个触及多种学科的交叉学科。在一真名为《大数据初学》的书中,提到了有助于构建AI的学科,其中包括计较机、数学、医学、面貌学、工程和语言学。

应该说,在目下的数基智能中,在这几个学科中,起主要作用的是计较机、工程和数学。有一些学科,比如语言学,更多的是一种不提似乎区分根由的东西,是绕不开的。因为语言不仅是智能的窗口,亦然此次数智翻新的引爆点和东说念主工智能破解东说念主类软件系统的切入点。

但传统意旨的语言学对数基智能的价值和意旨很小,因为数据与智能的关系对于传统语言学而言,是相等生分的一个话题。事实上,恰是这种生分使主流语言学与这个期间渐行渐远,也就有了“解雇一个语言学家,系统性能会更好一些”的说法。固然,也有诸如“每当你雇佣一位受过精良历练的语言学家时,你的树库就会更好一些”等更积极的说法。

换言之,东说念主工智能一定是需要语言学的,但需要的可能不是脱离东说念主类日常语言的语言学,而是能从大批日常语言材料中发现语言系统运作的统计礼貌的语言学,因为语言是一个由东说念主驱动的概率系统。

总的说来,数据、概率、统计、系统、礼貌等可能是数智期间需要的“AI元素”。这么一来,语言学家需要尽快在我方的研究中引入这些“元素”。与其他语言学表面语法比拟,依存语法从一初始就比较爱重果然的语言、东说念主们在日常生存中使用的语言。这可能亦然它能够在数智期间兴盛芳华的一个主要原因,因为东说念主工智能要濒临的是东说念主类使用的语言,而不是语言研究者们为了考据我方的假说或表面造出来的多样句子。

我对于“依存距离最小化”研究的著述,由于所采选的数据驱动的法式与那时理解科学民俗的法式有很大不同,因此发表之路很笨重,最终发表在2008年的《Journal of Cognitive Science(理解科学杂志)》上,如今已成为该刊被援用最多的著述。这阐述,AI需要语言学,但需要的是与时俱进的语言学,需要的是能响应东说念主类语言系统果然运作礼貌的语言学。

我曾问过DeepSeek这么一个问题:“依存距离最小化对于你领会和生谚语言有匡助吗?”

周末周刊:当下有不雅点认为,语言学为AI提供“语言是什么”的理解框架,AI则为语言学提供“如何建模语言”的考据器用。两者将共同鼓吹“类东说念主智能”的冲突,同期深化东说念主类对本人语言武艺的领会。要是让大语言模子来学习您的《依存语法的表面与推论》,它会更灵巧吗?

刘海涛:平常地讲,要是东说念主工智能能用当然语言作念东说念主类用语言作念的事,就不错认为它有了“语言智能”。固然,也有东说念主认为计较机生成的仅仅数据,而不是语言。要是不是语言,《东说念主类简史》的作家赫拉利也就不会牵记说:“东说念主工智能还是破解了语言,它当今不错初开创造文化……这意味着东说念主工智能将能够改革东说念主类想考、感受和行为的格局。”

下马看花地说,东说念主工智能尽管与东说念主的硬件不一样,但其产物(语言)还是与绝大多数东说念主梗概异常了,行为智东说念主标志的语言武艺,已被东说念主工智能的研究者得胜地移植到与东说念主的硬件全都不同的硬件之中了。

语言数据为什么能涌现语言智能?咱们整理出一个数据智能生成的链条:数据→模式→常识→网罗→智能。其中,从数据到模式(礼貌)尤为伏击,因为今天的数基AI系统等于从这么的海量文本中习得语言礼貌,并使用这些礼貌生成合适东说念主类使用民俗的语言象征序列的,而传统的语言研究却对这一机理所知甚少。

我曾问过DeepSeek这么一个问题:“依存距离最小化对于你领会和生谚语言有匡助吗?”它的修起是:“依存距离最小化对语言模子(如我)的领会和生谚语言如实有伏击影响,但这种影响与东说念主类理解的机制有所不同。”临了,它追想说念:“依存距离最小化原则蜿蜒擢升了模子的性能,但其作用机制与东说念主类理解有执行区别——模子是数据礼貌的‘镜子’,而非理解料理的‘产物’。”

意象的是,在谈到大模子“学习”的执行时,DeepSeek说,大语言模子的“常识”泉源于历练数据中的统计礼貌,模子会隐式捕捉其中的语言模式,如依存距离的分散礼貌。而对于东说念主类语言依存距离的分散礼貌,最早见于我2007年在《Glottometrics》(一册计量语言学海外期刊)上发表的著述中。这也许阐述数据驱动的语言研究是不错阐述注解大语言模子的行为的。而将大语言模子隐式捕捉并使语言模式显式化,可能等于语言学家急需作念的事情。

DeepSeek的修起也使咱们猜测这么一个问题,即计较机和东说念主的硬件结构不一样,这么,像依存距离最小化这种由于东说念主类理解料理而产生的语言特征,在计较机看来,等于一种东说念主类语言的礼貌。因此,尽管机器莫得像东说念主类的职责牵挂容量的料理,但它需要生成具有依存距离最小化特征的语言,不然,生成的就不是东说念主的语言了。从这个意旨上讲,不管是理解驱动,照旧礼貌驱动,最毕生成的文本具有共同的礼貌最伏击,而其中东说念主行为语言系统运作的驱能源和语言礼貌变成鼓吹者是最伏击的。

旧年得回诺贝尔物理学奖的约翰·霍普菲尔德与杰弗里·辛顿在继承采访的第一时候都抒发了对东说念主工智能的担忧,尽管他们是靠这个得奖的。他们为什么担忧?因为将东说念主工智能引入神经网罗研究后,后者会有什么发展他们还是展望不到也戒指不明晰。也等于说,从数据到智能的这个链条中,一个东说念主造黑箱出现了。

今天,咱们语言学研究者的包袱、语言科学家的包袱等于要剖开这个东说念主造黑箱,通过剖开东说念主造黑箱的经由进一步了解咱们本人智能发展这个自然黑箱,也有助于构建更安全的AI。这将是一个翻新性的改革。是以我认为咱们的包袱很大。

医理工科是研究东说念主的“硬件”的,这些学科的向上,把东说念主类平均寿命延伸了好多;与此同期,咱们对东说念主类“软件”的了解有何向上?这是东说念主文体者需要抚躬自问的。

周末周刊:东说念主工智能兴起以后出现好多惊惧和担忧。比如,家长、学生会想:学文科以后我会不会休闲?传统文科会不会失去价值了?对此您怎么看?

刘海涛:我对东说念主文体科的领会可能和多数东说念主不太一样。我赞同任博德在《东说念主文体的历史》一书中的不雅点:东说念主文与科学莫得执行区别,仅仅研究的对象不一样,二者都是探求模式与礼貌的。也不错说,东说念主文的执行是研究东说念主的“软件”的。

数基东说念主工智能的得胜,迫使咱们这些研究东说念主类“软件”的东说念主反想:为什么用咱们能领会的格局,机器作念不好?为什么机器能这么作念,咱们却领会不了? 

举一个语言学习的例子,东说念主的语感是在大批的语言输入经由中变成的,输入得越多,语感就越好。狼孩莫得语感,因为莫得输入。这阐述,语言不是个体的,而是集体的,交际和社会是将个东说念主言语晶化为集体语言的熔炉。数基AI用非传统的格局快速复现了东说念主得回常识的经由,从而使东说念主类软件得以脱离东说念主类生物学意旨的硬件而运作。从这个意旨上讲,大语言模子偶然能提供一个前所未有的可供文科学者破解东说念主类“软件”的标本。

破解东说念主类“软件”,包袱在东说念主文体科的研究者身上。医理工科是研究东说念主的“硬件”的,这些学科的向上,把东说念主类平均寿命提高了好多;与此同期,咱们对东说念主类“软件”的了解有何向上?这是东说念主文体者需要抚躬自问的。咱们悉数的东说念主文体科都应爱重这件事。

恰是由于咱们对东说念主类“软件”了解的空乏,咱们无法领会为什么AI不错在与东说念主全都不同的硬件上产生不亚于咱们东说念主类水平的语言产物。咱们急需解开数据涌现智能之谜,这既是挑战,更是东说念主文体者千年不遇的机遇。这机遇也许会让东说念主文研究者成为科幻演义里救援全国的东说念主。毫无疑问,全国需要文科,东说念主类需要文科生,但文科需要改革。

周末周刊:这个改革主要在哪些层面?是学科分类,照旧研究法式?

刘海涛:这种改革可能是全处所的,翻新性的。从学科的角度讲,传统意旨的文理分科等学科分类,可能会冉冉失去意旨,转而以发现礼貌和处分问题为中心。也等于说,你研究的问题不错不一样,但所用的研究法式,可能并莫得太大的区别。

在这种情况下,行为文科东说念主,可能要学习一些目下理工科常用的研究法式,稀少是数据驱动的研究法式,因为刻下摆在悉数文科东说念主眼前的最大问题是:数据为什么会涌现智能?对语言学家而言,这个问题具体化为:语言数据为什么会涌现语言智能?

固然,不是悉数文科东说念主都要改革,然则必须有东说念主改革,必须先去作念这件事情,因为,智能翻新不会恭候。

周末周刊:每年12月,您都会发布一篇题为“花格老刘的20××”的微信公众号著述,梳理团队一整年的学术故事,从2010年记载于今。为何自称“花格老刘”?对于10年后“花格老刘的2035”,有何畅想?

刘海涛:“老刘”是中国东说念主常用的一个名称,但这个全国上“老刘”实在太多了,于是就在前边加了“花格”两个字,因为我爱穿花格衬衣。

总的说来,不管咱们高不爽快、愿不肯意,全国还是干涉一个“东说念主机智能共同体”的期间,而要变成东说念主主导的“共同体”,咱们必须对东说念主工智能有更深入的了解,因为了解是变成“共同体”的基础。

为了让东说念主工智能更好地就业于东说念主类,而不是变成智东说念主之上的东说念主造“怪物”,语言学家需要行动起来,竭力使“它们”成为“咱们”的一部分,为开辟更好意思好的数智社会和更高效的“东说念主机智能共同体”孝敬力量。也许这将是“花格老刘的2035”的主要内容。

【东说念主物小传】

刘海涛

海外闻明计量语言学和依存语法研究人人,复旦大学文科资深教悔,栽植部特聘教悔,国务院政府特殊津贴人人,国度社科基金要紧神气首席人人,连气儿11年入选爱想唯尔“中国高被引学者”榜单。2010年提倡的“依存标的连气儿统”,被海外学界称为“刘—有向性”。