近日,北师大国际中文教育学院胡韧奋博士课题组在国际期刊Language Learning发表论文“Word-Combination-Based Measures of Phraseological Diversity, Sophistication, and Complexity and Their Relationship to Second Language Chinese Proficiency and Writing Quality”。该文针对汉语二语学习设计了衡量短语结构多样性、精细性及复杂性的系列测量指标,并基于自然语言处理方法实现了语言特征的自动抽取和指标计算,在此基础上,进一步探讨了短语结构特征在二语写作发展和质量评估中的作用。
该文第一作者为国际中文教育学院教师胡韧奋博士,第二作者为首都师范大学吴继峰副教授,第三作者(通讯作者)为美国宾夕法尼亚州立大学陆小飞教授。在课题组前期研究的基础上,该文基于跨语言通用的搭配特征(主谓、动宾、形名、状中)和汉语所特有的搭配特征(量名、介词框式结构、介谓、述补)提出了短语结构多样性、精细性和复杂性测量指标,并从三个角度展开对比分析,得到了如下结论:
第一,与传统的粗粒度句层面指标对比,部分细粒度短语层面指标能够更好地区分不同水平的汉语二语作文,并与作文质量有更高的相关性,这揭示了跨语言层级开展句法测量的重要性和必要性。第二,通过对比跨语言通用的搭配特征和汉语所特有的搭配特征,发现基于跨语言通用特征的指标能够更好地区分初级和中级水平写作,而基于汉语特有特征的指标在中级和高级水平作文之间具有更强的区分效力,这体现了汉语二语写作发展的阶段性特点:学习者从初级到中级阶段侧重在主谓、动宾、形名、状中等跨语言通用特征层面取得发展,而从中级到高级阶段则更多地侧重在掌握汉语所特有的短语结构,如量名、框式介词、介谓和述补结构等。第三,通过具体比较八类短语结构,发现基于述补、状中、动宾结构的指标测量效力要明显强于基于其他五类结构的指标,这反映了在汉语二语句法学习中,以谓词为中心的短语结构扮演了重要角色。
值得一提的是,该项研究虽然针对汉语二语数据开展分析,但在开源跨语言自然语言处理工具的支持下,其指标构建思路和方法也可以迁移至其它语言的二语习得研究中。该项研究的Python代码和分析数据均已在相关网址向学界开放共享。
数据共享链接:http://www.iris-database.org
论文链接:https://onlinelibrary.wiley.com/doi/abs/10.1111/lang.12511#