基于《国际中文教育中文阅读分级标准》的文本语言特征量化与等级识别技术研究Quantitative Analysis of Text Features and Level Classification Techniques Based on the Chinese Graded Readers Standards for International Chinese Language Education
李吉梅,邱经纬,陆晨昕
摘要(Abstract):
本文以《国际中文教育中文阅读分级标准》为指导,聚焦文本分级语言特征的量化与识别,构建了涵盖汉字、词汇、句子、语篇四个层面的可计算指标体系,并探讨了基于自然语言处理(NLP)和大语言模型(LLMs)技术的语言特征识别方法。为突破传统规则方法的局限,本文构建了“规则驱动+检索增强生成(RAG)”的混合架构,融合了LLMs的语义推理能力,以提升句子层面语法条目的识别能力和语法点的歧义消解能力,并通过动态加载领域词典、短词合并算法及正则优化等策略,提升面向阅读分级的词汇层面的分词准确性。本文提出的面向国际中文分级阅读的语言特征量化指标体系与文本语言特征识别技术方案,可提高中文可读性评估、文本等级识别等任务的准确率,对个性化、智能化国际中文分级阅读技术平台的研发具有借鉴意义。
关键词(KeyWords): 中文阅读分级;阅读分级标准;自然语言处理;大语言模型
基金项目(Foundation): 国家社科基金重点项目“汉语作为第二语言学习者阅读素养评价标准的构建与测评研究”(20AYY016)
作者(Author): 李吉梅,邱经纬,陆晨昕
参考文献(References):
- 丁安琪,张杨,兰韵诗.基于《国际中文教育中文水平等级标准》的中文文本难度自动分级研究——以HSK中高级阅读文本为例[J].首都师范大学学报(社会科学版),2023(6):81-92.
- 教育部中外语言交流合作中心.国际中文教育中文水平等级标准(GF 0025—2021)[S].北京:北京语言大学出版社,2021.
- 教育部中外语言交流合作中心.国际中文教育中文水平等级标准(国家标准·应用解读本)第二分册:词汇[M].北京:北京语言大学出版社,2021.
- 谭可人,兰韵诗,张杨,等.基于多层级语言特征融合的中文文本可读性分级模型[J].中文信息学报,2024(5):41-52.
- 王鸿滨,杨瑶.面向汉语国际教育课外分级读物考察[J].华文教学与研究,2021(3):51-60.
- 王蕾.文本可读性公式研究发展阶段及特点[J].语言教学与研究,2022(2):29-40.
- 吴继峰.汉语二语者学术汉语写作语言特征测量研究[J].语言文字应用,2023(3):51-61.
- 张庆翔,张莹.国际中文教育的文本可读性研究回顾[J].现代语文,2022(10):89-95.
- 中国社会科学院语言研究所词典编辑室.现代汉语词典(第7版)[M].北京:商务印书馆,2016.
- 中外语言交流合作中心.国际中文教育中文阅读分级标准[M].北京:北京语言大学出版社,2025.
- 朱君辉,刘鑫,杨麟儿,等.汉语语法点特征及其在二语文本难度自动分级研究中的应用[J].语言文字应用,2022(3):87-99.
- URE J.Lexical density and register differentiation[J].Applications of Linguistics,1971(23.7):443-452.
- (2)Python编程语言详情请见https: //www.python.org。正则表达式是一种用特定符号组合来查找、匹配或替换文本中字符串的工具,详情请见https: //www.runoob.com/regexp/regexp-syntax.html。
- (3)pypinyin 库详情请见 https: //github.com/mozillazg/python-pinyin。
- (4)jieba分词工具详情请见 https: //github.com/fxsjy/jieba。
- (5)SnowNLP分词工具详情请见https: //github.com/isnowfy/snownlp。
- (6)THULAC分词工具详情请见http: //thulac.thunlp.org。
- (7)HanLP分词工具详情请见https: //www.hanlp.com/semantics/dashboard/index。
- (8)《国际中文教育中文水平等级标准·语法学习手册》包含初等、中等、高等三册,由汉考国际教育科技(北京)有限公司编,北京语言大学出版社2022年出版。
- (9)Deepseek大语言模型详情请见https: //deepseek.apifox.cn。