外国语文研究中心成立20周年系列学术活动之一
11月15日晚上19:00,由外国语文研究中心主办的外国语文研究中心20周年庆系列讲座第一讲在线举行,主讲嘉宾为国防科技大学博士生导师李德俊教授,讲座题目为“语料库驱动的话语分析:目标与方法”。讲座由我校副校长王仁强教授主持,校内外师生300余人通过腾讯会议参加了本次讲座。
讲座伊始,李教授对话语(discourse)与文本(text)的概念进行了界定。接着,他对话语分析的常用理论:批评话语分析(CDA)、系统功能语言学(SFL)、评价理论(AppraisalTheory)及其相关的主要观点、人物与著作进行了简要介绍。随后,李教授列举了基于语料库的话语分析的优点,包括可以降低传统方法的主观性、具有自动化的特征、可以对大文本数据进行分析等。
李教授详细讨论了话语分析的两种方法:手动标注(hand-coding)和自动标注(computerized coding system to match texts to a coding dictionary)。前者是一种传统方法,费时费力,标注结果的一致性与客观性可能会受到影响,例如系统功能语言学(及物性语法)物质过程的标注;后者使用词典扫描文本,对文本进行自动标注,是目前情感分析(sentiment analysis)的主要方法。随后李教授评价道,以上方法都或多或少地采用了语料库的方法或使用语料库进行研究;CDA等采用语料标注,再使用检索工具进行统计定量研究是典型的语料库方法;情感分析需要在对大量语料进行分析地基础上制定情绪词表;标注的方法和词表扫描的方法应当根据研究目的来选择使用。
李教授紧接着深入阐释了语料库驱动的干净文本分析(Corpus-driven Clean Text Analysis)。该分析符合学科的方向,需要遵循干净文本原则(cleantext policy)。此类分析常用三种方法:关键词和词表的分析、共词分析(Co-word Analysis)与搭配和词语共现的分析。第一种,关键词和词表的分析旨在获取内容、主题、焦点、实体、文本分类。通过该分析方法能够确定文本的主题和实体群;通过统计高频主题词及其变化趋势,能够准确把握其热点、发展脉络与发展方向。第二种,共词分析旨在获取语义网络、相关性。主题词是对文章核心内容的浓缩和提炼,通过主题词共现分析(共词分析),可以发现隐藏在真实关系网背后隐藏的关系网络。第三种,搭配和词语共现分析旨在获取立场、评价,涉及到的是短语学(phraseology),语料库语言学研究中最重要的一个部分。词汇之间主要有以下四类共现关系:搭配(collocation),类联接(colligation),语义倾向(semantic preference)和语义韵(semantic prosody)。立场的初步释读就是解读索引行。
在讲座末尾,李教授对未来的研究方向提出了建议:采用语料库进行话语分析想要取得更大的进步,基于干净文本是我们努力的方向;要想让语料库对话语分析有更大的贡献,在算法和工具上需要有更大的创新,机器学习是未来发展的方向。
王仁强教授对李教授的精彩讲座进行了总结与点评,指出本次讲座“理实并重,知行合一”,不仅有话语分析的相关知识介绍,更有结合具体研究问题的话语分析案例,还有语料库的建设与使用方法。线上师生讨论气氛热烈,师生们在留言区踊跃提出问题,李教授就这些问题进行了详细解答。本次的讲座拓宽了师生的学术思路和视野,对语料库驱动的话语分析研究提供了重要的启示,使广大师生受益匪浅。
图/文:外国语文研究中心