预告 | 重磅推出第六期“学术工作坊”-华体会体语言资源高精尖创新中心

预告 | 重磅推出第六期“学术工作坊”

作者：高而杰
2019年06月18日

讲座题目：

1. 胡韧奋：BERT模型与历时词义研究

2. 王敬：面向汉语二语学习的句子偏误自动纠正研究

3. 邱媛媛：面向汉语语法偏误自动识别的数据集构建与评估

讲座时间：2019年6月19日（周三）14:00-17:00

讲座地点：华体会体综合楼二层清常厅

讲座简介：

1. 词向量方法被广泛地应用于历时词义分析，但是现有的静态词向量方法仅能为每个时期的词语生成一个唯一的向量，无法对不同词义进行表征。为了解决这个问题，我们将基于BERT语言模型的动态词向量引入历时词义变化研究，提出了一个细粒度词义表征和追踪模型，对1810年-2009年共计200年间的英文词义演变进程进行了系统追踪和分析。与前人工作相比，该方法不仅可以回答词义演变中的what和when问题，还可以深入解释how的问题。此外，研究显示，词义演变与生物进化类似，存在“义项竞争”、“义项合作”等有趣的机制。

2. 近年来，计算机辅助汉语二语教学受到越来越多的重视，汉语句子偏误自动纠正是其中一个重要的研究任务。现有的很多研究工作聚焦在神经网络模型构建上，而很少关注汉语语言特征及汉语偏误本身的规律，因此本报告将从汉语中介语语料分析出发，讨论汉语句子中字层面、词层面、句层面偏误的自动纠正问题。

3. 汉语语法偏误自动识别作为一项新兴的 NLP 任务，在数据集和算法模型的构建上都存在不少挑战。从数据集角度看，现有的汉语偏误语料库构建标准不统一，标注体系普遍较为复杂，不利于数据集的扩充，此外，语料涉及的话题相对封闭，其出发点往往是为汉语教学服务，并非面向计算机自动识别和处理偏误。本次报告以汉语语法偏误数据集构建为核心，探讨语法偏误范畴、偏误文本特征以及标注方法和数据集评估等问题。

主讲人：胡韧奋

胡韧奋，博士，北京师范大学讲师，研究方向为计算语言学、计算机辅助语言教学，担任ACL、COLING、CONLL等国际会议审稿人，中文信息学会青工委委员。在ACL、EMNLP、COLING、《北京大学学报》、《语言文字应用》、《中文信息学报》等国内外高水平会议期刊上发表论文二十余篇。

胡韧奋博士.jpg

主讲人：王敬

王敬，北京师范大学中文信息处理研究所博士生，主要研究方向为自然语言处理，具体研究句子可接受度、面向汉语学习的偏误自动纠正、语言模型等。

王敬_meitu_1.jpg

主讲人：邱媛媛

邱媛媛，北京师范大学中文信息处理研究所硕士生，曾获得“NLP-NABD 2018” 最佳英文论文奖。

邱媛媛_meitu_2.jpg