CCFT语料库介绍

语料信息

华体会体 法汉指称链条平行语料库是一个共时标注语料库,由华体会体 中法语言文化对比交流中心开发,受国家社会科学基金资助(项目批准号19BYY014),由五种体裁的文本构成:文学、政论、新闻、科技文和官方文件,共计约150万字左右。 其中不同体裁的文本在整个语料库中所占比重基本相当以保证语料库的平衡性。每种文本都选用了以法语为源语言的文本。
目前,我们标注了罗曼罗兰的小说 Jean Christophe-Tome1《约翰克里斯多夫-卷一》(傅雷)约11万字,巴尔扎克的小说 Eugénie Grandet, 《欧也妮与葛朗台》(李恒基)约18万字, 卢梭的 Discours sur l’origine et les fondements de l’inégalité parmi les hommes《论人类不平等起源》(李常山)约20万字, 以及科技文汉法对照教材《现代近距离放射治疗实用手册-第一卷》( Marinello Ginette著、潘基建译)约13万字。 我们主要标注了文本中的代词回指链条(包括法语中的关系代词、主有代词、指示代词等,以及中文的零回指及其它回指代词),其中《欧也妮与葛朗台》还标注了名词回指。

标注方法

文本的标注均利用了标注工具ANALEC。标注语料库可以借助ANALEC中内嵌的的指称链条分析功能进行自动统计分析并可视化分析结果。 标注语料库还可以以XML格式导出并保存,方便其它应用平台或程序的开发利用,也便于其它相关研究项目的分析与应用。 此外,标注语料库的检索可以在ANALEC中实现或通过其它相关程序读取XML文本进行检索。
法汉指称链条标注平行语料库可以为法汉指称链条分布规律的对比研究提供可靠的统计分析数据,同时,还可以提供可靠的翻译实例和量化数据, 对语言的研究、教学、翻译以及自然语言自动处理都具有着不可忽视的重要价值,对我国的语言学研究、语料库建设的研究以及计算语言学的研究都起到了积极的推进作用。 CCFT语料库的建设结合汉法两种语言的特点,借鉴了中西方在指称链条研究及其标注领域里的前沿理念和技术,目前是国内外首例,欢迎国内外同行使用购买(fayu@blcu.edu.cn)。

参考文献

篇章语言学理论参考文献:
(法文及英文参考文献)
[1] APOTHELOZ, S. PEKAREK DOEHLER (éds), 2003, Les processus référentiels dans les interactions sociales, Verbum XXV, 2.
[2] BAUMER, E., 2015, Noms propres et anaphores nominales en anglais et en français : étude comparée des chaînes de référence. L’Harmattan, Paris. BEGUELIN M.-J. (1995) Alternatives et décisions lexicales dans l’emploi des expressions démonstratives, Pratiques 85,53-87.
[3] BRANCO A., MCENERY T. & MITKOV R. (éds), Anaphora Processing: Linguistic, cognitive and computational modelling, Amsterdam & Philadelphia, John Benjamins.
[4] CAPIN D., 2014, « Chaînes de référence dans les textes médiévaux non-narratifs : les Year Books ou l’élaboration d’une écriture juridique », Langages, 195, pp. 61-78.
[5] CONDAMINES A., 2005, « Anaphore nominale infidèle et hyperonymie : le rôle du genre textuel ». Revue de sémantique et pragmatique, 18, 33-52.
[6] CORNISH F., 1986, Anaphoric Relations in English and French: a discourse perspective, Croom Helm, Londres/Canberra, 1986.
[7] GUILLOT C. (dir.), 2006, Le démonstratif en français, Langue française, 152.
[8] KLEIBER G., 1994, Anaphores et pronoms, Louvain la Neuve, Duculot.
[9] LANDRAGIN F. & TANGUY N., 2014, « Référence et coréférence du pronom indéfini on », Langages, 195, pp. 99-115.
[10] LE PESANT D., 2002, « La détermination dans les anaphores fidèles et infidèles », Langages 145, 39-59.
[11] LEROY S., 2004, Le nom propre en français, Ophrys, Paris.
[12] LONGO L., 2010, Un corpus pour optimiser l’identification automatique des chaînes de référence, in Azzopardi S. (coord). Corpus, Données, Modèles. Cahiers de Praxématique, pp. 54-55, PULM : Montpellier, pp. 249-262.
[13] MARSLEN-WILSON W., LEVY E. & KOMISARJEVSKI-TYLER, L., 1982, « Producing Interpretable Discourse : The Establishment and Maintenance of Reference », in JARVELLA R.J. (ed.), Speech, Place and Action, New York, J. Wiley and Sons, 339-378.
[14] MELANIE F. & LANDRAGIN F., 2014, « Linguistique outillée pour l’étude des chaînes de référence : questions méthodologiques et solutions techniques », Langages, 195, pp.117-137.
[15] PERRET M., 2000, « Quelques remarques sur l’anaphore nominale aux 14° et 15° siècles », L’information grammaticale, 87,17-23.
[16] SCHNEDECKER C., 2006, « Anaphores prédicatives démonstratives : de la cohésion syntagmatique à la cohérence textuelle », CORELA, numéro spécial, http://corela.revues.org/1437.
[17] SCHNEDECKER C., 2009, Les SN démonstratifs en apposition et en anaphore : différences structurelles, fonctionnelles et informationnelles, in D. Apothéloz, B. Combettes, F. Neveu (éds), Les linguistiques du détachement, Berne, Peter Lang, 507-518.
[18] SCHNEDECKER C., 2015, « Chaînes de référence et identification des genres. Grammaire des genres et des styles : quelles approches privilégier ? » Journée ConScila, Paris, 16/01/2015, D. Legallois (org.).
[19] SCHNEDECKER C. & LANDRAGIN F., 2014, « Les chaînes de référence : présentation », Langages, 195, 3-22.
[20] TOOLE J., 1996, « The effect of genre on referential choice », in FRETHEIM T. & GUNDEL J.K., Reference and Referent Accessibility, Amsterdam, J. Benjamins, Amsterdam, Philadelphia, p. 262-290.
[21] TOMLIN R.S., 1987, “Linguistic Reflections of Cognitive Events”, in TOMLIN R.S., Coherence and Grounding in Discourse, Amsterdam, J. Benjamins Publishing Company, 455-479.
(中文参考文献)
[1] 陈平,1991,《现代语言学研究——理论、方法与事实》,重庆:重庆出版社。
[2] 胡壮麟,1994,《语篇的衔接与连贯》,上海:上海外语教育出版社。
[3] 黄国文,1987,《语篇分析概要》,长沙:湖南教育出版社。
[4] 廖秋忠,1992,《廖秋忠文集》,北京语言学院出版社。
[5] 廖秋忠,沈家煊等(译),1994,《功能主义与汉语语法》,北京语言学院出版社。
[6] 刘保山,1983,几种话语分析理论介绍,《话语语言学论文集》,外研社。
[7] 吕必松,1992,《功能主义与汉语语法》,北京语言学院出版社。
[8] 吕叔湘,1979,《汉语语法分析问题》,商务印书馆。
[9] 王福祥,1994,《话语语言学概论》,外研社。
[10] 李棣华,1993,《法语章法研究》,上海:上海外语教育出版社。
[11] 朱德熙,1983,《汉语语法丛书》序,《马氏文通》,商务印书馆。

所有数据

文件名 样本下载 全文下载
标注语料-欧也妮与葛朗台 样本下载 申请下载完全版
标注语料-约翰克利斯朵夫 样本下载 申请下载完全版
标注语料-放射性 样本下载 申请下载完全版
标注语料-论人类不平等起源 样本下载 申请下载完全版
标注工具-Analec 1.5.jar 工具下载
请联系fayu@blcu.edu.cn获取语料资源。
团队语料库建设负责人
胡霄钦
王秀丽
联系方式
fayu@blcu.edu.cn
建设成员
华体会体 法语系2016 2017级硕士研究生
陈雪蓉
孙晨晨
肖芳
严美馨
韩佳卉
周古月
陈爽
陈彦
付扬
康兴
杨倩丽
张雁翎
丁雨凡
杨华
欧阳阳
王宇
Baidu
map