该资源为中心在研项目《句法语义分析及其应用开发》项目的成果。项目负责人为语言资源高精尖创新中心首席专家、北京语言大学荀恩东教授。
语料库主要包括中文句法语义分析的搭配资源和意合图资源,搭配资源作用于句法语义分析中的符号计算过程,即规则分析过程,用于提供结构和语义信息。标注的意合图作为JParser平台的数据集,用于对分析效果的评估和验证。
课题组开展了面向中文句法语义分析的大规模、深层次的多颗粒度语言知识工程。
1、“意合图”标注。针对提出的中文句法语义的“意合图”表示,验证其合理性,同时也为后续工作提供验证数据,项目组启动了中文“意合图”标注工程。目前,定制了“意合图”标注规范和辅助标注软件,已经标注“意合图”约1万句。
2、中文动词内结构标注。对多字中文动词,给出内部结构标注,例如给出结构类型、核心词、是否可离合使用等。标注了动词约2万词,此项工作已经完成。
3、中文“块依存”结构标注。对中文句子区分句法成分组块、句间衔接组块和辅助组块,通过组块序列呈现句子基本骨架。标注了约60万个小句。
4、中文搭配标注。对中文大数据中的组块搭配现象进行了大规模调查,形成了高质量搭配库,规模达900万实例以上。
更多详细,可点击: