使用帮助
简要介绍 BCC现代汉语语料库,以及如何使用网站功能和 API。
简要介绍 BCC现代汉语语料库,以及如何使用网站功能和 API。
BCC汉语语料库,总字数约 95 亿字,包括:报刊(20 亿)、文学(30 亿)、综合(19 亿)、古汉语(20 亿)和对话(6 亿,来自微博和影视字幕)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。
注:查询限定语料目录时,可能因为返回结果过多而加载速度慢,请耐心等待加载。
下面是一些常用的检索式示例。
检索式 | 含义 | |
---|---|---|
1 | 高大的n | 高大的 + 名词(n) |
2 | v了一v | 动词(v) +了一 + 动词(v) |
3 | 见*面 | 见 后面离合出现面 |
4 | 洗.澡 | 洗 后面隔一个字后接澡 |
5 | ../v | 二字动词 |
6 | 我 ./c 你 | 我 和你 之间用单字连词连接。注意:我 的后面有空格。 |
7 | v[下去 出来 上来 进去] | 动词(v)后面连接下去 、出来 、上来 、进去 其中任何一个词。注意:中括号内用空格隔离。 |
8 | 把*v下去w | 把 离合出现"动词(v)+下去 "并出现句尾。 |
9 | 跑./v | 以跑 为首的双音节动词。注意:跑 后不能为空格,如果加空格检索内容是跑+为单音节字动词。 |
10 | [二 两] q n | 二 或者两 后接量词和名词。 |
11 | 是*的w | 检索是......的 句子。 |
12 | w讨论[n a v] | 讨论 后接名词或形容词或动词,并且讨论 是句首。 |
13 | ../v 问题 | 双音节动词后接问题 。 |
爱听不听,爱用不用……,可以用爱v不v
来检索吗?但
n山n海
可以只检索“人山人海”这一类的结构吗?但是……
确实对于一个结构内部的精细分析,使用BCC的基本操作方式(链接)确实难以完成,无法一步到位。BCC在“报刊”“文学”两个频道数据升级了高级检索功能。
高级检索式在基本检索式的基础上增加了条件语句或输出语句。语句之间用“;”隔开,写在基本检索式后的“{ }”中,形如:
Query{condition1;condition2;...}
注:高级检索式中所有表示功能的符号,都是半角英文的!
Query
表示基本检索式;{ }
中的内容为限制语句,其中condition
表示对检索内容进行条件限定。
检索式中被限定的部分需要用( )
括起来,一个检索式中被限定的成分只能有两处,即只能出现2个( )
。根据( )
出现的顺序,使用$
符号和序号指代该部分内容,在{ }
中进行指称。
即$1
表示第一个( )
中出现的内容,而$2
表示第二个中的内容。
然而花括号里如何构造条件呢?通过内容限制([]
)长度限制(len
)、次数限制(count
)等操作符,BCC实现了更灵活的检索。控制方式详见下表。
类型 | 描述 | |
---|---|---|
内容限制 | $1=[ ] | 定义$1中为[ ]中的内容。集合中的内容相互独立,可以是某个词语,词类,语块类名,或语块表 |
$1!=[ ] | 限制$1中的内容不属于[ ]中的元素 | |
$1=$2 | $1与$2的内容相同 | |
$1!=$2 | $1与$2的内容不同 | |
begin($1)=[] | 限制$1指代的内容以“[]”内的元素为开始 | |
begin($1)!=[] | 限制$1指代的内容不以“[]”内的元素为开始 | |
end($1)=[] | 限制$1指代的内容以“[]”内的元素为结束 | |
end($1)!=[] | 限制$1指代的内容不以“[]”内的元素为结束 | |
mid($1)=[] | 限制$1指代的内容包含“[]”内的元素 | |
mid($1)!=[] | 限制$1指代的内容不包含“[]”内的元素 | |
频次限制 | count>n | 限制实例的频次大于n |
count限制实例的频次小于n |
| |
长度限制 | len($1)=n | 限定$1的长度等于n |
len($1)!=n | 限定$1的长度不等于n | |
len($1)>n | 限定$限定$1的长度大于n | |
len($1)限定$1的长度小于n |
|
来看几个检索式示例
例1:(v)了又(v){$1=$2;len($1)=1}
表示“动词+了又+动词”的结构。按“( )”出现的顺序,两个动词可分别由“$1”“$2”取得。“{ }”中的限定条件表示前后两个动词相同,第一个动词长度为1。
例2:(n)山(n)海{$1=$2}
表示“名词+山+名词+海”的结构。按“( )”出现的顺序,两个动词可分别由“$1”“$2”取得。“{ }”中的限定条件表示前后两个名词相同。
例2:爱(v)不(v){$1=$2}
表示“爱+动词+爱+动词”的结构。按“( )”出现的顺序,两个动词可分别由“$1”“$2”取得。“{ }”中的限定条件表示前后两个动词相同。
例3:(a)的(n){$2=[男孩 女孩 男生 女生]}
表示“形容词+的+名词”的结构。在“{ }”中将名词限定为集合中的元素,即“男孩”或“女孩”或“男生”或“女生”。
例4:nr 说 m q
表示“人名+说+数词+量词”的结构。这里的nr与m 都被当做词处理了,而不是词性符号。
例5:(nr) 说 m q{len($1)}>2}
表示“人名+说+数词+量词”的结构。这里的nr与m 都被当做词处理了,而不是词性符号。而且表示nr的人名或词语长度超过2。
例6:(nr) 说 m q{len($1)>1;begin($1)=[老]}
表示“人名+说+数词+量词”的结构。这里的nr与m 都被当做词处理了,而不是词性符号。而且表示nr的人名或词语长度超过1。而且这个nr还是以“老”开头的。同理,你也可以构造包含某(几)个字/词(mid($1)=[xxx xxxx])或者以某(几)个字词结尾的(end($1)=[xxx xxx])的检索式。
例6:(nr) 说 m q{len($1)>1;end($1)=[生]}
检索式可以是字串、词串、词性的组合而成的查询模式。
例如:如果检索我想吃
后面紧接着一个名词的语言实例,检索式为:我想吃n
,这里 n 是词性符号,表示名词。
模式中特殊含义符号有:(空格)、*、[]、.、/、~、@。
特殊含义符号 | 用法 | 示例 |
---|---|---|
(空格) | 与通常搜索引擎含义不同,在模式中,有歧义表达时,起到分割作用。 在检索式中,输入的英文字符与词性符号一致时,计算机处理为词性,否则按普通英文串处理,如果有表达歧义时,用空格分开。此外在[]中多项内容之间也用空格隔开,另外出现/时候,可以用来表示词边界。 | 例如:一q n ,检索一 后面连着一个量词,量词后面是一个名词的实例。多个词性相连时,用(空格)隔离。 |
* | 一般情况下,检索式表示连续的语言片段,如果需要查找离合情况时,需要用*号。形式为A*B ,表示查找A 的后面离合出现B 的单句。 |
例如:检索洗澡离合出现的情况,可以输入洗*澡 。注意:目前只支持检索式中涵盖一个*的,多个*的不支持。 |
[] | 进行“或”关系的查询,括号内是多个词串或词性,用空格隔离。 | 例如:检索动词后面接着上来 或者下去 ,可以输入检索式v[上来 下去] 。 |
. | 表示一个汉字或者符号。 | 例如:洗...澡 表示洗澡被三字隔离。 |
/ | 做词或者词性约束查询,即限制/前的连续串是具有某种词性的词。 | 例如:./Vg人 表示单音节动词后面接人 ;打./v 表示以打字开头的双音节动词。 |
~ | 表示一个词。 | 例如:洗~澡 表示表示洗 +一个词+澡 。 |
@ | 表示一个词性,在搜索反馈中和~没有差异,但在统计功能中将以词性为分类进行统计。 | 例如:洗@澡 表示洗 +一个词+澡 ,在统计时系统按照@所代表词的词性进行归并统计。 |
注:~和@两种符号属于高级抽象符号,消耗计算成本多,对后台引擎压力大,结果返回慢。在不需要抽象程度这么高的检索需求的时候,尽量使用其它符号构建检索式,感谢配合。
检索式 | 含义 |
---|---|
../v |
双音节动词。 |
打./v |
以打 为首的双音节动词。 |
..性/n [n v a] |
以性 为结尾的双音节名词。 |
./v 货/n |
单音节动词,后接名词货 。 |
./v ./n |
单音节动词,后接单音节名词。 |
检索式 | 含义 |
---|---|
v了一v |
动词后邻了一 在接动词。 |
爱 ./v 不 ./v |
爱 后邻单音节动词、不 单音节动词。 |
检索式 | 含义 |
---|---|
讨论n |
讨论 后邻名词。 |
n讨论 |
名词后邻讨论 。 |
提高*n |
提高 后面离合接名词。 |
n*的提高 |
名词后面离合接提高 。 |
提高 ../[vn n] w |
提高 句尾后接双音节名词或者动名词。 |
检索式 | 含义 |
---|---|
洗*澡 |
洗 后接澡 。 |
洗.澡 |
洗澡 中间有一个字。 |
洗..澡 |
洗澡 中间有两个字。 |
洗...澡 |
洗澡 中间有三个字。 |
澡*洗 |
澡 后接洗 。 |
洗~澡 |
洗澡 中间有一个词(不论多少字)。 |
洗@澡 |
洗澡 中间有一个词。在统计时按照词性归并。 |
检索式 | 含义 |
---|---|
是*的[。?!] |
是 后接的 ,的 后面是。 或? 或>! 。 |
是*的w |
是 后接的 ,的 是句尾。 |
把*v[上 下 起]. |
把 后接动词,动词后邻上 或下 或起 ,后面再接一个字。 |
被*v[上 下 起]来 |
被 后接动词,动词后邻上来 或下来 或起来 。 |
被n v一下 |
被 后邻名词、动词和一下 。 |
被n v一下w |
被 后邻名词、动词和一下 ,一下 是句尾。 |
检索式 | 含义 |
---|---|
w吃 |
吃 做句首。 |
w吃.W |
吃 做句首的二字短句。 |
[,。] 吃W |
吃 是单字短句,句首前标点, 或。 ,句尾符号不限。 |
吃W |
吃 做句尾。 |
[,。]吃[,。] |
吃 是单字短句,句首前标点, 或。 ,句尾符号是标点, 或。 。 |
检索式 | 含义 |
---|---|
a不到哪里去 |
形容词后邻不到哪里去 。 |
还n尼 |
还 后邻名词,再接尼 。 |
v就v |
动词后邻就 ,再接动词。 |
v不着 |
动词后邻不着 。 |
v不到 |
动词后邻不到 。 |
n连n都 |
名词后邻连 、名词、都 。 |
n连n也 |
名词后邻连 、名词、也 。 |
有一种n叫n |
有一种 后邻名词、叫 、名词。 |
非[a v n]不可 |
非 后邻形容词或动词或名词、再接不可 。 |
活活[a v n]死人 |
活活 后邻形容词或动词或名词、再接死人 。 |
活活~死人 |
活活 后邻一个词(任意词性),再接死人 。 |
活活@死人 |
活活 后邻一个词,再接死人 。统计时按照词性归并统计。 |
放着n不v |
放着 后邻名词、不 、名词。 |
v不过n |
动词后邻不过 、名词。 |
n说起来v |
名词后邻说起来 、动词。 |
注:~和@两种符号属于高级抽象符号,消耗计算成本多,对后台引擎压力大,结果返回慢。在不需要抽象程度这么高的检索需求的时候,尽量使用其它符号构建检索式,感谢配合。
词性编码 | 词性名称 | 词性编码 | 词性名称 | 词性编码 | 词性名称 | 词性编码 | 词性名称 |
---|---|---|---|---|---|---|---|
Ag | 形语素 | i | 成语 | o | 拟声词 | vn | 名动词 |
a | 形容词 | j | 简称略语 | p | 介词 | w | 标点符号 |
ad | 副形词 | k | 后接成分 | q | 量词 | x | 非语素字 |
an | 名形词 | l | 习用语 | r | 代词 | y | 语气词 |
b | 区别词 | m | 数词 | s | 处所词 | z | 状态词 |
c | 连词 | Ng | 名语素 | Tg | 时语素 | un | 未知词 |
Dg | 副语素 | n | 名词 | t | 时间词 | h | 前接成分 |
d | 副词 | nr | 人名 | u | 助词 | g | 语素 |
e | 叹词 | ns | 地名 | Vg | 动语素 | nz | 其他专名 |
f | 方位词 | nt | 机构团体 | v | 动词 | vd | 副动词 |
1 、字处理(包括标点符号)
[C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
[B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。
例如:提[B题]高、考虑[B虎]。
[L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。
例如:
后悔[L],表示“悔”在原文中是漏掉的字。
农[L]药,表示“农”在原文中是漏掉的字。
[D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。
例如: 我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。
[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:
1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。
例如:更[#][#]保存自己的生命,……
[BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。
例如:勤奋、[BC,]刻苦的精神。
[BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。
例如:周围的环境很安静[BQ,]生活也非常平凡。
[BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。
例如:我家周围的[BD,]美丽风景。
2、词处理:(包括成语)
{CC}:错词标记,用于标示错误的词和成语。包括4种情况:
1)把词的构成成分写错顺序的。
把写错的词移至{CC}中CC的后面,并在{CC}前填写正确的词。
例如:首先{CC先首}、众所周知{CC众所知周}。
2)该用甲词而用乙词的。这种情况类似别字,但属于用词层面上的错误。
标示方法同上。
例如:
虽然现在还没有实现{CC实践},……
它在{CC对}价格方面有点贵,所以没得到广大消费者的支持{CC持支}。
3)生造词。指考生自造的、或某些外语中可能有而汉语中不存在的词。
例如:
农作物{CC农产物/农物}、农产品{CC农作品}
……但长期来看造成环境污染,破坏自然生态{CC目态},……
绿色食品的好处在于吃这些食品后在身体里没有农药的残留量{CC潜留量}。
4)词语搭配错误。包括词性、音节等方面的搭配错误。
例如:
最好的办法是两个都保持{CC走去}平衡。
我也回{CC1回去}沈阳。
吃这种东西会{CC1可以}得{CC1得到}病{CC1疾病}。
{CLH}:离合词错误标记,用于标示各种和离合词相关的错误。标在有错误的离合词的后边,表示前边的离合词用法有误。
例如:
……我快要毕业{CLH}大学{CQ了}。
虽然这么[L]多年都没见面{CLH}过,……
……我对哈尔滨{CJ-zy很}感兴趣。有观光{CLH}哈尔滨的宿愿。
{W}:外文词标记,用于标示以外文词代替汉语词的情况。把外文词移至{W}中W的后面,并在{W}前填写相应的汉语词。在W和外文词之间填写汉语词的字数。
例如:
非洲{W2Africa}、爵士乐{W3jazz}。
……教我工作的方法{W2ABC}。
{CQ}:缺词标记,用于标示作文中应有而没有的词。在缺词之处加此标记,并在{CQ}中CQ的后面填写所缺的词。
例如:
这就{CQ要}由有关部门和政策管理制度来控制。
……有的农民{CQ在}不使用化肥和农药的情[B精]况下[BD,]养农作物,……
{CD}:多词标记,用于标示作文中不应有而有的词。把多余的词移至{CD}中CD的后面。
例如:
……然后肯德基的收入有所增加{CD了}。
中国政府应该采取良好的措施来管理农业{CD方面},……
但我觉得{CD按照}上面所写的方法是现在很多人或国家用的方法。
句子错误类型代码:
{CJba} : 把字句错误
{CJbei} : 被字句错误
{CJbi} : 比字句错误
{CJl} : 连字句错误
{CJy} : 有字句错误
{CJs} : 是字句错误
{CJsd} : “是……的”句错误
{CJcx} : 存现句错误
{CJjy} : 兼语句错误
{CJld} : 连动句错误
{CJshb} : 双宾语句错误
{CJxw} : 形容词谓语句错误
{CJ-} :句子成分残缺错误标记,用于标示由于成分残缺造成的病句。在短横后边标明所缺成分的名称,该名称用小写代码表示;在小写代码之后填写所缺的具体词语。标在成分残缺之处。
例如:
为了增加{CC满足}粮食,{CJ-zhuy人们}使用了化肥和农药,这样产量就会大大提高。
这样的活动{CJ-sy开展}以来,肯德基的垃[B拉]圾[C]总量大大降低。
……那两种{CC个}东西就容易伤害人类的{CJ-dy健康}系统。
从具体{CJ-zxy情况}来看,……
{CJ+} :句子成分多余错误标记,用于标示由于成分多余(赘余)造成的病句。后边用小写代码标明多余成分的名称,并把所多余的具体词语移至该名称的后面。标在成分多余之处。
例如:
这是我们{CJ+dy做人}的责任。
而且研究{CJ+buy下去}产量能提高的办法。
而且{CJ+zy正在}还死去好多人。
句子成分采用层次分析法的观点,共8种:
{CJ-/+zhuy} :主语残缺或多余
{CJ-/+wy} :谓语残缺或多余
{CJ-/+sy} :述语残缺或多余
{CJ-/+by} :宾语残缺或多余
{CJ-/+buy} :补语残缺或多余
{CJ-/+dy} :定语残缺或多余
{CJ-/+zy} :状语残缺或多余
{CJ-/+zxy} :中心语残缺或多余
{CJX} :语序错误标记,用于标示由于语序错误造成的病句。标在语序错误的词语的后边。如果是相邻的两个成分语序错误,按照自然顺序,把{CJX}标在前一个成分的后边。
例如:
大多数{CJX}这些人生活{CC2活}在很不好的地方,……
可是这两个问题同时{CJX}要解决非常不容易,……
现在每个人很重视健康,受欢迎{CJX}绿色食品。
{CJZR} :句式杂糅错误标记,用于标示把两种不同句式、两种不同说法混在一起的病句。标在句子末尾,标点之前。
例如:
这个问题不可能一两年解决的问题{CJZR}。
现在,全世界流行是绿色食品{CJZR}。
每次吃对身体有害于健康的东西{CJZR}。
因为,人们的必生存之一中最重要的是饮食{CJZR},……
{CJcd} :重叠错误标记,用于标示句中词语的重叠错误,包括重叠方式上的错误,也包括不该用而用重叠,或该用而不用重叠的情况。标在出现重叠错误的词语之后。
例如:
而对生产者来说,尽量不用化肥和农药,在出货之前,进[C]行洗洗{CJcd}。
还有我们{CQ应}对绿色食品研究研究{CJcd}。
{CJgd} :固定格式错误标记,用于标示固定格式搭配上的错误。
例如:
“一……就……”缺少“一”或者“就”。
现代社会应当认“保护自己,尊重其他人”为口号{CJgd}!
{WWJ} :未完句标记,用于标示没写完的半截子的句子。标在未完成句的末尾处。
例如:
只是全球{WWJ}
最后国家政府不考虑经济问题、积{WWJ}
不知道什么时候会普及起来,但是我认为这还是不是个{WWJ}
{CJ?} :句处理存疑标志,用于标示错误类型不清楚的、或错误类型标注很不方便的、或句义不明且有语法错误的的病句。标在存疑病句之后、该句标点之前。
例如:
地球上,有的地方还在“饥饿”来艰苦{CJ?}。
还要想每个人的健康是帮助饥饿人的办法越来多健康的人会越来多帮饥饿的人{CJ?}。
把化肥可以取代{CC代取}用草、剩饭做的自然肥料{CJ?},把农药也可以取代{CC代取}喜欢吃害虫的动物{CJ?}。
4、篇章处理:(包括复句)
{CP} :篇章错误标记,用于标示篇章错误。大括号的前半和后半分别表示有错误的篇章的起点和终点,在起点处标CP,在终点处标P。即:{CP……,……。……,……。P}
所谓篇章错误,主要指句子和句子之间在衔接方面的错误。最典型的情况是每个单句都正确,但作为一个整体来看则句子相互之间缺乏联系,不能构成一个紧凑、自然、流畅的成段表达。而产生这种情况的原因,可能是语义方面的,也可能是连接方式方面的。
例如:
{CP我们经过了漫长的历史,一些没有用的人死于历史中,挨饿其实是可以克服的。P}
(前后句意义上无关)
{CP吸烟对孩子们{CJ-sy有}不好的影响,这一观念他会不会知道呢?所以我早就不理他了。P}
(用了表示因果关系的连词,但句子之间并不存在因果关系)
{CP目前,随着人们生活水平{CQ的}提高,{CJ-zhuy人们}{CD就}对饮食品很重视。就{CJX}{CQ用}未经污染的农产品加工的食品叫做“绿色食品”。P}
(前后句之间缺少过渡句)
{CP我以前看报纸的时候,有一篇关于农药的文章。他说,一般的食品,比如说,米,蔬菜、水果等{CD的}东西,好好儿洗一下就行了,不用担[B但]心。P}
(“他”指称不明,使两句之间失去联系)