共指消解(Coreference Resolution)是自然语言处理(NLP)中的一个关键技术,其主要目的是识别文本中指向同一实体的不同表述。这项技术在文本摘要、机器翻译、自动问答和知识图谱等领域有着广泛的应用。共指消解的提出是为了识别一段文本中指向同一实体的不同表述,例如,“陈奕迅”,“Eason Chan”,“他”这三个表述都指向现实生活中的“香港歌手陈奕迅”这一实体。共指消解的过程可以理解为判断一个表述是否指向另一个表述的过程,包括照应语(Anaphor,指出的表述)和先行语(Antecedent,指入的表述)。
共指消解的定义涉及到将现实世界中同一实体的不同描述合并到一起的过程。例如,在文章开始处会写“哈尔滨工业大学”,后面可能会说“哈工大”、“工大”等,还会提到“这所大学”、“她”等。这种现象称为共指现象。共指消解是传统的研究方向,见著于二十世纪三十年代,是自然语言处理、机器翻译、信息抽取、信息检索等领域的关键技术之一。
共指消解面临的挑战包括但不限于:
-
回指:先行语在照应语前,其中照应语为人称代词。
-
预指:先行语在照应语后,其中照应语为人称代词。
-
名词短语共指:先行语和照应语均为非人称代词的名词短语。
-
先行语分指:一个照应语对应多个先行语。
共指消解是一个NP-Hard问题,这意味着它在计算上是非常困难的,并且至今仍然是自然语言处理中的一个活跃研究领域。