参考:机器识文断字的秘密:人工智能如何理解语言
本文仅仅部分内容,更多知识在上方链接中!
词干化
词干化是将一个词还原为词根的过程,比如去掉词缀和后缀。 这对于搜索引擎来说是非常有效的,因为它需要使用集群来得到更相关的结果。 使用词干,搜索引擎可以找到更多的匹配,因为单词有更广泛的含义,甚至可以处理拼写错误等问题。 当使用人工智能应用程序时,这可以帮助提高整体理解。
语义化
语义化类似于词干化。 但是它并不是简单地删除词缀或前缀,而是专注于寻找相似的词根词。 一个例子是“better”,我们可以把它词元化为“good”。 只要意思基本不变,这个方法就能奏效。 在我们的例子中,两者大致相似,但是“good”有更清晰的含义。 语元化也可以提供更好的搜索或语言理解,特别是在翻译中。
自然语言处理系统要想有效地运用语义化,就必须理解词语的含义和语境。 换句话说,这个过程通常比词干化有更好的性能。 另一方面,这也意味着算法更加复杂,需要更强大的计算能力。