Posts Tagged ‘过滤词’

停用词/过滤词(Stop Words/Filter Words)

三月 21st, 2009

  这两者意义一样,都是指一些太常用以至没有任何检索价值的单词,搜索引擎碰到这些词时一般都会过滤掉。因此为节省空间,应尽量避免使用这一类的词,尤其是在对文字数量有严格限制的地方。
  停用词和过滤词非常好理解,停用词一般出现在英文当中,指的是使用过于频繁的单词,如:“is”、“i”、“what”、“it”等。一些搜索引擎在它的网页库里碰到这些词时不会搜索。如果你的搜索关键词中使用了停用词,那么很可能得到大量毫不相关的搜索结果。比如,短语“searching the Web”包含了两个停用词,“the”和“Web”,实际搜索效果等于关键词“searching”,这是很难得到相关搜索结果的。在大多数搜索引擎中,碰到停用词时你可以使用加号“+”来解决。在中文中常见的有“是”、“的”、“地 ”(例如站长网是中国站最喜爱的家园。很明显”的”是停用词)。过滤词就不用过多的解释,过滤词就是指一下涉及到色情和政治的词汇。