我曾经天真的认为百度 必应的搜索引擎的关键字搜索结果数量可以从一定程度上量化表示一个词语的频率。
后来,实践告诉我,这个数值极其不准确。当时我的电脑抓取了三四次500万+的网页,流量有8TB。后来发现词频统计还得自己动手去统计,搜索引擎那个数据和真实的数据相差太多。
可能搜索引擎并不是使用的是全文搜索引擎,而是一种经过人工优化的中文分词算法。
我曾经天真的认为百度 必应的搜索引擎的关键字搜索结果数量可以从一定程度上量化表示一个词语的频率。
后来,实践告诉我,这个数值极其不准确。当时我的电脑抓取了三四次500万+的网页,流量有8TB。后来发现词频统计还得自己动手去统计,搜索引擎那个数据和真实的数据相差太多。
可能搜索引擎并不是使用的是全文搜索引擎,而是一种经过人工优化的中文分词算法。