主要是增加了200多GB的语料库
现在语料库有350GB,我已经把速度优化到极致了
perl语言在脚本类型的高级语言中是最快的
如果perl速度不够
上go语言
go语言如果内存占用和速度跟不上语料库的增长
上c语言
c语言和汇编语言的速度也就差个5%
现在完整的词频数据刚刚出来,正在进一步加工,一个包含5亿词语词频的统计数据
这么大规模的语料库,如果要统计词语频率,排序,只能上c语言了,其他的基本上搞不定
一个文本文件1.9GB,一个亿的词语。加载到哈希表,并对词语的频率排序,需要20GB的内存。
如果用go语言,内存需求估计要增大一倍。