Ptextpad + 双语对齐工具网页版 mlbee(任意语言对) + 其他bee系列对齐工具

坊间的 tokenizer 几乎都是分”字“, 例如“New York is a city”会被分成 [‘New’, ‘York’, ‘is’, ‘a’, ‘city’]。而要做词对齐的话应该分成 [‘New York’, ‘is’, ‘a city’]