坊间的 tokenizer 几乎都是分”字“, 例如“New York is a city”会被分成 [‘New’, ‘York’, ‘is’, ‘a’, ‘city’]。而要做词对齐的话应该分成 [‘New York’, ‘is’, ‘a city’]
坊间的 tokenizer 几乎都是分”字“, 例如“New York is a city”会被分成 [‘New’, ‘York’, ‘is’, ‘a’, ‘city’]。而要做词对齐的话应该分成 [‘New York’, ‘is’, ‘a city’]