聊一聊制作mdx词典时那些容易踩到的坑

算是个人感觉吧,折腾词典的原始数据的时候,在纯文本编辑器界面的话,如果对自己的正则表达式特别有自信,或者对需要处理的字典数据的文件格式特别清晰的话,该用正则用正则,即快还省事儿,但如果上面两样都不存在,建议还是少用正则,尤其是在数据清洗整理完毕后,进入脚本需要敲代码的时候,尽量少用正则,正则这玩意儿,影响范围太大,而且,差一点小细节啥的,污染的是整个数据源。而且,一些你不希望改动的效果,在正则里,坑都埋得特别深。如果仅仅是拿来看的,有点数据误差最多算闹眼睛,拿来背的话,还是老老实实在代码里写逻辑,起码自己能控制住自己该干啥干啥。正则这玩意儿,短小精悍,但处理逻辑能力不强。反正我自己是在文本编辑器里,使用正则处理点儿数据清洗的,在写代码生成数据规范文件的时候,轻易不用正则。尤其爬到beautifulsoup的时候,范围能准确的界定到某个标签的话,没必要用正则,直接自己老老实实的写处理逻辑。以上纯粹是个人习惯和个人观点吧。