正则表达式是大文本处理和数据挖掘的基本功,建议先学会正则表达式之后再碰mdx制作。不会正则就想制作mdx,相当于连毛笔怎么拿都不会就要写书法了,对原材料就只能干看着,什么也做不了。
以前试过不会用正则表示式只用替换作epub,能体会。
学习正则表达式我只推荐《精通正则表达式》(第3版),虽然不是特别地易读,但“精通”二字绝对名副其实。想要入门mdx制作对于正则表达式水平的要求不低。
你转成excel已经去掉文本格式了,这样的话不如直接存为txt格式,再转mdx就很容易了。
新手的话,建议先别碰正则,上 过大学都考过计算机2级,过2级的话,都多少知道点儿c语言。有对应的字符串替换概念和字符串处理能力。然后看看html啥的,知道不同的页面显示标签都啥意思。再多少懂点儿css的,知道一些html标签的替换概念。大概字典的页面显示效果类的东西知道差不多了。愿意深究的话,再看看js,还愿意抬杠的话,折腾折腾python一类的脚本,不愿意的话,就可以开始熟悉一下论坛里的字典制作工具了,基本上,不自己造轮子的话,这个阶段也够用了。至于正则啥的,遇到个不熟悉的字典,先大致看一下对应的解析出来的txt啥文件结构,内部的html都怎么组织起来的,然后再大致看一下css,都有啥在css里需要处理的标签,主要是通过css大致知道需要注入的标签的位置。然后再折腾正则,我对待正则的态度是,除非你对需要处理的文档的内部结构特别熟悉,用正则的话,能保证百分之百正确,否则的话,一旦处理过程中有没遇到没想到没见过的标签断点或者数据格式啥的,基本上用正则等于是数据清洗的过程中,人为的制造数据污染。而且正则内部用来处理逻辑的功能有限,也不适合处理太复杂的清洗逻辑,或者说太复杂的清洗逻辑拿正则折腾,可读性不好,尤其操蛋的是正则这玩意儿,调试起来特别别扭,折腾正则前,最后自己折腾个调试工具,在调试工具上比划差不多了,再处理自己的文档。反正我自己是简单的处理逻辑拿正则,复杂点儿的,基本上都自己写脚本。同时,建议,自己机器上弄个内存虚拟硬盘工具,这年月内存都大,拿一段内存空间映射出来一个虚拟硬盘盘符的,给需要处理的txt映射到这段内存虚拟硬盘里,折腾正则的过程中,再弄好点儿文件处理意义上的回溯回退机制,多少能省点儿固态硬盘,或者利用好em一类的好一点顺手一点的文本编辑器折腾好正则手动递归,不断的extract。小文本的话,正则无所谓顺手不顺手,折腾不爽了,自己肉眼都可见正则处理不对的地方,文本量真的大的话,弄出来正则数据污染的话,基本上等于大海捞针,那个时候才闹心呢。。。,一般智商30的猪脑袋还精神病的医疗垃圾这个段位的逼扯俺啥都有,你智商够用的话,应该能听懂,都不是啥难事儿。
现在我肯定是没法用正则的,我打算先在论坛翻一翻,把mdxbuilder这个工具的功能弄熟,再找些工具来用。至于正则和python先学点,感觉玩计算机不会点这类东西各种方面都很难办。而且我现在不打算做辞典做得有多“精致”,我现在的目标是能用够用就行,把一些很基础的功能做出来就够了,总之先把东西做出来,其他的东西暂时就不讲究了。
先别核计用啥工具,重点先给基本的术语啥弄明白,工具啥的,至少字典类的,都是基于固定到死板的数据格式的,给一些领域内的术语折腾明白,知道大神们说的都是啥,自己有问题,能准确的描述出来,也方便别人管闲事儿的搭把手。工具啥时候都不是重点,人是权驾工具的,不是变成工具。包括很多计算机的专业书籍,很简单的很多事儿,非得弄一堆高大上的术语描述。至于其他的,跟现在的世道差不多,值钱的不是工具平台啥的,值钱的是数据。大数据模型啥的,平台有人建,或者很多现成的平台,不差钱的话,堆硬件也不难,但巧妇难为无米之炊的,用来训练的数据,这年月才是愁人的。折腾过论坛的话,如果仅仅只是拿来当个电子字典的话,实际价值不大,这年月想查个词啥的,简单的网络搜索功能就行。真正有价值这块,是电子字典背后对应的数据,怎么用好这些数据,自己入坑之后,自己张罗好。反正我是没少挖论坛里的数据。。。