6lj6
2025 年6 月 22 日 12:17
1
前辈们应该有做过,不过这次分享是源数据级别的,喜欢整洁的同学可以从头开始自定义词典。
官方数据: 金山词霸产品中心-金山词霸PC版
先下,2009 牛津版
把词典数据复制出来
再下,词典更新包:sp3
还有 2007,2006 有很多不同的数据,一堆小词典(一百多个,包括有人反映一堆纰漏的 AHD 双解)
有的词典用它的可靠性,有的用它的收词大
可靠的词典不收录的词,能看到别的词典的可能有部分错误的解释也是一个参考
dwing 制作的词典提取 KSDrip.exe:隔壁的脚本,有帅气善良的人可以分享下吗? - 资源求助 - FreeMdict Forum
KSDrip.exe 还可以在 star dict tools (source forge 上, 星际词典工具包)
注意不能用 powershell,要用命令行、管理员权限
注意 加 /raw 提取未转码的源数据
注意打开时 用 utf-16 LE 解码,再保存为 UTF-8 方便处理
感谢 @First_Last 帅气爱心的支持,不然大概不会有本次分享。
3 个赞
kking
2025 年6 月 22 日 17:39
2
搞不定,官网的软件和词典包无法下载,找到一个2009特别版,有150部词典,但是没有AHD,主页面刚安装的时候显示有美国传统,联网一段时间之后没有显示提示了,
还搜索到金山词霸 2009 牛津版语音包 [voic_data.DAT,不联网既可朗读真人发音,1.59G]
金山词霸 2009 牛津版词典包 [dict_data.DAT,不联网既可使用全部词典,498MB]
都是09年的帖子,无法下载,
1 个赞
6lj6
2025 年6 月 22 日 21:39
3
kking:
软件和词典包
“迅雷”,广告是真多,风扇是真响,下载是真下。(想下的快甚至可以有钱的冲个VIP,有力气的可以刷个广告 )
kking:
联网一段时间之后没有显示提示了,
我没仔细看,AHD 和 AHD 双解好几个版本里都有,建议安装完先把软件目录里的 offline dicts 源数据复制到别处,再打开软件研究词典信息、排版 =。=(地址在 plugin 或 resource 里找)
在此感谢 hua 提供好用、免费的网盘:
kking
2025 年6 月 22 日 22:17
4
6lj6:
offline dicts
offline dicts是2016版本的文件夹,D:\Power Word Enterprise 2016\Kingsoft\Power Word Enterprise 2016\6.7.0.0315\resources\offlineDict\legacyofflineDict\dicts,理论上1#500.DIC就是美国传统词典,2016的版本才有,
2016企业版中有ox2的db文件
金山词霸2009特别版我下载的有150本词典,还找到一个2010典藏版,介绍说有168本,但是没资源
6lj6
2025 年6 月 22 日 22:25
5
kking:
ox2的db文件
其实我翻金山词霸,是想找柯林斯双解的,没找到数据,金山安卓 app倒是有离线包,但要付年费,还不知道能不能破解。
牛津 OALD 双解有其他新数据,比如牛10 app。 这四万的收词量不像是新牛津2,应该是第二本牛津的意思(最早金山引入的是 AHD 双解,后来换到牛津双解(新牛津),后来采用 OALD 双解 了)
kking
2025 年6 月 22 日 23:49
6
6lj6:
是想找柯林斯双解的
+1,但是不用找了,柯林斯双解是2012联网的词典,告辞,或者搞个脚本24小时查词,
查词需要缓冲才显示
搞个脚本24小时查词,
kking:
理论上1#500.DIC就是美国传统词典
2009专业版也有美国传统,确认序号为1#500.DIC
kking:
还搜索到金山词霸 2009 牛津版语音包 [voic_data.DAT,不联网既可朗读真人发音,1.59G]
金山词霸 2009 牛津版词典包 [dict_data.DAT,不联网既可使用全部词典,498MB]
iso我也下载了,就多一个33.2m的1#657.DIC,具体是什么词典未知,不显示
专业版146和牛津版151的少数词典是隔离的,例如1#500的传统美国在牛津版中不显示
1 个赞
6lj6
2025 年6 月 23 日 00:09
7
金山、百度的柯林斯数据比较好(百度信息更全、但金山是另一个版本),但是我能力有限,找不到总词表,感觉拿个残缺的不如看看 pdf 或者英文版了。
百度的柯林斯数据,有 word_id,如果能找到数字接口,可能就拿到所有词的数据。比如
"word_id": "2",
"word_name": "a"
"word_id": "35968",
"word_name": "zombie"
6lj6
2025 年6 月 23 日 00:16
8
我在整理其他词典。稍后可能更新这些数字的最新数据。比如
1#501,简明英汉词典,可能金山有更新(用了词典新格式),此类 .DIC 老词典的最高版本号只到 2009-02-11。
这是清理脚本的第一步,其他还没写。
import re
def extract_text_from_binary(file_path):
"""
从二进制文件中提取被nul soh nul包围的UTF-8文本
参数:
file_path: 二进制文件路径
返回:
提取出的文本列表
"""
with open(file_path, 'rb') as f:
data = f.read()
# 定义模式: nul(0x00) soh(0x01) nul(0x00) + 文本 + nul(0x00)
pattern = re.compile(b'\x00\x01\x00(.*?)\x00', re.DOTALL)
matches = pattern.findall(data)
texts = []
for match in matches:
try:
# 尝试解码为UTF-8
text = match.decode('utf-8')
texts.append(text)
except UnicodeDecodeError:
# 如果解码失败,跳过
print(f'err {text}')
continue
return texts
# 使用示例
if __name__ == '__main__':
extracted = extract_text_from_binary('../rsrc/1#501.da3')
with open('../data/entries.txt', 'w', encoding='utf-8') as f:
f.write('\n<jmyhv2025>\n'.join(extracted))
print(len(extracted))
6lj6
2025 年6 月 23 日 00:17
10
我之前打开过啊,它有的词典不放在一个文件夹,所以大文件我都看了看。
6lj6
2025 年6 月 23 日 00:36
11
kking:
33.2m的1#657.DIC
1#652到1#658共7个词典,七国语言词典。(任一语言翻译至其他六国语言)
你找到了这个!我这几个版本里缺了657.
kking
2025 年6 月 23 日 07:27
12
2.本词典安装过程中,“七国语言大辞典”中的韩语词典会消失,在词典管理中无法找到。但是仍旧可以查询韩文,不影响查询功能
应该就是韩文的,因为其他6国的文件大小与说明一一对应
1#657.part1.rar (15 MB)
1#657.part2.rar (15 MB)
1#657.part3.rar (3.2 MB)
你能解包就行,写出代码或者用法,回头让ai补全从导入到输出
1 个赞
6lj6
2025 年6 月 23 日 07:32
13
有意思,深扒能吃到瓜。
update
网上有2016 企业版、以及很多其他版本,词典文件名-词典名对应表:
1#500, AHD英英, 我记得500这在其它版本有时候代表 AHD 双解
1#501, 简明英汉词典
1#502, 简明汉英词典
1#503, 现代汉语全功能词典
1#504, 中华成语全功能词典
1#505, 国际标准汉字大字典
1#506, 缺
1#507, 缺
1#508, 缺
1#509, 现代汉英综合大辞典
1#510, 缺
1#511, [名词委审定]汉英生理学名词
未完待续
6lj6
2025 年6 月 25 日 11:33
14
大部分词典是 .DIC 结尾。
有少部分词典 还额外 带了个 .dip 结尾。
盲猜是 picture,但有的是少部分词条重复,有的则是完全同样行数。有研究过的坛友吗?
kking
2025 年6 月 25 日 12:42
15
你解开.dic啦?.dip如果是图片的话,怎么会有的才3kb,
金山词霸2010牛津版正在**,支持一下国产,整合了2010年所有的词典,功能也是一样的,和此版本相似的网上可能有..但是词典整合度绝对没有这个版本多了,实际上,此版本内置了168本词典,几乎
远景打不开了,就这个168本的没下载到,
6lj6
2025 年6 月 25 日 12:51
16
啊?一楼有解 DIC 文件的说明啊。
168本吗?我这最多150来个(官网的2007),再加上牛津的8本,差不多吧。
除了 AHD 牛津,其他都是些不太出名的小词典,而且前辈们应该都做过,我是打算就做几本,做一本都要耗好长时间分析词头、页面。
我是为了自定义整合功能才找源数据的。一般用户直接下载使用就好,不管是软件还是 mdx 。
haihai
2025 年6 月 26 日 00:59
17
大佬好,有没有后缀为.dic格式的字典呢?求分享,找这个很久了,多看软件就是这种格式的字典数据,想找几个全点的汉语词典,汉英词典,后缀是dic格式的,谢谢
haihai
2025 年6 月 26 日 01:01
18
大哥好,求分享几个数据全点的后缀为.dic格式的字典,汉语词典,汉英词典,谢谢
6lj6
2025 年6 月 26 日 03:20
19
没用过多看,本帖的 DIC 和 多看的 DIC 大概只是重名,并不互通,即 dictionary。
haihai
2025 年6 月 26 日 04:20
20
那有没有工具可以转换为适合多看阅读适用的dic格式的词典呢,谢谢