金山词霸源数据,现代英汉综合大辞典、七国语言词典等

前辈们应该有做过,不过这次分享是源数据级别的,喜欢整洁的同学可以从头开始自定义词典。

  • 官方数据: 金山词霸产品中心-金山词霸PC版
    • 先下,2009 牛津版
    • 把词典数据复制出来
    • 再下,词典更新包:sp3
    • 还有 2007,2006 有很多不同的数据,一堆小词典(一百多个,包括有人反映一堆纰漏的 AHD 双解)
    • 有的词典用它的可靠性,有的用它的收词大
      • 可靠的词典不收录的词,能看到别的词典的可能有部分错误的解释也是一个参考
  • dwing 制作的词典提取 KSDrip.exe:隔壁的脚本,有帅气善良的人可以分享下吗? - 资源求助 - FreeMdict Forum
    • KSDrip.exe 还可以在 star dict tools (source forge 上, 星际词典工具包)
    • 注意不能用 powershell,要用命令行、管理员权限
    • 注意 加 /raw 提取未转码的源数据
    • 注意打开时 用 utf-16 LE 解码,再保存为 UTF-8 方便处理

感谢 @First_Last 帅气爱心的支持,不然大概不会有本次分享。

3 个赞

搞不定,官网的软件和词典包无法下载,找到一个2009特别版,有150部词典,但是没有AHD,主页面刚安装的时候显示有美国传统,联网一段时间之后没有显示提示了,
还搜索到金山词霸 2009 牛津版语音包 [voic_data.DAT,不联网既可朗读真人发音,1.59G]
金山词霸 2009 牛津版词典包 [dict_data.DAT,不联网既可使用全部词典,498MB]
都是09年的帖子,无法下载,

1 个赞

“迅雷”,广告是真多,风扇是真响,下载是真下。(想下的快甚至可以有钱的冲个VIP,有力气的可以刷个广告 :laughing:

我没仔细看,AHD 和 AHD 双解好几个版本里都有,建议安装完先把软件目录里的 offline dicts 源数据复制到别处,再打开软件研究词典信息、排版 =。=(地址在 plugin 或 resource 里找)

在此感谢 hua 提供好用、免费的网盘:

offline dicts是2016版本的文件夹,D:\Power Word Enterprise 2016\Kingsoft\Power Word Enterprise 2016\6.7.0.0315\resources\offlineDict\legacyofflineDict\dicts,理论上1#500.DIC就是美国传统词典,2016的版本才有,
2016企业版中有ox2的db文件


金山词霸2009特别版我下载的有150本词典,还找到一个2010典藏版,介绍说有168本,但是没资源

其实我翻金山词霸,是想找柯林斯双解的,没找到数据,金山安卓 app倒是有离线包,但要付年费,还不知道能不能破解。

牛津 OALD 双解有其他新数据,比如牛10 app。 :laughing: 这四万的收词量不像是新牛津2,应该是第二本牛津的意思(最早金山引入的是 AHD 双解,后来换到牛津双解(新牛津),后来采用 OALD 双解 了)

+1,但是不用找了,柯林斯双解是2012联网的词典,告辞,或者搞个脚本24小时查词, :rofl:




查词需要缓冲才显示
搞个脚本24小时查词, :rofl:

2009专业版也有美国传统,确认序号为1#500.DIC

iso我也下载了,就多一个33.2m的1#657.DIC,具体是什么词典未知,不显示
专业版146和牛津版151的少数词典是隔离的,例如1#500的传统美国在牛津版中不显示

1 个赞

金山、百度的柯林斯数据比较好(百度信息更全、但金山是另一个版本),但是我能力有限,找不到总词表,感觉拿个残缺的不如看看 pdf 或者英文版了。

百度的柯林斯数据,有 word_id,如果能找到数字接口,可能就拿到所有词的数据。比如


"word_id": "2",
"word_name": "a"

"word_id": "35968",
"word_name": "zombie"

我在整理其他词典。稍后可能更新这些数字的最新数据。比如

1#501,简明英汉词典,可能金山有更新(用了词典新格式),此类 .DIC 老词典的最高版本号只到 2009-02-11。

这是清理脚本的第一步,其他还没写。

import re

def extract_text_from_binary(file_path):
    """
    从二进制文件中提取被nul soh nul包围的UTF-8文本
    
    参数:
        file_path: 二进制文件路径
        
    返回:
        提取出的文本列表
    """
    with open(file_path, 'rb') as f:
        data = f.read()
    
    # 定义模式: nul(0x00) soh(0x01) nul(0x00) + 文本 + nul(0x00)
    pattern = re.compile(b'\x00\x01\x00(.*?)\x00', re.DOTALL)
    matches = pattern.findall(data)
    
    texts = []
    for match in matches:
        try:
            # 尝试解码为UTF-8
            text = match.decode('utf-8')
            texts.append(text)
        except UnicodeDecodeError:
            # 如果解码失败,跳过
            print(f'err {text}')
            continue
            
    return texts

# 使用示例
if __name__ == '__main__':
    extracted = extract_text_from_binary('../rsrc/1#501.da3')
    with open('../data/entries.txt', 'w', encoding='utf-8') as f:
        f.write('\n<jmyhv2025>\n'.join(extracted))
    print(len(extracted))

你怎么看出来是4w的?我拉到底确实是4.2w

我之前打开过啊,它有的词典不放在一个文件夹,所以大文件我都看了看。

1#652到1#658共7个词典,七国语言词典。(任一语言翻译至其他六国语言)

你找到了这个!我这几个版本里缺了657.

2.本词典安装过程中,“七国语言大辞典”中的韩语词典会消失,在词典管理中无法找到。但是仍旧可以查询韩文,不影响查询功能
应该就是韩文的,因为其他6国的文件大小与说明一一对应

1#657.part1.rar (15 MB)
1#657.part2.rar (15 MB)
1#657.part3.rar (3.2 MB)


你能解包就行,写出代码或者用法,回头让ai补全从导入到输出

1 个赞

有意思,深扒能吃到瓜。 :laughing:

update

网上有2016 企业版、以及很多其他版本,词典文件名-词典名对应表:

  • 1#500, AHD英英, 我记得500这在其它版本有时候代表 AHD 双解
  • 1#501, 简明英汉词典
  • 1#502, 简明汉英词典
  • 1#503, 现代汉语全功能词典
  • 1#504, 中华成语全功能词典
  • 1#505, 国际标准汉字大字典
  • 1#506, 缺
  • 1#507, 缺
  • 1#508, 缺
  • 1#509, 现代汉英综合大辞典
  • 1#510, 缺
  • 1#511, [名词委审定]汉英生理学名词
  • 未完待续

大部分词典是 .DIC 结尾。

有少部分词典 还额外 带了个 .dip 结尾。

盲猜是 picture,但有的是少部分词条重复,有的则是完全同样行数。有研究过的坛友吗?

你解开.dic啦?.dip如果是图片的话,怎么会有的才3kb,

金山词霸2009国庆典藏版,纯绿色版,解压即用 - PCBETA

金山词霸2010牛津版正在**,支持一下国产,整合了2010年所有的词典,功能也是一样的,和此版本相似的网上可能有..但是词典整合度绝对没有这个版本多了,实际上,此版本内置了168本词典,几乎

远景打不开了,就这个168本的没下载到,

啊?一楼有解 DIC 文件的说明啊。

168本吗?我这最多150来个(官网的2007),再加上牛津的8本,差不多吧。

除了 AHD 牛津,其他都是些不太出名的小词典,而且前辈们应该都做过,我是打算就做几本,做一本都要耗好长时间分析词头、页面。

我是为了自定义整合功能才找源数据的。一般用户直接下载使用就好,不管是软件还是 mdx 。

大佬好,有没有后缀为.dic格式的字典呢?求分享,找这个很久了,多看软件就是这种格式的字典数据,想找几个全点的汉语词典,汉英词典,后缀是dic格式的,谢谢

大哥好,求分享几个数据全点的后缀为.dic格式的字典,汉语词典,汉英词典,谢谢

没用过多看,本帖的 DIC 和 多看的 DIC 大概只是重名,并不互通,即 dictionary。

那有没有工具可以转换为适合多看阅读适用的dic格式的词典呢,谢谢