【2020.8.16】GoldenDict-2A11 - Tesseract+ OCR划词完美版 - macOS / Linux / Windows

我想与您讨论一下,是否考虑将此goldendict fork标准化
因为其他github上的开源项目,您项目有一些不太标准化的地方
这样会带来一些问题,例如将来可能您没有时间维护,而因为commit被冲掉,后人不太容易接手这个项目等等

1 个赞

开始我也只是想用ANKI背个单词。

换到Tesseract 取词模式,取词软件就会自动退出。不知道是不是个例。

+1,我也是

Tesseract 我选择的目录还是OCR64,后面的语言列表是空的。

给您的hotmail发了一封邮件,有空请查收

只有我一个人有这问题?

无法访问此网站

onedrive.live.com 拒绝了我们的连接请求。

目前tesseract识别中文会自动加空格,不知道怎么回事。

我用的普通版训练数据,效果还是不错的

在大神指导下下英语和汉语的tessdata引擎,现在取词正常。

相关issue 中通过加 preserve_interword_spaces=1 来解决这个问题,应该是可行的,就是没去掉换行。
命令行参数:tesseract4.exe --oem 1 --psm 6 -l chi_sim -c preserve_interword_spaces=1
测试效果: Desktop.7z (242.3 KB)

2 个赞

好像得翻墙。。

哥们,我们看懂啊。

将新下载的包解压出来一个叫
bin5_x64_msvc文件夹。

但是原来的词典文件里没有 bin5_x64_msvc的文件夹啊。
我怎么覆盖。。

太好了。。。我都间接地搞了半个多月了,,到现在都没用上。。。。
最好能让我这种小白能明白怎么更新什么的。。其实不在乎ocr,但就是我平时用ebwing这个格式的词典。当然mdx是主打。但是没有ebwing那几本词典,对我学习影响很大,我就想,升级之后就应该能用了吧。。因为看楼主的更新日志里有修理过。

就算是今天的最新版
点更新还是会提示有新版本

更新会出现这个
无法继续了。。。
也就是说,更新这个功能只对有捐赠的开放?
dic

新的整包发布了,算是完成了一个阶段的改进,nonwill 辛苦了,祝贺~ :+1:

谢谢已经更新成功了。
楼主测试的那几个词典我都有的。
在这一样加载不出来。。
要是解决不了就解决不了吧。。我也想到其他的代替办法。。楼主更新gd已经很辛苦了,我也很满足了。

还有一个小问题就是,之前的词典分组什么的都没有了。
我的分组文件还在,就是得重新分。

image

2月的版本有三个。
花圈的两个都可以直接看到我以前的分组。。
剩下的那个看不到。

是我自己的问题吧??

大版本更新,恭喜~感谢~

表示强烈支持