【2020.8.16】GoldenDict-2A11 - Tesseract+ OCR划词完美版 - macOS / Linux / Windows

dsch · 2020 年4 月 14 日 15:05

我想与您讨论一下，是否考虑将此goldendict fork标准化
因为其他github上的开源项目，您项目有一些不太标准化的地方
这样会带来一些问题，例如将来可能您没有时间维护，而因为commit被冲掉，后人不太容易接手这个项目等等

last_idol · 2020 年4 月 14 日 17:55

开始我也只是想用ANKI背个单词。

pesticide4 · 2020 年4 月 15 日 00:03

换到Tesseract 取词模式，取词软件就会自动退出。不知道是不是个例。

shan796 · 2020 年4 月 15 日 02:41

+1，我也是

pesticide4 · 2020 年4 月 15 日 03:22

Tesseract 我选择的目录还是OCR64，后面的语言列表是空的。

dsch · 2020 年4 月 15 日 03:49

给您的hotmail发了一封邮件，有空请查收

kapas · 2020 年4 月 15 日 05:37

只有我一个人有这问题？

无法访问此网站

onedrive.live.com 拒绝了我们的连接请求。

atauzki · 2020 年4 月 15 日 05:57

目前tesseract识别中文会自动加空格，不知道怎么回事。

atauzki · 2020 年4 月 15 日 06:12

我用的普通版训练数据，效果还是不错的

pesticide4 · 2020 年4 月 15 日 06:17

在大神指导下下英语和汉语的tessdata引擎，现在取词正常。

atauzki · 2020 年4 月 15 日 06:34

相关issue 中通过加 preserve_interword_spaces=1 来解决这个问题，应该是可行的，就是没去掉换行。
命令行参数：tesseract4.exe --oem 1 --psm 6 -l chi_sim -c preserve_interword_spaces=1
测试效果： Desktop.7z (242.3 KB)

Shawn · 2020 年4 月 15 日 15:18

好像得翻墙。。

Charles · 2020 年4 月 17 日 05:49

哥们，我们看懂啊。

将新下载的包解压出来一个叫
bin5_x64_msvc文件夹。

但是原来的词典文件里没有 bin5_x64_msvc的文件夹啊。
我怎么覆盖。。

Charles · 2020 年4 月 17 日 06:14

太好了。。。我都间接地搞了半个多月了，，到现在都没用上。。。。
最好能让我这种小白能明白怎么更新什么的。。其实不在乎ocr，但就是我平时用ebwing这个格式的词典。当然mdx是主打。但是没有ebwing那几本词典，对我学习影响很大，我就想，升级之后就应该能用了吧。。因为看楼主的更新日志里有修理过。

kapas · 2020 年4 月 17 日 08:58

就算是今天的最新版
点更新还是会提示有新版本

更新会出现这个
无法继续了。。。
也就是说，更新这个功能只对有捐赠的开放？
dic

Word · 2020 年4 月 17 日 09:22

新的整包发布了，算是完成了一个阶段的改进，nonwill 辛苦了，祝贺~

Charles · 2020 年4 月 17 日 11:27

谢谢已经更新成功了。
楼主测试的那几个词典我都有的。
在这一样加载不出来。。
要是解决不了就解决不了吧。。我也想到其他的代替办法。。楼主更新gd已经很辛苦了，我也很满足了。

还有一个小问题就是，之前的词典分组什么的都没有了。
我的分组文件还在，就是得重新分。

Charles · 2020 年4 月 17 日 12:06

2月的版本有三个。
花圈的两个都可以直接看到我以前的分组。。
剩下的那个看不到。

是我自己的问题吧？？

碧落黄泉 · 2020 年4 月 17 日 12:24

大版本更新，恭喜~感谢~

王绍军 · 2020 年4 月 17 日 13:28

表示强烈支持