做了个截图文字识别小工具,部分场景可代替 ABBYY Screenshot Reader

作者:V君 发布于:2020-7-1 19:52 Wednesday 分类:我的应用

TL;DR [ 下载 ][ 源代码 ]

点击查看原图

效果:读取剪贴板中的图片,使用Tesseract提取图片中的文字,适用于较清晰的扫描版PDF
限制:需要较高的对比度才能提高识别率,目前仅支持简体中文
    你可以修改源代码来指定另一种语言
环境:需要 .NET 4.6.1,在 Windows 10 应该不需要安装额外的组件
技巧:启用剪贴板监视,配合 Win10 的 Win+Shift+S 截图快捷键效果更佳

扯扯:

最近看一些扫描版的PDF,想摘录一些文字片段,又懒得重新打一遍,就基于Tesseract造了个图形界面。

在自己动手之前肯定少不了找一波别人做好的东西,甚至是付费的也可以去看看价格。说到这样的需求首先想到的就是ABBYY的截图识别工具,多年前还用过便携版,现在已经找不到了,去官网看到个人版售价 60 多,也不知道是如何授权的,在多个设备之间来回使用有没有限制。

干脆就把他一锅端,基于开源的库造个图形界面吧。造轮子之前也尝试过一两个别人做好的图形界面,他们都不理想,就搞出这个简单粗暴的东西了。

标签: Winform OCR

评论(0) 引用(0) 浏览(93)

Powered by emlog 去你妹的备案 sitemap