做了个截图文字识别小工具,部分场景可代替 ABBYY Screenshot Reader

作者:V君 发布于:2020-7-1 19:52 Wednesday 分类:我的应用

TL;DR [ 下载 ][ 源代码 ]

点击查看原图

效果:读取剪贴板中的图片,使用Tesseract提取图片中的文字,适用于较清晰的扫描版PDF
限制:需要较高的对比度才能提高识别率,目前仅支持简体中文
    你可以修改源代码来指定另一种语言
环境:需要 .NET 4.6.1,在 Windows 10 应该不需要安装额外的组件
技巧:启用剪贴板监视,配合 Win10 的 Win+Shift+S 截图快捷键效果更佳

扯扯:

最近看一些扫描版的PDF,想摘录一些文字片段,又懒得重新打一遍,就基于Tesseract造了个图形界面。

在自己动手之前肯定少不了找一波别人做好的东西,甚至是付费的也可以去看看价格。说到这样的需求首先想到的就是ABBYY的截图识别工具,多年前还用过便携版,现在已经找不到了,去官网看到个人版售价 60 多,也不知道是如何授权的,在多个设备之间来回使用有没有限制。

干脆就把他一锅端,基于开源的库造个图形界面吧。造轮子之前也尝试过一两个别人做好的图形界面,他们都不理想,就搞出这个简单粗暴的东西了。

标签: Winform OCR

评论(0) 引用(0) 浏览(725)

自己动手用C#写无盘引导服务

作者:V君 发布于:2020-3-5 22:18 Thursday 分类:我的应用

发表一下最近折腾的东西,还没折腾完,因此不太TL;DR,再扯扯 (pia

[ 源代码 ] 目前只做了 DHCP、TFTP 和 iPXE 用的 HTTP 脚本服务。由于只是勉强能用,并不友好,因此尚未提供直接可用的二进制文件

— 使用方法:开始 —

将源代码弄下来,还原 NuGet 包,编译。导航到解决方案根目录的 bin 文件夹,我把它们的输出全都指向这里以方便编辑配置文件。

  • 编辑 DHCP 配置文件,正确设置监听地址
  • 编辑 TFTP 配置文件,正确设置监听地址、正确设置根路径
  • 编辑 HTTP 配置文件,正确设置监听前缀

源代码和下面的描述已经差别很大,DHCP池已经实现,等什么时候蛋疼再回来扯扯(被打x

启动这三者,不要忘记调整防火墙,插好网线启动从机,设置好 BIOS 使其从 PXE 启动。这时候还不能顺利引导,DHCP 服务会在 DhcpEntries 文件夹会自动生成 MAC 地址的对应的 json 配置文件,修改 default 配置文件设置除了IP之外的字段,如子网掩码、网关、DNS、启动文件名,然后再在对应 MAC 的配置文件里面指定 IP 地址,将 Enable 字段置为 true。注意字段 Enable 对 Default 配置文件无效。这时候从机应该能分配到 IP 地址,然后去 TFTP 获取启动文件了。本例使用 iPXE 作为引导。

本例提供的 iPXE 嵌入了【再次获取 DHCP 并将启动文件名作为 chain 目标】,可以将 chain 指定为 HTTP 的 URI,从服务器吐出脚本来实现动态执行。通过 iPXE 发出的 DHCP 请求带有 UserClass 字段,会自动生成配置文件,可以另外指定启动文件名为 HTTP 网址。

配置文件的叠加顺序为:Default → Default-【UserClass】 → MAC → MAC-【UserClass】。值为 null 的字段将被忽略。接下来就可以去 IpxeScripts 文件夹配置 iPXE 脚本了。引导部分到此结束,接下来的步骤是连接到存储服务器、启动系统了。

— 使用方法:结束 —

— 扩充:开始 —

常见的的无盘使用 iSCSI 方式连接到服务器,详细用法请参考示例或查阅 iPXE 使用手册。iSCSI 服务端可以使用 StarWind 或者 TalAloni/iSCSIConsole 亦或者是 我的fork。 我在 TalAloni 的基础上增加了大容量、可加载 RamDisk 和类似 StarWind 的 ibv 支持。能从一个镜像中创建分支快照,能让多台机器同时使用,有点像 VMware 的链接克隆。

— 扩充:结束 —

— 扯扯:开始 —

刚刚开始的时候我用了 TFTPD32、Grub4Dos、固定脚本的 iPXE、还有 Star wind。由于效果很不理想,得想办法解决。 TFTPD32 的毛病:分配IP地址时间较长、TFTP经常抽筋;StarWind 的毛病:服务进程经常崩溃;尽管 TalAloni 的实现很稳定,但它的界面简直就是个 DEMO,每次打开都要配置……后来深入了解 DHCP 协议,发现可以它很简洁,可扩展性又强,再了解 iPXE 动态脚本,这套组合拳就打出来了。

虽然 DHCP 和 TFTP 的协议都挺好搞,但 iSCSI 协议就复杂了,想让指定的 Target 能根据客户端 iqn 自动创建快照, 实现不同机器连接到同一个 Target,却是各自使用自己的快照,目前还在咕咕咕(

— 扯扯:结束 —

标签: 软件开发 C# HTTP PXE DHCP TFTP iPXE

评论(7) 引用(0) 浏览(1722)

[ALPHA]适用于Notepad++的Markdown插件

作者:V君 发布于:2019-5-12 6:04 Sunday 分类:我的应用

TL;DR

本站下载:[ 本体32位 ][ 本体64位 ]

源代码 ]

效果: 增加一个可拆分、停靠的插件窗口,呈现Markdown,可导出PDF
限制: 支持大部分常见的Markdown语法,数学符号,图表目前还不支持
环境: 已使用Notepad++ v7.6.6在Win10和Win7SP1确认
技巧: 等你来发现。。。

点击查看原图

使用方法:

1)确定Notepad++位数和版本,下载对应本体,解压到插件目录的NppMarkdownRenderer文件夹
2)启动Notepad++点击工具栏中的点击查看原图按钮,或通过插件菜单
NppMarkdownRenderer打开插件窗格

目前待实现的功能:
1) 样式表管理
2) PDF导出选项(如背景启用和边距)

FAQ:
1)Notepad++提示错误,无法加载插件。
 有两个常见的原因会导致插件无法顺利在Notepad++启动时加载。
 - 在Win7可能是缺少.NET,可从官方网站获取最新版。
 - 缺少CRT库,可以从官方网站下载安装或者直接将散装文件(32,64)解压到插件目录
2)插件窗口显示ERROR: Only Markdown(*.md) supported
 - 将当前文件保存成扩展名为.md的文件,然后任意变更或来回切换选项卡即可
3)崩溃、卡死和其他BUG
 - 请把重现步骤反馈到评论中
 - 具备开发能力者请调试源代码

扯扯:
 总算是发布了第一个看起来可以用了的版本,虽然还有许多功能只做了界面还没实现。。。
 其实没有Notepad++也可以运行
MarkdownRenderer.Test.exe来体验一番 乂目

标签: 软件开发 插件 C# Interop HybridApp

评论(0) 引用(0) 浏览(1477)

做了个LRC歌词日文汉字注音小工具

作者:V君 发布于:2019-2-21 13:04 Thursday 分类:我的应用

TL;DR

本体 ][ 源代码 ]

点击查看原图

效果: 在LRC歌词中的日文汉字后面自动加上平假名注音,用括号括起来
限制: 仅处理 [mm:ss.ff] 格式时间轴前缀的行,其他文字会直接追加到输出
环境: 只需要 .NET 2.0 就能运行,依赖MSIME.Japan 对于精简掉日文输入法的系统可能会挂
技巧: 左边窗格支持把文件拖放进去, 默认情况下以ANSI编码读取文本, 可以按住shift换utf8

扯扯:

自从发现了K米可以自动关联MP3旁边的LRC文件之后(之前只知道可以自己传,没想到还能带歌词),开始自己做时间轴歌词去练习K歌了. 最开始的时候是一个个汉字查字典找平假名注音,然后编辑本文. 多了就会烦,受不的时候才想起可以写个小工具来实现自动处理(真是码农失格!)

尽管已经把源代码放出来,但也可以扯扯实现过程的经历.

在动手之前,首先确认可行性,比如看看如何获取日文汉字的平假名注音,把想法拿去喂狗,然后咕狗吐出一篇博客文章详细地讲解了如何用MSIME.Japan实现获取日文汉字平假名.

但这是一整句转换,距离达成目的还差挺远.接着停下来想办法,或许用正则进一步处理可以实现.又去咕狗,找到了另一篇文章,讲解了如何使用正则判定日文平假名.

我去! 原来正则还有内置的字符集标识

  • \p{IsHiragana}判定日文平假名
  • \p{IsCJKUnifiedIdeographs}判定汉字

到目前为止,技术上的可行性已经确定,只需要把一个个[汉字+平假名]的组合分别喂给MSIME然后再抓出想要的部分,塞进括号并插入汉字后面就OK.

总结下来这个东西似乎并不太具备技术含量.. 嘛!问题解决了就好 _(:з」∠)_

接下来可以挑战一下卡拉OK视频字幕,虽然以前有做过,但那是手工操作的,那就让它自动化吧!

标签: 正则表达式 软件开发 C# Interop Winform

评论(2) 引用(0) 浏览(2379)

糊了一个蓝P站SNI反代,HOSTS+本地小程序解决无法访问Pixiv

作者:V君 发布于:2018-12-31 8:50 Monday 分类:我的应用

TL;DR

[ 本体 ][ 源代码 ]

效果: 解决Pixiv网站无法访问

用法:

 1)增加以下HOSTS

127.0.0.1 www.pixiv.net

127.0.0.1 accounts.pixiv.net

127.0.0.2 sketch.pixiv.net

 2)启动本体,用浏览器访问 https://www.pixiv.net/ 并忽略证书错误

限制:尚不明确,目前只检查了主站还有直播,登录也能正常进行

环境:需要.NET 4.0,Win7 以上应该能用,需要管理员权限(监听443端口)


不扯,天太冷手快冻僵了 _(:з」∠)_

标签: C# HTTPS

评论(0) 引用(0) 浏览(1904)

Powered by emlog 去你妹的备案 sitemap