OCR 工具能把图片上的字符转换为可以选择复制的文字,是把纸质文件转换为电子版,摘录纸媒文字段落等场景利器,能免去手打的痛苦。这是一个历史悠久的技术了,网上有数不清的 OCR 工具,然而从技术层面上来说 PearOCR 应该是独树一帜,下面就来说说 PearOCR 有什么特点吧
作为一个有轻微洁癖的电脑用户,每次需要下载软件到电脑/手机上的时候总是十分纠结,既担心会生成一堆文件占用硬盘储存空间,又担心可能有病毒木马,还担心想卸载的时候卸不干净,最重要的是经常装了软件用了一两次之后就不再用又忘记卸载,导致一直有文件在设备上。而使用 PearOCR 则完全不用担心这些问题,PearOCR 只是一个网页,用浏览器打开就可以使用,不需要用的时候关闭网页就行,不用担心文件残留占用硬盘的问题(和所有的网页一样,PearOCR 也会有缓存文件,不过这是由浏览器自动管理的,不需要处理)
上面所说的网页应用其实很多 OCR 网站都可以做到,而真正让 PearOCR 独树一帜的技术就是无需上传数据到服务器识别,所有过程都是在浏览器上运算。OCR 识别不同于其他图像处理技术,需要庞大的运算过程,其他 OCR 工具要么就是下载巨大的运算软件到设备上进行本地运算,要么就是把图片传到服务器由服务器完成运算再传回到终端设备上(目前其他网页 OCR 识别均使用此方法)。把图片传到服务器的话会有数据泄露的隐患,大数据时代,数据的重要性让我不放心把数据交给云服务商。不同于其他在线 OCR 网站凭厂商良心保证数据安全,PearOCR 根本没有数据上传因此完全没有数据泄露的问题。
一般的 OCR 工具识别到文字之后,结果呈现的方式都是重新进行排版,比较好的工具会尽量还原排版样式,不过由于文本排版方式和原图的巨大差异,通常不能很好的还原,如果原图的文本排版比较杂乱无章,需要在识别结果中找到所需的文本段还是比较麻烦的,而 PearOCR 可以把结果直接 “粘” 在原图上,一眼就能选到所需的文本段落。
最开始的 PearOCR 是没有对移动端进行适配的,因为我主要的使用场景只在 PC,后来发现使用手机访问 PearOCR 的用户也不少,在 2.0 版本重构了整个 UI,对移动端做了适配,现在已经能用手机浏览器访问并使用 PearOCR 了
PearOCR 在设计的时候一直都注重降低使用成本,优化用户体验,在选取图像的方式上除了传统的打开文件对话框外,还支持读取剪切板,Ctrl+V 粘贴图片,这是我最常用的方式,通过 QQ,微信或其他工具截完图后,在 PearOCR 网页上按下 Ctrl+V 即可对截到的图进行文字识别,十分快捷并且不需要保存截图为临时文件。
除了上面所说几点外,PearOCR 还有很多特性,比如导出 pdf 支持隐藏文字,导出 docx/txt,易错字高亮提示等等特性等你来体验。
最初开发 PearOCR 的时候其实心里是挺没底的,不知道能不能做出来,做出来的效果又好不好。因为在浏览器上跑 OCR 算法是一个很大的技术挑战,作为一个网页,首先文件不能太大,一个网页几十上百 M 的话还没等加载完成就被关闭了,而 OCR 的运算程序一百 M 都算是小的了。其次浏览器作为一个沙箱,其运行效率要比原生软件低不少,尤其对于 OCR 这种运算密集型任务,整体效率要低 50%。最开始的版本用的是开源的运算引擎,尽量精简后移植到浏览器上用也有 70 多 M,识别一张 512x512 的图片要一分多钟,后来决定自己完全重写运算引擎,锱铢必较地减少空间占用,一点一点地提升运算效率,其中遇到瓶颈时的沮丧气馁,完成技术突破时的喜悦振奋,相信做过技术攻关的人都能体会个中滋味。最后功夫不负有心人,在多次优化迭代之后,运算引擎的体积降到了 6M,识别耗时也在几秒内,已经具备了很强的实用性。
对于 PearOCR 来说,目前没有产生任何盈利,完全是用爱发电的情况,项目是始于对技术的挑战与热爱,因此没有想好盈利方式。不过作者有其他收入来源,生活不成问题,即使没有盈利也能长期维持。当然,良好的盈利情况对产品功能的增强和更新十分重要,也许以后会推出更强的功能同时进行适当的收费。