今天尝试了google的一个用于图片文字识别的Tesseract-ocr,我将它用于识别验证码。结果惨不忍睹。
首先你需要在github上获取当前最新的tesseract-3.04.00.tar
https://github.com/tesseract-ocr/tesseract
下载、解压后找到vs2010文件夹
如图用visual studio打开tesseract.sln
如图然后在程序包管理器控制台中输入“Install-Package Tesseract”
(程序包管理器控制台 在 工具-》NuGet包管理器-》程序包管理器控制台)在回到vs2010文件夹下,就会发现多了几个文件夹,其中packages文件夹就是我们需要的。
如图
其中Tesseract.dll就是我们可以直接引用的。在我的项目中添加引用Tesseract.dll,并添加下列代码
using (TesseractEngine engine =

本文介绍了如何在.NET项目中集成和使用Tesseract OCR进行图片文字识别,特别是针对验证码的识别。通过下载Tesseract源码,使用Visual Studio打开解决方案,安装必要的NuGet包,设置识别语言数据文件,最终实现对英文和汉字的文字识别。然而,对于复杂验证码(如苹果验证码),Tesseract的识别准确率较低,但在简单场景下识别英文文本效果较好。

3810

被折叠的 条评论
为什么被折叠?



