卫生院心电报告识别
| ocr_images | ||
| ocr_results | ||
| special_images | ||
| src/main | ||
| target | ||
| tessdata | ||
| test_images | ||
| test_tmp | ||
| 礼泉县裴寨卫生院 | ||
| compile_and_run.bat | ||
| config.yaml | ||
| ocr_monitor.log | ||
| pom.xml | ||
| re-build-start.bat | ||
| README.md | ||
| requirements.txt | ||
| run_java.bat | ||
| run.bat | ||
| stop.bat | ||
图片OCR监控工具
这是一个用于监控指定文件夹中的图片文件,并自动进行OCR文字识别的工具。
功能特点
- 自动监控指定文件夹中的图片文件
- 支持多种图片格式(PNG、JPG、JPEG、BMP、TIFF)
- 每两分钟检查一次新文件
- 支持中英文识别
- 可配置的输出目录和关键词映射
- 详细的日志记录
安装要求
- Python 3.7+
- Tesseract-OCR
- 相关Python包(见requirements.txt)
安装步骤
-
安装Tesseract-OCR:
- Windows: 下载并安装 Tesseract-OCR
- 确保将Tesseract添加到系统环境变量中
-
安装Python依赖:
pip install -r requirements.txt
配置文件
配置文件支持YAML或JSON格式,示例配置如下:
"文件夹路径":
output_dir: "输出目录"
language: "chi_sim+eng"
key_mapping:
"关键词1": "映射值1"
"关键词2": "映射值2"
使用方法
- 创建配置文件(config.yaml或config.json)
- 运行程序:
python image_ocr_monitor.py
注意事项
- 确保Tesseract-OCR正确安装并配置
- 确保有足够的磁盘空间存储识别结果
- 程序会在当前目录下创建ocr_monitor.log日志文件