卫生院心电报告识别
ocr_images | ||
ocr_results | ||
special_images | ||
src/main | ||
target | ||
tessdata | ||
test_images | ||
test_tmp | ||
礼泉县裴寨卫生院 | ||
compile_and_run.bat | ||
config.yaml | ||
ocr_monitor.log | ||
pom.xml | ||
re-build-start.bat | ||
README.md | ||
requirements.txt | ||
run_java.bat | ||
run.bat | ||
stop.bat |
图片OCR监控工具
这是一个用于监控指定文件夹中的图片文件,并自动进行OCR文字识别的工具。
功能特点
- 自动监控指定文件夹中的图片文件
- 支持多种图片格式(PNG、JPG、JPEG、BMP、TIFF)
- 每两分钟检查一次新文件
- 支持中英文识别
- 可配置的输出目录和关键词映射
- 详细的日志记录
安装要求
- Python 3.7+
- Tesseract-OCR
- 相关Python包(见requirements.txt)
安装步骤
-
安装Tesseract-OCR:
- Windows: 下载并安装 Tesseract-OCR
- 确保将Tesseract添加到系统环境变量中
-
安装Python依赖:
pip install -r requirements.txt
配置文件
配置文件支持YAML或JSON格式,示例配置如下:
"文件夹路径":
output_dir: "输出目录"
language: "chi_sim+eng"
key_mapping:
"关键词1": "映射值1"
"关键词2": "映射值2"
使用方法
- 创建配置文件(config.yaml或config.json)
- 运行程序:
python image_ocr_monitor.py
注意事项
- 确保Tesseract-OCR正确安装并配置
- 确保有足够的磁盘空间存储识别结果
- 程序会在当前目录下创建ocr_monitor.log日志文件