Flow/OCR

卫生院心电报告识别

Go to file

yy2205 9ccde44fbc 提交所有文件		2025-05-13 11:07:14 +08:00
ocr_images	提交所有文件	2025-05-13 11:07:14 +08:00
ocr_results	提交所有文件	2025-05-13 11:07:14 +08:00
special_images	提交所有文件	2025-05-13 11:07:14 +08:00
src/main	提交所有文件	2025-05-13 11:07:14 +08:00
target	提交所有文件	2025-05-13 11:07:14 +08:00
tessdata	提交所有文件	2025-05-13 11:07:14 +08:00
test_images	提交所有文件	2025-05-13 11:07:14 +08:00
test_tmp	提交所有文件	2025-05-13 11:07:14 +08:00
礼泉县裴寨卫生院	提交所有文件	2025-05-13 11:07:14 +08:00
compile_and_run.bat	提交所有文件	2025-05-13 11:07:14 +08:00
config.yaml	提交所有文件	2025-05-13 11:07:14 +08:00
ocr_monitor.log	提交所有文件	2025-05-13 11:07:14 +08:00
pom.xml	提交所有文件	2025-05-13 11:07:14 +08:00
re-build-start.bat	提交所有文件	2025-05-13 11:07:14 +08:00
README.md	init	2025-05-13 11:04:08 +08:00
requirements.txt	提交所有文件	2025-05-13 11:07:14 +08:00
run_java.bat	提交所有文件	2025-05-13 11:07:14 +08:00
run.bat	提交所有文件	2025-05-13 11:07:14 +08:00
stop.bat	提交所有文件	2025-05-13 11:07:14 +08:00

README.md

图片OCR监控工具

这是一个用于监控指定文件夹中的图片文件，并自动进行OCR文字识别的工具。

功能特点

自动监控指定文件夹中的图片文件
支持多种图片格式（PNG、JPG、JPEG、BMP、TIFF）
每两分钟检查一次新文件
支持中英文识别
可配置的输出目录和关键词映射
详细的日志记录

安装要求

Python 3.7+
Tesseract-OCR
相关Python包（见requirements.txt）

安装步骤

安装Tesseract-OCR：
- Windows: 下载并安装 Tesseract-OCR
- 确保将Tesseract添加到系统环境变量中
安装Python依赖：
```
pip install -r requirements.txt
```

配置文件

配置文件支持YAML或JSON格式，示例配置如下：

"文件夹路径":
  output_dir: "输出目录"
  language: "chi_sim+eng"
  key_mapping:
    "关键词1": "映射值1"
    "关键词2": "映射值2"

使用方法

创建配置文件（config.yaml或config.json）
运行程序：
```
python image_ocr_monitor.py
```

注意事项

确保Tesseract-OCR正确安装并配置
确保有足够的磁盘空间存储识别结果
程序会在当前目录下创建ocr_monitor.log日志文件