Spaces:

SFEREWQW
/

114514

Runtime error

App Files Files Community

114514 / docs /zh_cn /algorithm /ocr.rst

SFEREWQW

Upload 395 files

18e4106 verified 5 months ago

raw

history blame contribute delete

2.15 kB

	.. _algorithm_ocr:
	==========================
	光学字符识别(OCR)算法
	==========================

	简介
	====================

	光学字符识别(OCR)是指对图片中的文字块进行检测和识别。


	模型使用
	====================

	在配置好环境的情况下，直接执行 ``scripts/ocr.py`` 即可运行OCR算法脚本。

	.. code:: shell

	$ python scripts/ocr.py --config configs/ocr.yaml


	模型配置
	--------------------

	.. code:: yaml

	inputs: assets/demo/ocr
	outputs: outputs/ocr
	visualize: True
	tasks:
	ocr:
	model: ocr_ppocr
	model_config:
	lang: ch
	show_log: True
	det_model_dir: models/OCR/PaddleOCR/det/ch_PP-OCRv4_det
	rec_model_dir: models/OCR/PaddleOCR/rec/ch_PP-OCRv4_rec
	det_db_box_thresh: 0.3

	- inputs/outputs: 分别定义输入文件路径和输出路径
	- visualize: 是否对模型结果进行可视化，可视化结果会保存在outputs目录下。
	- tasks: 定义任务类型，当前只包含一个OCR任务
	- model: 定义具体模型类型, 当前仅提供PaddleOCR模型
	- model_config: 定义模型配置
	- lang: 定义语种，默认语种ch支持中英文文字的检测和识别
	- show_log: 是否打印检测识别过程的日志
	- det_model_dir: 定义PaddleOCR检测模型的路径，指定路径不存在时，会自动下载模型权重到该路径
	- rec_model_dir: 定义PaddleOCR识别模型的路径，指定路径不存在时，会自动下载模型权重到该路径
	- det_db_box_thresh: 检测框筛选阈值，置信度低于该阈值的框会被舍弃


	多样化输入支持
	--------------------

	PDF-Extract-Kit中的OCR脚本支持 ``单个图像/PDF文件`` 、 ``包含图像/PDF文件的目录`` 等输入形式。


	可视化结果查看
	--------------------

	当config文件中 ``visualize`` 设置为 ``True`` 时，可视化结果会保存在 ``outputs`` 参数指定的目录下。

	.. note::

	可视化可以方便对模型结果进行分析，但当进行大批量任务时，建议关掉可视化(设置 ``visualize`` 为 ``False`` )，减少内存和磁盘占用。