可以采用ORC文字识别软件来提取,常见的软件有:
中文识别:清华文通TH-OCR XP(8.0);汉王文本王5800;尚书七号OCR.
英文识别:ABBYY FineReader70pro;Cuneiform pro v6;Scansoft OmniPage SE;Scansoft PaperPort v9.0.
中英文混合识别:清华文通TH-OCR XP(8.0);汉王文本王5800;尚书七号OCR.
中文识别:汉王文本王5800更好一些.
中英文混合识别方面:TH-OCR XP(8.0)识别率更高一些,汉王文本王5800稍差一些,尤其是o与0识别出错时更多,但版面还原和纯中文识别率比较好.
纯英文识别方面:Cuneiform pro v6识别速度最快,ABBYY FineReader70pro版面还原识别率比较好;Scansoft PaperPort v9.0处理图像能力强.
以上目前网上都有破解版本.
清华文通TH-OCR9.0和汉王文本王6800目前网上都没有破解版本.