|
发表于 2018-1-2 22:35:20
|
显示全部楼层
本帖最后由 Fireflying 于 2018-1-2 23:02 编辑
这属于OCR——光学字符识别系统,很多扫描仪的软件也带有,还有独立的专门进行OCR的软件,当然OCR软件也有一定的出错率,这属于另一个话题了。你可以去百度“OCR软件”,就可以把图片里面的文字识别并转换成文本,而且没有页数限制;至于PDF,可以先用截图方式转成图片再识别。我那回复只是针对你首贴的方法而言的,用你首贴的方法确实无法对付图片格式的PDF。
其实,广义上讲,如果要翻译,对于文本来源,只要把文本复制出来,然后用翻译软件进行处理即可。对于图形格式的,有现成的ORC软件可以把图形里面的文字识别成并转换成字符格式,然后再用翻译软件进行处理。并不仅限于PDF。
现在计算机OCR技术的应用已经非常普遍了,最常见的应用就比方住宅小区停车场自动道闸上的视频车牌识别功能,就是用摄像机拍摄车牌,然后用计算机对图片里面的文字进行OCR识别,把图片识别转换为文本,跟数据库里面登记的车牌进行核对,有权限的就抬起道闸放行,没有权限的就拒绝通过。包括交通违章电子抓拍系统也是同样的工作原理。这早就不是啥新鲜的技术了。
回到本帖的主题,这种方法最大的问题在于翻译质量,对于专业性比较强的科技类文章,机器翻译的质量很难达到预期效果。本坛另一个版面中有一个关于气压撑杆的帖子:
http://www.crystalradio.cn/thread-1600191-1-1.html
贴中使用有道软件翻译,结果就闹笑话了。
而我近期在研究那老迈日立1050F示波器的一项用途,百度到处搜索说明书,搜到一份翻译版的说明书,凭我很烂的英文水平,都可以看到里面机器翻译的各种错误,那翻译结果与原文的原意差别太大,几乎无法顺利阅读。 |
|