多其它的AI能力在日后的文章中我们会一一介绍。在这篇博客中我会只关注这些和文字识别和快速理解相关的三个能力而这三个作为整个AI世界里最容易理解的基础能力能快速地带你了解到如何应用AI到你的产品里。 目录: I. 图像文字识别(OCR) II. 语音识别 (ASR) III. 机器翻译 IV. 总结 V. 一些额外的阅读建议 一图像文字识别 (OCR) 很多人应该都有这样的困扰比如在逛淘宝的时候想要去搜索详情页的大图里的文字简直难于上青天因为图片里的文字是没法复制的。
些不太懂一些歪门斜道
技术”的人也很难破解那些禁止右键”或禁止复制”的破网 瑞典电话号码数据 站的限制拿到想要的文字。有时你也可能需要从截图里获取文字或者快速扫描手头的文档电子化课堂里的板书。 这些场景正是OCR的用武之地。OCR是Optical Character Recognition(光学字符识别)的缩写更多的我们会叫它文字识别”或者图像文字识别)。在现在的手机App里很容易找到OCR的身影如微信最近的更新使得你可以在聊天记录中搜索文字会找到提到这个文字的图片;iOS的实况文本功能可以在输入框中快速录入现实生活中的文字等等。 OCR是一种让计算机能识别和提取图像中的文字的AI技术。
它的工作原理
(简化到六岁小孩能理解的 哥斯达黎加电话号码列表 难度的话)可以认为是AI通过研究各种图片里文字的形状和模式学会了在图片里找文字”并把每个文字与已知的字符去匹配最后告诉你字在哪”和这些字是什么”的技术(当然这个解释非常地不科学你就将就看吧)。有了这个技术再加上一些非常简单的交互和UI就可以做到根据需要去编辑搜索或存储你提取的文本了。 如引入部分提到的OCR的一个常见用例是在快递行业。在填写收件人信息时用户通常会截取表单的截图并提取文本以便快速填写。