“源于清华 服务全球”的国内顶尖OCR图文识别技术,针对互联网全网的图片文字内容进行计算识别!
摘要:通过对图片里的字符提取识别技术,对网络图片传播的内容进行监测、分析,达到舆情监测的目的;并与各个舆情监控系统、舆论导向关注政要单位、公安网监等部门一起维护干净透明的网络信息交流环境,为网民提供正确的社会价值观、民生信息导向,并及时了解网民关注的各类民生问题,为相关管理单位部门及时了解到信息并提出解决方案而提供依据,从而共创美好的未来!
关键词:网络图片文字识别 微博图片文字识别 博客图片文字识别 论坛图片文字识别信息安全 网络舆情监控 OCR系统集成
文通互联网图片文字识别系统 ,是一套可二次集成开发的工具包,是北京文通科技有限公司针对网络传播迅速发展的现阶段社会国情专门开发的识别引擎,目前由于通过手机、平板电脑等设备进行网络浏览、信息传播的互联网发展非常迅速,很多博客文章、论坛攻略、微文字这种单调的纯文本类型的监控已经很难满足信息传播的需要,大量的形形色色的图片文章传播也因其具有很强的意识交流、视觉冲击二迅速崛起。
如何能将这些带有重要意义的图片文字进行识别、分析、归类已经成为现阶段重中之重的课题,通过文通的最新OCR技术,已经成为势不可挡的一种解决途径。
一、 文通互联网图片文字识别系统SDK具有强大的图片文字分析功能,可以快速将文字进行识别划分,为识别文字字符内容提供非常好的数据基础;支持绝大部分网络途径中所能获得到的图片;同时支持后续的专门优化与开发;可以说是一个活生生、可拓展、可增强的一套持续化系统。
◎ 支持TIFF、JPEG、PNG、BMP、GIF格式图像的读取(GIF后续会进一步优化);
◎ 能识别纯英文、简繁体中文、中英文混排,少数民族语言(维吾尔文,哈萨克文,藏文,阿拉伯文);
◎ 支持对内存中的图像数据流进行分析识别;
◎ 能够识别获取字符在原文中的位置和大小信息;
◎ 支持对指定区域的识别;
◎ 支持对长微博图片的文字内容识别;
◎ 融合普通文档识别、网络图片识别、长微博图片识别三大核心引擎;
◎ 支持WINDOWS 32位、64位操作系统
,LINUX 32位、64位操作系统
;
◎ 支持dll库调用和ocx空间调用两种方式;(C/S和B/S模式都支持);
◎ 支持对特殊字符的识别;
二、针对固有的、传统的OCR识别技术产品,因为网络图片具有类型多样、内容精美、形式复杂等特点,造成普通OCR的识别引擎技术根本无法对文字内容进行很好的识别。
所以清华大学实验室做了大量的改进,重新优化识别算法,重新对识别策略进行调整,重新架构识别引擎数据,新生的文通互联网图片文字识别技术可以很好的解决上述出现的难题。这是文通互联网图片文字识别系统SDK区别于一般OCR产品的地方,也是它能在舆情监测、政府调研、舆论挖掘等领域立足的技术根本。
三、网络上各种图片传播的谣言迅速甄别
◎谣言预警:集成进舆情系统和维稳系统后,针对收集到的大量图片进行识别,将识别出的文字结果对比相应的监控词库字典表,例如:敏感词汇、反恐词汇等;也可以将识别结果直接挂接自动录入到用户的分析系统,做后期数据重复利用。
应用方式:集群服务器网络监控
四、互联网图片文字识别系统SDK兼容性
该技术是一个系统集成开发包,C语言所写,具有丰富的接口,可以兼容目前市面上各种设计语言的环境接口、VC、VB、DELPH、JAVA;
五、应用场景:
可以在以下几个领域广泛应用:
① 移动通信信息传播监测领域
中国移动、中国电信、中国联通三家通信运营商针对传播比较迅速的彩信图片内容中涉及黄、赌、毒、反动等不良的言论监测识别;
② 舆情监测、民意调研等系统集成
中国科学院信息工程研究院针对国家全网监控的系统集成应用;
③ 国际不良信息监测
北京某部队,针对卫星接收数据中国际传播的的图片内容中所包含的不良信息进行监测;
④ QQ聊天相关截图识别
⑤ 论坛、博客图片内容识别
⑥ 微博图片内容识别
图略
⑦ 网页截图内容识别
以上是网页截图原件,以下是识别DEMO的识别结果截图(真实测试结果,识别率没有达到100%实属正常):
联系人:
任经理:(010)62800286 转 805
手机:15010372383
或 杨经理:(010)62800286 转 816
手机:13691341733
|
|
北京文通科技有限公司
Beijing Wintone Science & Technology Corporation Ltd.
地址:北京海淀区北四环西路9号银谷大厦16层1609室
电话:(010) 6280 0286/815/816 转 805
传真:(010) 6280 0256
官网:www.wintone.com.cn
E-mail:renfy@wintone.com.cn
|