1.2 网络信息内容审计研究概况

网络信息内容审计综合运用信息过滤、信息检索、自然语言处理、图像处理、视音频处理、人工智能等领域的技术对网络所传输的各类信息进行审计检测,监控网络中非法、不良信息的传播,为净化网络环境提供有效保障。网络信息内容审计涉及多项信息处理相关技术,其发展也随信息处理技术的发展而前进。

在国外,与信息处理相关的研究开展时间较长,取得了一定研究成果,主要体现在信息检索、信息过滤等方面。1982年,在电子邮件开始出现之时,美国学者Denning指出以往的信息管理着重于信息的处理与分发,信息的控制和过滤同样需要引起注意,并提出信息过滤(Information Filtering)的概念[5]。Belkin详细阐述了信息过滤与信息检索之间的区别与关联[6]。1991年,在美国新泽西州召开的高性能信息过滤会议讨论了不同的过滤方法、高速过滤系统结构及不同的过滤软件原理等[7-9],在信息过滤方面进行了初步的研究。1992年,美国国家标准和技术研究所(National Institute of Standards and Technology,NIST)与 DARPA 联合支持了每年一次的文本检索会议(Text Retrieval Conference,TREC),对文本检索和文本过滤的发展起到了极大的促进作用。TREC 最近的几次会议都着重于文本过滤的理论和技术研究,以及系统测试评价,对信息过滤技术的发展与完善提供了强有力的支持[10-13]。Minnesota州立大学计算机科学与工程系设立了 Grouplen项目,该项目包括了同级信息过滤、合作过滤、推荐系统、自动过滤等内容[14,15]。1996年,该系开发了新闻组(Usenet)过滤软件,后来又开发了Movielen多媒体视频推荐系统。另外,Minnesota州立大学计算机系的Robert Cooley等人开发了Web站点信息过滤系统WebSIFS(Web Site Information Filter System)[16],该系统使用站点的内容和结构信息来自动生成信念集,利用信念集确定潜在兴趣。1993年,马里兰大学设立了信息过滤项目,由电子工程系的医学信息和计算机认知实验室进行网络信息的过滤研究与实验。1995年,美国一些图书馆联合实施一项网络信息过滤计划(InfoFilter Project),其目的是制定一套对网络信息进行评价与选择的标准。1998年,在瑞典召开的机器学习与信息过滤学术研讨会认为网络信息的过滤是进行信息管理的一个重要环节[17]。Borges被认为是第一个真正实行网络信息过滤的系统[18]。2000~2006年,随着图像处理技术的发展,关于网络不良信息图像识别也有了一定的研究进展,出现了多种不同的识别方法,如肤色纹理特征方法[19-21]、形状特征方法[22]、分类法(神经网络、SVM)[23-26]等。这些研究工作都为网络信息内容审计奠定了良好的基础。

与学术方面研究相对应,国外的多家网络安全及防病毒公司在网络信息内容安全方面也掌握了一定的技术,能够提供较完整的企业网络内容安全解决方案,如 Symantec 公司提供了 Web 内容过滤器 I-Gear 和 E-mail 过滤器Mail-Gear,Trend Nucro以插件的形式提供Manager系列的电子邮件安全管理系统和Web安全管理系统,SurfControl美讯智公司提供的内容安全产品包括网页过滤器、邮件安全信息网关(具备防病毒和防垃圾邮件功能)、即时信息过滤器等。同时还产生了多个知名的商业或学术方面的搜索引擎站点,如Google等。

与国外研究相比,国内在网络信息内容安全方面的研究起步较晚,在2004年之前的相关研究成果较少[27-37]。但随着网络进一步普及,与网络信息安全相关的违法事件也频频发生,使得人们意识到网络信息内容安全问题的严重性,并加强了与解决该问题相关的理论和技术研究工作。在学术方面,主要集中在数据包获取[38-41]、模式匹配[42, 43]、文本分类[44]、邮件过滤[45-47]、图像特征[48-51]等几个方面。在产品方面,国内一些网络安全厂商也推出了各自的网络信息内容安全相关产品,如天融信TopAudit系统、启明星辰的天玥系列网络安全审计系统、捷普的JAVDIT系统、方正智思互联网信息监控分析系统等。

从以上叙述可以看出,国内外多数已有研究或产品在处理网络信息内容安全问题上,使用了许多信息过滤、检索等方面的相关理论和技术。而网络信息内容审计作为保障信息内容安全的有效手段,虽与信息检索[6,7]等研究具有一定相似性,如两者的处理对象均可为文本、图片或视频等,并且都按照一定规则进行信息分析并得出有益的结果等;但也存在较大区别,主要体现在系统模型不同、数据源不同、规则的制定不同、应用需求不同等方面。目前,网络信息内容审计的研究在国内开展较多,由于文化、意识形态的差异及技术保密等方面原因,可获得的国外相关研究文献较少。

近年来,在研究人员的共同努力下,网络信息内容审计方面的研究正在逐渐深入,并取得了诸多显著成果,研究范围也逐步扩展到内容审计的每个环节。

在审计系统模型方面,为适应大规模、高流量的网络环境,已从原先采用的单一集中式结构转变为由多个区域审计子系统、全局通信控制代理等组成的分布式结构,应用分布计算、集中管理的思想来提高审计系统的整体效率。

网络数据包是审计系统的源数据。为提高审计系统数据包的获取效率,可采用多个采集代理,并行数据包获取机制,使整个网络流量分散给多个不同的采集代理,达到负载均衡的目的,并在单个采集代理上使用BPF过滤模型、NAPI技术、MMAP技术等,以进一步提高数据包捕获速度。

模式匹配作用是在捕获的数据包内搜索特定的敏感模式串,以发现可疑数据包。在模式匹配研究中,中英文混合环境下的高效模式匹配算法方面得到了较多的关注,并取得了一些研究成果,如组合状态DFSA算法、GZS算法、基于完全哈希Trie多模式匹配算法等,为解决中英文混合模式匹配问题进行了有益探索。

多媒体是当前互联网信息的重要表达方式。多媒体审计是内容审计中较难的一个研究领域,目前在视频流识别、色情图像分类、不良视音频识别方面仅有一些探索性工作,还需更为深入地研究。另外,随着诈骗、谣言等不良短信的日益泛滥,手机短信息内容安全问题也引起了人们的高度重视。

当前手机短信内容审计虽在短信审计系统体系结构、不良短信识别算法、短信通信网络结构分析、短信网络社区发现等方面已有一定的研究成果,但在短信热点话题发现、不良短信传播模型、短信审计结果质量保障等方面的研究还比较欠缺,相关工作还亟待拓展。

除上述环节外,网络信息内容审计还在电子邮件审计技术、文本分类及文本信息语义分析、视音频内容语义理解、审计系统的自身安全等关键技术方面展开了相应研究,并且取得了一定的研究成果。

综上所述,尽管国内外近年来在网络信息内容审计问题上已取得一些研究成果,但是与之相关的技术和理论相互之间还处于较为孤立的状态,并未进行有机的结合,缺乏全局性、协调性和统一性,而且从当前网络信息安全形势和网络信息内容审计的研究状况来看,内容审计及其相关关键技术尚存在诸多不足,还未完全满足复杂多变的网络信息安全需求。另外,网络信息内容审计也是一个典型的多学科交叉领域,涵盖信息处理领域中许多难点问题,存在较大的挑战性。因此,这些因素都必将促使人们在网络信息内容审计方面进一步开展更为全面、更为深入的探索研究,以应对日益严峻的网络信息安全形势。