标王 热搜: 经济  企业  会计  旅游  内部控制  房地产税  房地产  成本  质量 
当前位置: 首页 » 论文 » 计算机论文 » 计算机网络论文 » 基于微信息进程与流量检测指令分布的倾向性检测模型

基于微信息进程与流量检测指令分布的倾向性检测模型

放大字体 缩小字体 发布日期:2016-11-02 18:26 来源:云南大学学报(自然科学版) 浏览次数:0
摘要:微博、微信等自媒体服务兴盛,危险预测成为微信息舆情管理的难题之一.基于SDN和MapReduce概念架构,结合虚拟蜜网技术,设计舆情倾向性检测模型;针对前端蜜罐机,设制舆情监测任务指令集,布局检测策略,完成分布式流量检测任务;通过虚拟嫌疑主题,针对大数据稀疏性困难,设计用户敏感行为特征集,实现微信息圈危害兴趣倾向的先验算法;最后对算法模型进行实践检验.实验表明,基于流量级和进程级关联的倾向性主题检测,检验效率较高,针对性强,能获得较好的监测效果,能为微信息舆情的主动性防范和舆情调节控制,提供重要的支持,所以,我们提出微信息进程与流量检测指令分布的倾向甘检测模型,以满足细粒度舆情监测与防御的需要.

关键词: 微信息; 蜜罐; 软件定义网络; 虚拟交换机; 主题识别
中图分类号:TP391.4 文献标志码:A 文章编号:0258-7971(2016)05-0714-10 doi: 10.7540/j.ynu.20150811

随着微博、微信等自媒体和社会化网络的兴起, 煽动、欺骗和非法盗用等违法行为时常发生, 违法分子借用计算机网络的迅速性和广泛性, 严重地扰乱网络社会的舆情环境.所以, 我们提出微信息进程与流量检测指令分布下的倾向性检测模型, 以满足细粒度舆情监测与防御的需要.

1 相关研究情况
国内外专家基于舆情监测问题进行了大量的研究, 主要集中在这几个方面:①结合先进设备特点, 设计适用、可靠的监测架构, 如:流量检测系统、蜜罐蜜网系统、SDN、OpenFlow、虚拟技术、IDS和分布式应用等; ②面对异端情绪时常被发泄的现实, 研究舆情数据集的倾向主题的发现算法, 如:基于VSM的DPS算法、基于Bayes的Plsa算法、基于Apriori的CLOSE算法等; ③面对微信息的大数据特征, 研究应对格式复杂、体量大和单位价值稀疏的办法; ④检测技术手段如何适应现实的需要、如何提高技术集成效能, 建立适用的舆情监测机制.成果梳理显示, 舆情监测分布在不同的社交网络上, 单一技术手段的舆情监测愈加不能满足实际工作需求, 舆情监测越来越体现出技术集成的重要性.由于舆情网络的多样性和对抗强度的提升, 传统的以流量监测为主的网络安全防御办法存在诸多不适用性, 总结如下:

(1) 设备集成优势明显, 但流量监测粒度过大 国内外在用户流量行为分析方面存在的主要问题有网络用户流量行为缺乏系统性定义, 主要的典型研究有:SDN (software-defined networking, 软件定义网络)将网络布局成数据、控制和应用3个层面, 实现了“ 方便部署新协议” 的目标, “ 端口集成扫描、集中控制” 使SDN架构具备了舆情监测方面的核心优势 [1].SDN网络抽象技术确保各种协议安全稳定地运行在统一模块中, 从而减轻各级设备的协调配置的负担[2].OpenFlow框架在很大的程度上满足了SDN网络的标准, 按照流表进行信息包转发, 生成、维护、下发任务完全由外置的Controller来控管, 为网络舆情监测提供了快速发展的契机[3].基于OpenFlow的安全应用能以模块化组成方式进行透明地预测和管控数据流, 流量监测已经具备了新设备进一步集成应用的条件基础, 但不涉及进程级的检测[4].流量监测粒度偏大的问题始终未能妥善解决[5].基于网络流量特性提出较为完备的特征集, 对网络用户流量行为进行全面描述, 解决网络用户流量行为描述维度过高, 且分析单用户流量行为比较困难的问题[6].多数舆情监控方案控制粒度细化到流(Flow)这一级别, 不能对付用户进程中的“ 违规” 行为, 无法准确定位违规特征, 舆情监测的敏感性就被严重降低.

(2) 进程检测瓶颈多当前解决进程级检测的典型研究有:为防止脆弱的单个网络服务器节点收集的信息过于狭窄, 在一个真实的计算机服务器中, 布置多个虚拟机(virtual machine, VM), 把其中的一些VM作为被攻击的靶机(蜜网) [7], 以此获得第一手的进程数据.通过VMI接口技术, 监测系统内核能与用户虚拟机进行双向的稳定通信和进程级的数据交换[8].借助VM技术, 舆情监控粒度从操作系统级提升到进程级, VM为每一个副本服务器创建安全日志文件, 检测外部实体的进程级入侵行为[9].OVS(Open vSwitch)是一种基于SDN架构的“ 虚拟交换机” 软件, 用于构架虚拟的网络硬件资源环境, 支持Xen/XenServer、K-VM和VirtualBox等多种虚拟化技术[10].传统IDS无法追溯数据包所属的OS进程, 无法实现进程级的安全检测.

(3) 检测主动性不足 当前解决舆情检测主动性的研究主要是蜜罐(Honey-pots)技术, 如:结合OpenFlow, 可以通过将蜜罐服务器放置在一个可信虚拟网络系统中, 将设备的分布状态抽象成“ 全网视图” , 通过底层Hypervisor的消息传递, 实现对其它非可信网络资源的主动性监控[11].蜜罐系统将交互信息都存储到预定数据库(或日志)中, 监测系统主动获得目标信息, 并转移到安全备份机上[12].蜜罐系统能适应自媒体网络的时效性要求, 有针对性地监测用户的情趣倾向性[13].构建多层蜜罐, 构成蜜网防御网是目前大数据舆情监控、摆脱被动的一个有效出路[14].梳理现有的舆情监测理论和产品, 优势全部集中在防御层面, 而主动介入性明显不足, 既有新技术设备应用不充分的原因, 也有算法的适用性不足的原因[15].

(4) 检测算法与分布式网络结构不匹配 随着大数据网络的发展, 各种新型网络服务、设备和内置的复杂协议越来越难以协调, 舆情监测的困难度剧烈增加, 检测算法成为舆情研究的主要内容.典型性研究成果有:汉语词法分析系统ICTCLAS, 具有良好的中文分词、标注词性和热词识别等显著功能[16].VSM模型基于文档和词的上下文语境, 按热词频率进行归纳和聚类, 最大优势是可应对复杂性计算, 可有效地检测情感倾向性[17].面对“ 主题倾向发现” 问题, 传统算法(如:PLSA、最近邻图算法、最大信息熵、神经网络等)都面临着高维舆情向量向语义空间映射的NP困难, 属性约简成为问题核心[18].微信息是基于“ 小众传播” 的强关系交流圈, 具有高频度和裂变传播特征和稀疏性[19].最近邻算法以有向图方式训练样本数据, 在用户知识聚类问题上取得长足进展, 但随着大数据的稀疏性问题, 不相关特征的数量呈指数形式增长[20].传染病传播的SIR模型被引入到微博传播规律的研究中, 分析网络舆情危机事件的传播过程[21].贝叶斯分类法, 通过预测性能对大数据冗余特征进行敏感分类, 但指标特征间互相独立性的要求, 在现实中难以满足[22].人工神经网络采用并行分布式逻辑, 优势是自学习、自组织和自适应能力等, 能对文本话题特征词进行有效的提取, 但目前只能对主题的静态统计分析, 很难涉及到舆情主题的动态演变[23].以上基于时间序列方法能够在时间的维度上揭示网络舆情的动态性和发展性, 但预测效果很大程度上依赖于舆情主题信息聚类的结果, 若聚类的用户敏感行为数据库不够全面和客观, 则聚类效果就不会好, 就会导致预测精度不高[24].微信息的用户敏感行为的在线捕捉问题, 效能低下的瓶颈一直未能解决, 许多部门面对舆情样本采集难题, 仍然采用半自动状态的“ 人工筛查” 制度, 敏感性不足, 重复性、非相关性和表层化现象严重[25].

总结以上研究成果, 网络用户行为描述维度过高, “ 流量级检验” 和“ 进程级检验” 技术各有利弊, 但共同面临在线采集手段不足、彼此间关联性不足的缺陷, 无法满足现今高混淆入侵检测的分析需求, 同时, 在微信息空间上, 构建主动角色布局、充分发挥介入性调节和贴近服务的问题, 研究不够深入.基于此, 本文面对微信息的大数据特征, 改良EM估计方法, 设计一种与分布式舆情监测架构相容的适用算法, 把进程级检测(用户交互异常特征)与流量监测(异常流量特征)进行关联, 并实践检测文中提出的舆情监测方法的时效性, 验证所提方案的优势和缺陷.

2 虚拟蜜罐监测模型
主动型舆情监测, 首先要面对海量并发的问题.本文采用蜜罐式监测把VM技术与SDN技术进行整合, 从“ 流量级” 和“ 进程级” 兼顾的角度, 搭建多层次的用户倾向监测模型.

2.1 分布式蜜罐防御架构
随着社交性网站、移动互联网、微信等业务领域的快速发展, 大数据网络的流量风暴日益成为安全防范的瓶颈, 必须构建分布式MapReduce架构, 进行相关网络资源的虚拟化组合和逻辑聚合/划分等操作.网络流量测量是舆情监测的第1步, 通过流量监测归类, 粗粒度地掌握网络的行为动向.如今网络速率提高得很快, 在高速的路由、交换机上, 2.4Gb/s端口速率也很平常, 个别网络已经高达40Gb/s线速.为了跟上“ 线速处理” 的需要, 必须使用分布式网络结构, 才能缓解数据处理的计算瓶颈[26].蜜罐监控系统属于防御型的, 为对抗大业务量的网络流量的冲击, 可以布局成MapReduce架构, 能有效降低流量的风暴负荷.分布式蜜罐防御架构的主要服务节点包括:策略调度机、进程检测机、虚拟靶机和诱饵看板等, 各虚拟节点计算机通过OVS进行协调连接, 虚拟型蜜罐系统模型如图1所示.


图1
Fig.1
Figure OptionView
Download
New Window
图1 虚拟蜜罐式防御模型
Fig.1 Virtual honeypot defense model

内核核心模块(进程检测机)要在VMI模块的协助下, 检测各个虚拟靶机的进程状况和NOS服务.为保证检测机自身的安全和检测结果的完整性, 进程检测机和策略调度机都隔离于被监控的虚拟靶机域之外, 分置不同的NOS.靶机地址设置为虚拟物理地址, 强化内核模块(进程检测机和策略调度机)不与外网地址直接连接, 保障较高安全性.

(1) 策略调度机 根据先验知识库的规则, 结合现有的网络状况, 制定蜜罐机的Map工作策略, 使蜜罐机实施“ 目标锁定” 、“ 介入调和” 和“ 布置任务” 等功能.利用OVS, 随时控制VM前端机的状态, 同时布局OpenFlow流表和进程数据的监督状态.一方面, 策略调度机通过Map映射过程, 维持着网络任务的负载均衡, 另一方面, 根据先验数据集规则, 针对性向各个VM, 下达舆情倾向的概率估算任务.

(2) 虚拟靶机 虚拟出真实的网络资源、网络服务、交互环境和界面场景, 提供给众多的网络兴趣寻租者, 并参与到他们的交互活动中去.虚拟靶机的核心功能是介入到实际信息交互环境中去, 构造信息舆情的实际调解员角色, 与现实社会的基层管理部门建立职能上的对接(虚拟信息管理节点), 在舆情网络上担负起估算用户倾销概率、抑制负能量行为和支持正能量的任务.运转虚拟靶机的主要难点是:用户兴趣仿真、介入目标信息圈, 只有构建了接触性能良好的角色和话题, 才能有下一步分布估算的可能性.

(3) 诱饵机 引诱入瓮是诱饵机完成的主要内容.模拟出具有用户兴趣点的网络资源, 诱使感兴趣用户进行扫描、加友或攻击等.诱饵机(服务器)虚拟出“ 偏激兴趣倾向” 和“ OS资源漏洞” 等相应的诱饵, 往往更能吸引嫌疑分子.例如:在Android系统中, 微信系统漏洞多、影响广, 可以构造较多的诱饵.

(4) 进程检测机 回拢(Reduce)预定的监测概率结果, 监控着虚拟靶机和诱饵机的进程.在锁定嫌疑圈的情况下, 进行进程检测和流量监测的聚类, 发现威胁性和偏激性的舆情苗头, 提炼出“ 危险舆情的验证规则” , 定性用户交互行为, 供策略调度使用.

2.2 分类器算法
网络舆情信息遵循特定的概率分布, 可以应用朴素贝叶斯分类算法, 对于网络正常流量和异常行为, 实现稳定的、准确的分类过程.微信息监测经常面对一词多义(一种行为, 多种主题解释)和一义多词(一种主题解释, 多种行为表现)的问题, 需要进行建立一个词语和敏感概念的关联关系.基于概率模型的隐含语义分析法(pLSA)相比于标准的LDA(Latent Dirichlet Allocation)主题模型算法, 有着巨大的优势[27].本文对pLSA进行改造, 用来描述“ 敏感行为-(隐含)语义-流量异常” 之间的关系, 把进程级敏感行为和流量奇异行为和用户的舆情倾向特征都映射到同一个语义空间中去, 来实现用户嫌疑行为的近似匹配工作.假设隐含语义(用户主题倾向)序列Z={z1, z2, …, zk}, 相应的用户敏感行为:W={w1, w2, …, wn}, 先验性的流量异常特征表示为:C= {c1, c2, …, cm}; 建立“ 敏感行为-主题-流量奇异” 的关联性监测模型.观察(C, W)变量的联合概率与潜在语义倾向(主题)Z的关系, 就能进行最大似然法分类.潜在语义倾向、用户行为和流量异常特征的联合概率是:

p(zk, cj, wi)=p(wi)p(zk|wi)p(cj|zk). (1)

假定若干舆情空间的用户情绪倾向主题, 每一个兴趣主题都能表示成为敏感行为的向量分量, 在用户交互行为发生后, 面向“ 兴趣倾向主题” 进行概率向量分解, 合成兴趣主题面下概率分布.具体计算步骤是:通过学习训练集, 获得流量特征C与主题倾向Z的关联关系(概率分布)p(c|z), 再微信息敏感行为W与倾向主题关系Z的概率分布p(z|w), 最后计算推导出p(w, c)、估算新嫌疑主题.

在MapReduce架构下, 2个数据集(微信息敏感行为数据集W和流量异常特征数据集C)的概率分布:p(c|z)与p(z|w), 通过EM的协作训练过程, 基于验证集的似然函数来决定迭代的终止条件.使用EM估计模型, 对数似然函数为:


(2)


其中, Ψ (wi, cj)表示敏感行为wi中涉嫌流量特征cj的次数.

EM算法的2个步骤如下:

(1) E步骤 给定观察对象(wi, cj)时, 潜在主题zk的条件概率分布:

p(zk|wi, cj)=

(3)


(2) M步骤 利用新的期望值p(z|w, c), 更新参数p(c|z)和p(z|w):

p(cj|zk)=

(4)


p(zk|wi)=

(5)


EM估计模型使用迭代式数据训练过程, 能不断地更新参数p(c|z)和p(z|w), 使似然函数L达到最大, 最终获得可靠的参数p(c|z)和p(z|w)、计算推导出p(w, c):

p(wi, cj)=p(wi) p(zk|wi)p(cj|zk). (6)

按p(wi, cj)概率-文档值输出降序列表, 抽取最大后验概率, 确定倾向分类的判定规则£.应用£规则, 就能适用于训练集以外的新舆情数据的检测.

2.3 流量监测方法
流量监测本身属于粗粒度性质, 所得检测对象往往是一类用户.一类网络用户流量偏离度往往是由许多用户的流量共同组成的, 单个用户的流量变化对整体流量影响微小, 可以近似地认为:整体网络流量服从正态分布.通过虚拟网桥的技术, OVS将多台VM虚拟服务器连接起来, 每个虚拟机的端口和流表项, 都设置重定向监测, 进行数据包检查, 实施数据链路层检测.WinXCAP是一种可以对端口抓包的工具软件, 可定性地将HTTP-URL浏览数据包映射到一个XML文档, 实施专项数据抓取[28].基于端口抓包, 己被确定为恶意的数据包特征和用户ID特征, 将在“ 流量异常集” 中标注, 统一布局其它蜜罐的统一对抗策略, 形成“ 蜜网” 防范.用户流量(行为)面对进程检测所确定的嫌疑用户列表U(zk), 假设用户u∈ U(zk), 调动蜜罐机吸引用户u发生网络交互行为.在预定时间段内, 用户u发生了流量异常行为cj, cj∈ C(zk) , 此时流量特征的异常检测过程为:①设定SCAP监测时间长度Δ t, 汇聚所有蜜罐机在时间窗内的流量特征数据.②计算异常用户流量行为特征的偏离度, 根据历史经验, 设定异常阈值ε , 过滤筛选超过阈值的数据记录.③利用概率分布测算, 对监测时间内所有网络奇异流量(数据包序列、时隙间隔和频度特征等), 进行属类分析, 定性所发生异常流量和疑似特征的主题关联性.

OVS能够截获IP数据包, 相关特征结构字段有:①数据包捕获时间, ②数据包的源IP, ③源包类型, ④数据包的目的地, ⑤目标包类型, ⑥执行协议类型, ⑦项表, ⑧包长, ⑨包头长, ⑩ tcp包头len, ?包头型, ?同步字段, ?Ack确认字段, ?终止字段等, 可用来确定用户的网络流量检测特征项, 构成流量数据集.为便于数据采集指令通过调度策略机发布到各个前端蜜罐机.监控指标指令采用编码格式, 以便向各个VM发布检测任务指令.指令的编码规则是:“ 协议类型+参照量值(参数序列)” .其中“ 协议类型” 主要有:I代表IP协议; C代表ICMP协议; T代表TCP协议; U代表UDP协议等.“ 参照量值” 主要有:A代表平均值; M代表最大值; N代表个数; B代表字节特征; v代表方差值; r代表比值; R代表占总数的比例值等.参数序列有:i代表IP宿地址; s0代表源端口; s1代表宿端口; c代表独立TCP连接; j代表包文头; u代表上传行为; d代表下载行为; rq代表请求性质; bd代表建立性质; kp代表保持性质; bg代表“ 大于1000字节” 的数据包; sm代表“ 小于100字节” 的数据包; ov代表数据包首部大于20字节; q代表回送请求性质; e代表回送回答性质等.例如采集指令:标号特征TAN (i, c, bd)的监测含义是:TCP连接的平均个数(独立的, IP宿地址, 建立).由此规则, 流量数据特征集的观测指标设置为:CN(u), TN(u), IAB(u), TBv(j.u), TBv(d), Ubv(d), TN(s0), TN(s1), UN(u.bg), TAN(i.c.bd), TMN(i.c.bd)和IAN(i.u)等142项.基于网络流量特征集指标集, 将各个特征属性依次定义为:F={f1, f2, ..., fn}, n=142.流量特征fi就是对第i项网络流量(用户行为) 特征的观测值.

流量监测必定是基于某种假定的“ 倾向主题” 而进行.预定n个倾向主题, 构成倾向主题数据集Z={z1, z2, …, zn}, 基于相关用户集U(zk)={u1, u2, …, uk}和相关流量指标检测集C(zk)=(c1, c2, …, cm).同样, 将一组相关近似的检测指标{f1, f2, …, fk}, 合并成为一个检测指标.在观测时间内, 假如fx行为已经发生, fx∈ ci, 那么根据流量检测指标fx的超标次数, 即可确定流量的偏离度 (ci).

假设fi指标全局检测了M次, 定义为 f i fi相关fi样本的平均值, σ i是相关数据集的样本数据的期望标准差, 则:


(7)


σ i=

(8)


当wj敏感进程行为发生时, 流量fi的偏离距离Φ (fi)为:

Φ (fi)= ∣ ∣ ∣ ∣ f i −f i ∣ ∣ ∣ ∣ max f i −f i |fi-fi|max(fi)-fi. (9)

其中, max(fi)是相关数据集样本的最大值, f i fi是相关数据集样本的平均值.根据历史经验, 针对每种流量指标fi, 设定异常阈值:ε i∈ (0, 1], 那么当Φ (fi)≥ ε i时, 则认定该流量特征的嫌疑属性成立, 锁定为嫌疑特征.使用C(zk)={ci|ci∈ F, Φ (ci)≥ ε i}表示流量特征的嫌疑指标项, Φ (ci)表示ci超标程度:

Φ (ci)= ∣ ∣ ∣ c i −c i )max(c i )−c i |ci-ci)max(ci)-ci. (10)

针对全体指标集F的检测指标而言, 定义全局全指标偏离度:

Γ (F)= Φ (fi). (11)

针对全体嫌疑指标集C的检测指标而言, 定义全局嫌疑标偏离度:

Γ (C)= Φ i(ci). (12)

那么对于倾向主题zi而言, 该指标概率分布为:

p(fi|zj)= (f i )Γ(F) (fi)Γ(F), (13)

p(ci|zj)= (c i )Γ(C) (ci)Γ(C). (14)

奇异流量检查项Ci涉嫌m项流量检测特征, 假设所有流量特征{c1, c2, …, cm}, 有彼此独立性, 可以有等式:

p(c1, c2, …, cm|zk)= p(cj|zk)× p(zk). (15)

式中p(cj|zk)可以从实际监控数据中得到, 进而可计算获得对应的分布:p(c1, c2, …, cn|zk).该列表降序排列, 抽取所有超过阈值的有效记录, 提取特征描述, 即可归纳成新的嫌疑主题{zs }.

2.4 进程级监测方法
由异常流量监测, 获得嫌疑用户类(共同话题圈)和个体嫌疑用户, 只是舆情监测的第1步(粗粒度监测), 对嫌疑目标进行定性检测(进程级), 是舆情监测更重要的环节(细粒度监测).进程级监测借助流量监测结果, 结合微信息圈的舆情信息苗头, 拟定监测主题, 建立“ 可疑进程” 和“ 威胁性” 的判定规则, 最终制定信息圈的介入、调解策略.

根据舆情监测的需要, 各种先验的违规或敏感活动, 已经自然被人们习惯地分成许多敏感类型.用户的情绪性、危害性的倾向主题与先验的敏感类型分类有必然的关联, 但是往往又不能有“ 一一对应” 的直接判定途径.原因是:由于用户情绪是善变的, 大数据网络的舆情心态也处在不断激变之中, 这两个数据集的对应关系是“ 多对多” 的关系.例如:用词异常、不良记录、强度煽动、强度欺骗和超级粉丝等, 都有可能造成网络舆情的危害.用户的“ 发表涉嫌词汇” 、“ 在线频率异常” 、“ 时间间隔异常” 、“ 首发脏贴” 、“ 赞扬脏贴” 、“ 关注异常” 和“ 关注脏贴” 等行为, 均可采集为用户行为信息集W, 成为判断其是否具备某种主题倾向的衡量依据.例如:面对情绪倾向主题zk:“ 涉及敏感文字” 确认为w1; “ 极端文字超过阈值” 确认为w2; “ 关注数量(入度)超过200, 不足500” 确认为w7; “ 关注数量(入度)超过499, 不足2000” 确认为w8; “ 黄色图片” 确认为w13; “ 虚假身份” 确认为w14; “ 煽动异端情趣” 确认为w15等.每种敏感行为类型, 以涉及次数进行计量, 并对应设置舆情影响权重.

面对“ 主题-发贴行为” 所在的高维稀疏空间, 通过拟定若干主题Z={z1, z2, …, zn}, 每一种兴趣倾向zi, 可收集m种典型的不良行为, 构成其交互行为监测指标集W, 即W(zi)={w1, w2, …, wm}.例如, 发表涉嫌文图、赞扬涉嫌对象、关注涉嫌对象和发表歪曲文图等.为避免贝叶斯分类算法陷入NP困难, 将已明显确定的同义或近似行为, 合并为一个, 可以极大程度地简化数据维度, 提高判别效能.根据实验经验, 用户的“ 异常行为” 的维数预定在10~30个之间, 既保障了近似分类的需要, 也能保障运算的及时性, 效果较好.例如:wi={f1, f2, …, fn}, 表示用户行为wi所涉及的n种行为, 按参与次数计量.对于用户(u), 每一个发生的行为 ft, 如果存在ft∈ wj且wj⊂W(zi), 则确定用户u嫌疑行为(wj)的嫌疑程度η i增加1个权重单位.针对预设主题, 根据每一种异常行为wi的涉嫌程度, 分别定义不同的权重系数.设定权重系数:D(z)={d1, d2, …, dm}.用户行为涉嫌敏感数据项wi时, 则用户u嫌疑wi程度η i增加1个权重的表达式为:η i=η i+d.

在被观测时间段内中, 面对wi检测指标, 所有预设主题总共发生的涉嫌程度为ω , 同时就预设主题zk而言, 共有η i次异常行为.设置阈值为ε i, 那么当hi> ε i时, 则用户当前敏感行为相对于wi的涉嫌程度为:

p(zk, wi)= η i −ε i ω ηi-εiω, (16)

其中:ω = (η i-ε i).

用户行为的影响力, 随时间延续而衰减, 因此, 根据测定的时间不同, 关于用户行为的涉嫌舆情主题的危险程度也不相同.在[0, t]时间片段内, 衰减过程如下:

p(zk, wi)=p(zk|wi)× dF(i, t).

由“ 艾宾浩斯遗忘曲线” 原理, 衰减函数在初始时间点峰值最大, 在经过若干时间片后, 衰减函数值将接近低点.线性函数有衰减速度过慢的缺陷, 固定的时间片长, 其衰减速度是恒定的.可以结合指数函数, 使得越是近期的消息, 其评价权重越大, 而更远的历史评价对最终嫌疑度的影响衰减到更低点.指数函数法更能体现出“ 度量值随时间衰减的衰减趋势” .衰减函数可定义为:

dF(j, t)=k× e −λ j (t j −t 0 ) e-λj(tj-t0), (17)

其中, t是当前交互时间点, t0为ci发生的初始时间点; λ j表示衰减因子, 用以控制衰减幅度; k表示惯性因子, 用以加快衰减的幅度.实验中, 取λ j=0.053, k=1.328, 时间片段以“ 日” 为单位, 舆情事件的衰减性能较为妥当.5日以内, 舆情都呈现暴涨的趋势, 强度衰减(膨胀)到1.18; 从第5日后, 开始衰减, 强度衰减到0.965; 到第20日, 强度衰减到0.485.

各个蜜罐机将p(zk|wi)概率列表降序排列, 抽取概率超过阈值的有效记录, 并关联到相关用户, 形成面对每种预定嫌疑主题的嫌疑用户列表:U(zk)={u1, u2, …, um}.

2.5 分布式监测导引方案

兼顾大数据特征, 微信息蜜罐监测首先考虑将稀疏的大数据舆情信息合理地分布到各个前段服务器(VM)上, 利用MapReduce架构, 遵循舆情信息集中、少迁移的策略, 关键实施步骤如下:

(1) 策略调度机, 使用Map函数维持网络任务的负载均衡, 下达 p(c|z)和p(z|w)计算任务.

(2) 各个VM蜜罐机, 按照预定检测倾向目标, 释放定向诱饵, 布局OpenFlow流表和进程数据的监督状态.

(3) 各个VM机收集训练数据(包括:OVS监控日志、XCAP下载、爬虫、API和仿真界面等), 并进行数据集训练, 初步获取概率分布:p(c|z)和p(z|w).

(4) 在进程检测机上, 依赖Reduce函数回收分布结果, 合成p(z|w, c)分布.

(5) 在各个VM机上, 使用EM迭代式数据Map训练过程, 刷新概率分布:p(c|z)和p(z|w).如果达到最大似然目标, 则转步骤(7).

(6) 根据p(z|w, c)分布, 初步锁定嫌疑, 调整进程检测目标, 构造信息舆情的实际调解员角色, 转步骤(2).

(7) 在进程检测机上, 合成后验概率分布p(w, c), 并进行降序排列, 按照最大概率似然原则, 利用分布结果, 合成p(z, w, c)分布图; 按最大类特征项抽取典型, 提炼出“ 危险舆情的验证规则” , 补充到先验知识库中.

3 实验结果与分析
实验环境:安装OVS软交换机、42台虚拟靶机和诱饵机, 分别命名为VM1、VM2、…、VM42, 服务器内核上安装Ubuntu12.04 LTS系统, 创建虚拟桥, 将主机的物理网卡端口加入到软交换机(OVS).前端蜜罐机安装Windows7系统、SCAP软件包、概率估算软件和微信息仿真软件等.蜜罐防御系统于公网上试运转103d, 在流量监测中, 异常流量连接者和异常主题倾向者, 分别登记进入“ 先验库” , 取得较好效果.

3.1 主题倾向监测
在“ 进程级” 的攻击的度量实验中, 进程检测机通过VMI接受VM机的进程数据, 然后对用户倾向主题、敏感类型和流量数据进行训练, 获取训练数据集概况如表1所示.

表1
Tab.1
表1(Tab.1)

表1 实验数据集概要描述 Tab.1 Summary description of experimental data sets序号 数据
来源 训练
样本项 嫌疑
用户数 主题
倾向数
1 百度贴吧 3473 112 22
2 微博 2876 108 22
3 微信 2290 112 12
4 QQ群 2456 134 13
5 陌陌 540 34 8
6 短信 320 33 6
7 YY 238 22 7
表1 实验数据集概要描述
Tab.1 Summary description of experimental data sets
排名靠前的最典型的7个有威胁性的舆情倾向, 标记为:{z1, z2, …, z7}, 按微文关键字设置对应的倾向主题名称是:z1:“ 涉黄交友群” , z2:“ 翻墙广告” , z3:“ 恐怖袭击巴黎” , z4:“ 明星吸毒” , z5:“ 迷信大师:王林事件” , z6:“ 新疆522暴恐事件” , z7:“ 虚假广告:泄油瘦身汤” 等, 对比结果如图2所示.


图2
Fig.2
Figure OptionView
Download
New Window
图2 兴趣倾向数量与嫌疑数量对比
Fig.2 Comparison about quantity of interest tendency and the quantity of suspicion

3.2 异常监测
从新获得的前15组监测数据中, 任选5组, 逐渐增加采样点, 在各个VM机上, 逐步加大数量地引入“ 翻墙软件” 的异常连接, 到第25时间片段时, 指标偏离曲线的异常阶跃, 达到峰值, 足以验证出流量监测新模型的效能; “ 翻墙软件” 流量逐步撤销, 则观测指标回落, 以流量监测指标集的第66项指标TN(c.kp)为例, 如图3所示.从f66:TN(c.kp)监测结果看, 时间片经过了50个单位时段, p(c|z)的偏离曲线明显地凸现出奇异特征, 表明f66指标与该类异常连接有极大的关联性.


图3
Fig.3
Figure OptionView
Download
New Window
图3 f66指标的奇异曲线
Fig.3 The singular curve of f66 indicators

通过p(c|z)偏离曲线能监测异常流量行为, 同时减小数据属性维度, 具有实用的监测价值.

针对微信息最流行的3大类:微博、贴吧和微信, 预定嫌疑倾向主题、敏感行为指标集和流量监测指标集, 委派VM进行专项数据训练, 使用EM算法迭代产生p(c|z)和p(z|w), 进行获得p(w, c), 最后由p(w, c)排序列表来确定新的主题倾向.测试过程中, 将用户嫌疑行为数据集的属性规模从“ 0” 逐渐增加到“ 60个” , 用户嫌疑主题倾向数与用户铭感行为的属性规模的关系密切, 如图4所示.随着敏感行为属性规模的递增, 用户嫌疑主题倾向的嫌疑度随属性规模递增而递增.数据显示:①用户嫌疑行为数据集的属性维数, 达到15项时, 就基本上能够满足近似分类的需要.②“ 腾讯微信用户” 体现的奇异兴趣倾向的嫌疑度特征最明显, 敏感行为数据集的属性维度达到10组, 就能完成近似分类的需要; “ 百度贴吧用户” 的奇异嫌疑度居中; “ 微博” 的奇异嫌疑度较少; ③在信息网络上, 微信舆情圈的嫌疑倾向感染力最强.


图4
Fig.4
Figure OptionView
Download
New Window
图4 倾向主题演变图1
Fig.4 Trend threats evolution figure 1

将用户嫌疑行为种类子集固定在15个, 流量监测数据集的指标属性, 由0逐步扩展到500个, 收集实验数据, 结果如图5所示.显示出:①微信在网络上的嫌疑倾向感染力度最强, 同时流量监测数据集的指标属性的大量增加, 未能明显提高嫌疑倾向的分类效率, 指标属性保持在50个属性维度, 就可以满足近似分类的需要; ②数据集的降维约简是十分必要的.


图5
Fig.5
Figure OptionView
Download
New Window
图5 倾向主题演变图2
Fig.5 Trend threats evolution figure 2

在检测过程中, 通过p(w, c)排序列表, 归类新的舆情倾向类型, 基于用户敏感行为指标维度与流量监测指标属性, 以半手工方式, 总结出新嫌疑行为过滤规则.面对进出蜜罐机的可疑对象, 将嫌疑数据进行归类, 及时总结描述特征, 对于检测指标的典型代表意义已经丧失的维度(贝叶斯分类器评价指标平庸)及时删除.

4 总 结
舆情监测及奇异兴趣倾向的嫌疑度的判断, 是一个复杂的概率演变过程.分布式蜜罐监测系统属于主动性防御系统, 设置虚拟蜜罐机, 通过角色介入, 获得主动权.蜜罐靶机和诱饵有效介入用户的信息圈, 进行话题调节和异常信息捕捉, 既能平抑网络舆情, 更能达到弘扬网络正能量、平抑负能量和捕捉违法分子的目的.由于对用户嫌疑交互行为与敏感类型的遴选, 蜜罐才能选择一个真实的、适用的先验数据训练集.另一方面, 准确地把握用户奇异行为的主题倾向, 能更好地构造交互介入角色、融入到目标信息圈中, 进行信息调节工作.掌控用户交互行为的倾销苗头, 预测微信息的嫌疑兴趣倾向, 通过有效的信息调节和正能量宣传, 能明显降低用户奇异行为的规模, 对微信息网络的进一步健康发展有积极的作用, 具有舆论导引的潜在应用价值.实践证明, 分布式蜜罐系统能及时捕获可疑或恶意的奇异倾向主题, 扩大微信息安全监测的主动性, 增大网络安全的可编程性, 延伸舆情对抗技术的外沿, 为分布网络中的信息安全监管提供新的解决办法.

王东1,2, 孙彬1, 张绍武1,3 1.新疆财经大学 计算机科学与工程学院,新疆 乌鲁木齐 830011

2.新疆教育学院 计算机学院,新疆 乌鲁木齐 830033

3.大连理工大学 计算机科学与技术学院,辽宁 大连 116024

作者简介:王 东(1966-),男,新疆人,副教授,主要研究方向为网络信息安全.

收稿日期: 2015-12-24
基金: 教育部人文社会科学研究规划(14YJA860017); 国家自然科学基金(61562080); 新疆高校科学研究重点项目(XJEDU 20161064)
[ 论文搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印本文 ] [ 违规举报 ] [ 关闭窗口 ]

0条 [查看全部]  相关评论

相关论文
征稿推荐
投稿排行
【网站地图】 |