大数据画像在反恐中的应用

作 者: 薛煜 | 编 辑:王蕾 2021-03-30 14:55:00

  摘要:预防和打击是反恐怖工作的永恒主题。大数据画像是一种深入挖掘数据的技术手段,是大数据反恐作战的一种重要形式,它可以在恐怖袭击发生前提供有效预警信息并尽最大可能挫败恐怖袭击的阴谋;在发生恐怖袭击后根据大数据迅速勾勒作案者的轮廓,为侦查破案提供高价值情报信息。大数据画像的基本过程是将数据标签化,通过综合运用关联度分析、聚合度分析、情景构建等数据建模方法形成画像。研究表明,以大数据画像为代表的大数据、人工智能等新技术必将在未来的反恐斗争中发挥越来越大的作用。 

    

  关键词:大数据画像 恐怖主义 数据建模 情景构建 法益保护 

    

  0 引言 

  随着全球化的发展以及新旧世界政治格局的转换,地区政治动荡和宗教极端势力抬头,恐怖主义活动愈发猖獗,恐怖主义已经成为当今人类社会的公敌据全球恐怖主义数据库GTD,Globe Terrorism Database)统计,1970年—2018年期间,全球共发生各类恐怖主义袭击191464起,其中一次恐怖袭击造成10人以上遇难的就有近4万起。 如何防范恐怖主义已经成为世界各国共同面对的一个非传统安全课题。 

  

  随着云计算和大数据时代的到来,现实社会空间的每一个角落都建立了与虚拟空间的映射关系,现实空间的每一个事件都或多或少,或直接或间接地在虚拟空间留有痕迹。网络是恐怖组织开展恐怖活动的重要手段,发布恐怖信息、通信联络、训练培训、筹集资金、非法交易等活动必定会在虚拟空间留下蛛丝马迹,这就为大数据反恐作战提供了物质基础。但是大数据往往数据规模庞大,类型多种多样,非结构化数据较多,如果不进行深入挖掘,有用的信息就会被淹没在数据的海洋里。大数据画像就是一种深入挖掘数据的技术手段,它通过大数据分析,可以最大程度还原分析对象的真实面目,通过海量数据,去伪存真,为反恐作战提供有价值的情报信息。 

  1 大数据画像的反恐应用概述 

  大数据画像,又称用户画像,即用户信息标签化。最初是大数据商业运营的一种技术手段,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌。借助这一基本概念,大数据画像在反恐作战中的基本原理就是按照反恐作战的需要构建数据标签并尽可能全面细致地刻画出目标对象的信息全貌,通过机器学习的办法找到契合度最高的目标(人或事)。 

  

  大数据画像可以在反恐中发挥重要作用: 

  一是能够整体提升反恐能力。“911”事件后,美国安全部门基于数据挖掘技术,开发了计算机辅助乘客筛选系统,为美国本土各个机场提供应用接口。该系统将乘客购买机票时提供的姓名、联系地址、电话号码、出生日期等信息输入到数据库中,数据库根据预设的数据模型加工处理数据,对旅客进行大数据画像,将旅客划分为不同的风险等级低风险等级旅客将接受正常筛选,中风险等级旅客将接受额外筛选,高风险等级旅客将被禁止登机。由此可见,通过建立大数据平台,运用大数据技术和分析手段,高效完成多种来源数据的分析,并揭示出不同行为间的互动关系,进而能够运用分析算法预测危险分子的行动趋势。形成“全方位、全时空、全天候”的动态防控体系,增加对可疑情况、可疑人员的发现力,为预防与处置暴恐事件提供了可能。 

  二是能够预测恐怖犯罪。2016年美国纽约曼哈顿爆炸案的制造者艾哈迈德·汗·拉哈米制造爆炸恐怖袭击不久通过络渠道购买过压力锅、电路板、电子点火器和珠等可能用于炸弹制作的原材料,其中利用高压锅制造炸弹已经是恐怖分子的惯用伎俩此人经常在互联网浏览宗教极端内容,还曾在公共社交媒体上传播过圣战视频。再之前还曾数次前往中亚的恐怖组织活动地区,警方甚至还接到过关于他是恐怖分子举报。事后分析,安全部门原本可以提前掌握拉哈米会发起恐怖袭击的预警,因为所有相关数据经过甄选分析后都指向了同一个目标 

    

      三是能够快速识别定位恐怖分子。随着国际反恐力度的加大,恐怖分子的活动越发隐蔽,依靠传统的情报手段识别和定位恐怖分子越来越困难。大数据画像可以根据已掌握的恐怖分子的活动特征、行为特征、相貌特征、社会关系特征等建立数据模型组合(情景构建),在海量数据中筛选符合数据模型组合的人群范围,从而大大缩小甄别的难度,实现快速识别定位恐怖分子。 

  四是能够推动恐怖案件的侦破。2013年美国波士顿马拉松比赛炸弹爆炸案发生后,警方通过走访事发地点附近街区的居民,收集了大量的私人视频照片资料同时在互联网上搜集爆炸案发生前后的现场活动视频和照片。通过对各方面数据的比对、查找,警方最终视频录像中锁定犯罪嫌疑人并成功截取出了嫌疑人照片发出通缉令,从而为最终追捕罪犯提供了确凿的证据和可靠的参考。 

  2 大数据画像的数据来源 

  数据是大数据画像的基础,没有数据就没有大数据画像。但是大数据画像与数据之间并没有严格的分界线,大数据画像可以看作是一个对原始数据进行二次计算重构后的新数据。如果把最终需要的目标画像看作一个整体结果,那么在大多数情况下,它又是由众多子画像综合计算的结果,这些子画像既是大数据画像又是数据。据此,我们可以把大数据画像的数据来源分为原始采集的基础数据与加工产生的过程数据。 

  基础数据最主要的特征是没有经过主观判断和机器加工,主要包括人口信息库的人员信息数据、车辆管理系统的车辆数据、交通出行数据(铁路、民航、住宿业)、网络购物及物联网数据、案件信息数据、视频采集数据、出入境记录数据、银行金融数据等等。这些数据来源广泛,涉及社会管理和公共服务的方方面面,需要政府层面打通各部门之间的数据壁垒,实现数据共集共享共治。基础数据大多为静态数据,是数据仓库的基本单元,也是后续开展数据加工的原材料。应当确保基础数据的洁净度,最大程度防止混入“脏数据”,同时做到数据采集的标准化,尽量减少非结构化数据。 

  与基础数据不同,过程数据是主观判断或机器加工的产物,是大数据画像过程中的子画像。这里需要特别阐述的一个观点是:就某次应用而言,其得到的大数据目标画像不仅是该次大数据画像过程的结果,同时也应该被存储保留,作为下一次大数据画像应用的原材料。从信息学角度来说,过程数据与原始数据相比存在一定程度的信息损耗,但从数据价值提炼的角度来说,通过某次应用而得到处理加工的过程数据在目标针对性上要明显优于原始数据,对历次大数据画像形成的子画像的再利用不仅可以提高大数据画像应用的效率,还可以提高目标筛选的精准度,降低因数据分散而导致信息遗漏的可能性。 

  从数据来源的再利用角度来看,大数据画像应该是一个循环往复、不断修正加工和深度学习的过程。 

     

  3 大数据画像的数据建模 

  如果把数据看作大数据画像的原材料的话,数据建模就是大数据画像的模具。有了数据之后,数据建模就是关键步骤了,数据建模的合理性和科学性将直接决定大数据画像的可信度和精准度。大数据画像的数据建模技术包括定量建模和定性建模两种。 

  3.1 定量建模 

  定量建模建立在对可量化数据进行加工、处理、分类或判定的基础上,比如根据年龄可将人群划分为不同的年龄段,根据地理信息定位数据测算特定人到访特定地点的次数,根据通讯记录获知特定通讯的频率等等。定量建模的优势是结果直观、构建简单、颗粒度可调,但同时也带来其不足之处,包括建模结果的不唯一性和可读性较差,定量建模一般无法清晰、确定地描述分析对象的特征,所以仅仅依靠定量建模无法精准地进行大数据画像,根据定量建模的性质可知,定量建模在大数据画像工作中更多的价值是为定性建模提供分析基础。 

  3.2 定性建模 

  相比定量建模,定性建模要复杂一些。定性建模是综合运用判别分析、逻辑关联分析、机器学习等方法和工具,对分析对象进行综合研判,形成更加清晰的大数据画像的分析过程。定性建模可以建立在定量建模的基础上。 

  数据画像定性建模的核心是将数据标签化。标签通常是人工定义的高度精炼的特征标识,如重点人员标签,地域标签等。语义化和短文本是标签呈现出的两个重要特征,其中语义化特征赋予标签一定的含义,使人能够很容易理解这些标签;短文本特征使标签本身无须再做过多文本分析等预处理工作,便利计算机的标签提取、聚合分析。通过标签化,首先可以帮助计算机自动完成分类统计功能,例如可以通过网络购物统计购买特定物品的人员有哪些,还可以进一步在这些人员中统计哪些是重点人员。其次,可以根据标签进行深入挖掘,开展关联度分析。比如可以利用关联规则计算上例中购买特定物品的重点人员近期的活动轨迹在哪里,重点联系的关联人员有哪些,经常通过互联网观看哪些内容(是否有涉恐涉暴内容)等。再比如还可以利用聚类算法分析具有恐怖犯罪动向的人员重点关注哪些地点,重点关注哪些事件,从而预判实施恐怖犯罪的重点方向、地域或领域。 

  3.3 数据建模的情景构建(组合建模) 

  定量建模和定性建模是大数据画像的两种数据建模技术,但无论是定量建模技术还是定性建模技术,单个数据模型都很难形成完整的大数据画像,因此,在数据建模基础上的情景构建是最终完成大数据画像的关键。所谓情景构建,简单说就是数据模型的组合应用。每个模型都是基于一种假设的模拟结果,而现实情况是很多种假设条件的有机结合,这就导致每个模型在对现实的刻画上都有其优点,同时也存在缺点或者不足。因此,对现实世界的模拟需要将各种情景进行组合构建。实际操作中,我们可以根据专家知识结合以往案例,对多个数据模型的结果按照一定的逻辑关联关系进行组合。为了直观说明情景构建的原理,我们仍然以前文提到的2016年美国纽约曼哈顿爆炸案为例进行模拟建模和情景构建: 

  恐怖袭击制造者艾哈迈德·汗·拉哈米被举报是恐怖分子,通过定性建模可以打上涉恐标签;经常在互联网浏览恐怖内容并在公共社交媒体账户上传相关圣战视频,多次前往中亚的恐怖组织活动地区,这些数据信息可以通过定量基础上的定性分析打上涉恐标签;购买压力锅、电路板、电子点火器和钢珠等可能用于制造爆炸物的原材料,通过逻辑关联分析可知可能与爆炸物制造相关联。根据自制爆炸物大数据统计分析经验,压力锅是高使用率的爆炸物制作原材料,在数据建模时尤其应该重点标记关注,提高该指征数据在建模中的重要性,通过建模分析得出有制造爆炸物的可能,可以打上涉恐标签。以上每一条线索都可以看作是一个或几个数据建模的分析结论,但是如果孤立看待每一个事件,可能都不足以和爆炸案关联起来或者关联强度不足,但是如果将多个事件综合在一起,就会勾勒出一个爆炸案的情景,形成一个爆炸案的大数据画像。 

  4大数据画像的分析利用 

  通过大数据画像主要实现两个方面的目的:首先是辅助预警作用,通过设定预警临界阈值建立预警触发机制,一旦有数据触发临界点便主动向情报分析人员推送预警信息,最后由人工综合研判预警信息的情报价值。二是发现涉恐案件破案线索作用,恐怖案件发生后,如何锁定犯罪分子成为首要解决的问题。通过搜集案件现场发现的痕迹物证以及其他各方面有价值的线索信息,可以开展大数据画像,为案件排查范围的确定提供辅助依据。 

  大数据画像的分析利用应合理设置颗粒度。由于大数据画像是基于数据的预测,带有一定的不确定性。因此在分析利用中要科学界定大数据画像的颗粒度,即大数据画像要求精细到何种程度。颗粒度越小,大数据画像越细致,准确性就越高。但是相应也会带来对数据的要求也越高的问题,提高了大数据画像数据建模的成本,降低了效率和适用性,在预警中可能遗漏有价值的预警信息(颗粒度越小,预警临界阈值越高),在主动发现破案线索中可能遗漏关键线索。颗粒度越大则与之相反,可能频繁触发误报警和给甄别案件线索带来冗杂信息。因此,在大数据画像中要科学设置颗粒度。颗粒度的设定要因时因地因情景设定,是一个动态调整的结果,不能一成不变。一般而言,在数据信息量大、精确度高的情形下,宜将颗粒度适度降低,反之则需要提升颗粒度。 

  大数据画像应注重基于知识工程的分析利用。知识工程是一门以知识为研究对象的学科,最早是由美国斯坦福大学计算机科学家费根鲍姆教授在1977年第五届国际人工智能会议上提出的,他认为“知识工程是人工智能的原理和方法,为那些需要专家知识才能解决的应用难题提供求解的手段,恰当运用专家知识对获取、表达和推理过程进行解释,是设计知识体系的关键问题。”知识工程主要采用人工智能的原理和方法,研究知识的获取、表示、验证、推理和解释,通过将智能系统中的基本问题抽象出来,将专家经验转换为计算机可处理的知识,从而实现对问题的自动求解。恐怖与反恐怖的较量越来越体现专业化和高科技特性,专业知识在数据收集、加工、研判等环节发挥着重要作用,大数据画像的形成过程需要专业知识,分析利用同样需要专业知识,否则就无法从大数据画像中解读有用的信息,甚至无法形成准确的大数据画像。因此,一方面要强化处理大数据画像智能系统的机器深度学习能力,让机器变得更加“聪明”;另一方面,使用大数据画像的情报分析人员也要向复合型知识结构发展,既要精通警务业务,更要熟知计算机知识,成为计算机和一线反恐人员之间的信息桥梁。 

  5数据收集与利用中的法律问题 

  全面依法治国是党的十八大提出的四个全面战略布局的重要内容。任何组织个人、任何工作都不能游离于法律之外,都必须在宪法和法律的框架下开展活动,反恐怖工作亦是如此。2016年1月1日正式实施的《中华人民共和国反恐怖法》是我国第一部专门针对反恐工作的法律文件,是开展反恐怖工作的基本法律遵循。反恐怖法对反恐怖数据信息的收集、利用与保护做出了系统性地规定,这些法律条款为大数据画像开展数据收集与利用提供了基本法律依据。 

  5.1 数据收集与利用的法律依据问题 

  反恐怖法第18条规定“电信业务经营者、互联网服务提供者应当为公安机关、国家安全机关依法进行防范、调查恐怖活动提供技术接口和解密等技术支持和协助。”除此之外,反恐怖法还要求有关实体将以下数据信息按要求提供给国家反恐怖主义情报中心: 

  ·铁路、公路、水上、航空的货运和邮政、快递等物流运营单位安全防范工作中获取的信息; 

  ·电信、互联网、金融、住宿、长途客运、机动车租赁等业务经营者、服务提供者安全防范工作中获取的信息; 

  ·生产、进口、运输枪支等武器、弹药、管制器具、危险化学品、民用爆炸物品、核与放射物品单位安全防范工作中获取的信息; 

  ·国务院反洗钱行政主管部门、国务院有关部门、机构依法对金融机构和特定非金融机构履行反恐怖主义融资工作中获取的信息; 

  ·审计、财政、税务等部门在依照法律、行政法规的规定对有关单位实施监督检查的过程中,发现资金流入流出涉嫌恐怖主义融资的信息; 

  ·海关在对进出境人员携带现金和无记名有价证券实施监管的过程中,发现涉嫌恐怖主义融资的信息。 

  除了以上常规数据信息收集的渠道外,反恐怖法还规定了特殊情况下经严格审批后采取技术侦查获取信息数据的渠道。在能力建设方面,为了保障有效获取信息数据的能力,反恐怖法还在收集数据信息的措施上做了规定,要求地方各级人民政府应当根据需要,组织、督促有关建设单位在主要道路、交通枢纽、城市公共区域的重点部位,配备、安装公共安全视频图像信息系统等防范恐怖袭击的技防、物防设备、设施。 

  5.2数据保护的相关法律问题 

  数据信息是反恐怖的一把利器,同时也是一把双刃剑。利用得好,可以起到打击恐怖主义、法益保护的正面效果。利用不好,就可能会侵犯公民的个人隐私和公共法益。因此,必须高度重视反恐怖数据利用中的数据保护问题,在数据利用与数据保护之间寻找最佳平衡点。 

  我国宪法规定,公民的通信自由和通信秘密是公民的一项基本权利,除因国家安全或者追查刑事犯罪的需要,由公安机关或者检察机关依照法律规定的程序对通信进行检查外,任何组织或者个人不得以任何理由侵犯公民的通信自由和通信秘密。我国的反恐怖法同时也规定,公安机关、国家安全机关、军事机关采取技术侦查措施获取的材料,只能用于反恐怖主义应对处置和对恐怖活动犯罪、极端主义犯罪的侦查、起诉和审判,不得用于其他用途。反恐怖主义工作领导机构、有关部门和单位、个人应当对履行反恐怖主义工作职责、义务过程中知悉的国家秘密、商业秘密和个人隐私予以保密。我国刑法修正案(七)规定,国家机关或者金融、电信、交通、教育、医疗等单位的工作人员,违反国家规定,将本单位在履行职责或者提供服务过程中获得的公民个人信息,出售或者非法提供给他人,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金。由此可见,我国在注重反恐怖数据收集与利用的同时,也为公民的个人数据信息保护织就了一张严密的法网。 

  6 结论 

  大数据画像在反恐作战中的应用自始至终都贯穿着两大哲学理念,一是辩证唯物主义,即世界是物质的,只要存在过就会留下痕迹,这是开展大数据画像的物质基础,只要发掘,就会发现各种数据信息,这一理念解决的是数据来源的问题;二是普遍联系的观点,即世界万物是联系的,不是孤立的,要把散布的数据信息通过数据建模联系起来,建立起关联关系,运用整体观念形成大数据画像,这一理念解决的是数据利用问题。随着科技的发展,大数据的数据来源渠道和数据量越来越多,人工智能的深度学习能力越来越强,以大数据画像为代表的大数据、人工智能等新技术必将在未来的反恐斗争中发挥越来越大的作用。 

    

  参考文献:  

  [1] https://www.start.umd.edu/gtd/21/05/2020 

  [2] 赵宏田著,《数据画像方法论与工程化解决方案》,机械工业出版社2020年2月第1版,第1页。 

      [3] 牛温佳等著,《用户网络行为画像》,电子工业出版社,第10页。 

  [4] LU R. Knowledge engineering and knowledge science at the turn of the center[M]. Beijing: Tsinghua University Press,2001.2.