新書推薦:
《
高敏感女性的力量(意大利心理学家FSP博士重磅力作。高敏感是优势,更是力量)
》
售價:HK$
62.7
《
元好问与他的时代(中华学术译丛)
》
售價:HK$
87.4
《
汽车传感器结构·原理·检测·维修
》
售價:HK$
109.8
《
怪谈百物语:不能开的门(“日本文学史上的奇迹”宫部美雪重要代表作!日本妖怪物语集大成之作,系列累销突破200万册!)
》
售價:HK$
65.0
《
罗马政治观念中的自由
》
售價:HK$
50.4
《
中国王朝内争实录:宠位厮杀
》
售價:HK$
61.6
《
凡事发生皆有利于我(这是一本读了之后会让人运气变好的书”治愈无数读者的心理自助经典)
》
售價:HK$
44.6
《
未来特工局
》
售價:HK$
55.8
|
編輯推薦: |
本书是大数据王的首部个人专著。大数据时代是充满无限生机的时代,也是一切都有可能的时代。本书为人们提供了柴郡猫智慧的小样本。
|
內容簡介: |
本书紧扣“大数据”这一时代主题,着眼于侦查领域大数据运用在法律研究方面的空白,构建起包括思维、模式、方法等全方位的大数据侦查体系,同时对大数据侦查可能产生的法律问题进行探讨,为侦查实务中大数据的运用提供方法、法律理论及程序上的指导。
|
關於作者: |
王燃,中国人民大学法学博士,师从何家弘教授,主攻证据学。研究领域:证据法学、刑事诉讼法、大数据、电子数据、刑事错案等。近5年以来,编著《所有人的正义:中国刑事错案预防与救济指南》一书,合著《迟到的正义影响中国司法的十大冤案》《外国司法判例制度》,编译《国外电子证据适用指南选译》(部分章节);在《法律科学》《国家检察官学院学报》《中国检察官》《山东警察学院学报》《青年法学》《刑事法判解研究》《法学家茶座》、EURO-ASIAN LEGAL FRONTIERS REVIEW等法学期刊发表文章十余篇;参加国家社科基金项目大数据时代电子文件的证据规则与管理法制建设研究、教育部人文社会科学重点研究基地重大项目网络安全的刑事法治应对、国家社科基金青年项目信息化时代庭审方式变迁的实证研究、教育部哲学社会科学重大课题攻关项目法治国家建设中的司法判例制度研究、福特基金会项目预防刑事错案国际研讨会、全国人大财经委项目电子商务立法等多项课题。
|
目錄:
|
第一章导论1 第一节背景介绍1 第二节文献综述2 一、 有关大数据的研究综述及评价2 二、 有关大数据侦查概念的研究综述及评价7 三、 有关大数据技术在侦查领域运用的研究综述及评价9 四、 有关大数据侦查与传统侦查相比较的研究综述及评价12 五、 有关大数据侦查所存在问题及回应的研究综述及评价14 第三节创新及意义17 一、 创新之处17 二、 研究意义18第二章大数据及大数据侦查介说20 第一节大数据的介说20 一、 大数据的沿革与发展20 二、 大数据的概念与特征25 第二节大数据侦查的介说29 一、 大数据侦查概念的提出30 二、 大数据侦查的特征35 三、 大数据侦查与技术侦查、侦查技术37 四、 大数据侦查与信息化侦查、情报导侦40 五、 大数据在侦查中的运用形式44 第三节大数据侦查的价值47 一、 推动事后侦查向事前侦查转型47 二、 推动被动侦查向主动侦查转型49 大数据侦查目录三、 推动单线侦查向协作侦查转型50 四、 推动粗放式侦查向集约式侦查转型50 第四节本章结论52第三章大数据侦查的思维54 第一节大数据侦查思维的体现54 一、 相关性思维54 二、 整体性思维56 三、 预测性思维59 第二节大数据侦查思维的误区62 一、 数据越多越好62 二、 数据源可以不精确63 三、 大数据一定是客观准确的65 四、 相关性可以替代因果性72 五、 预测性违背无罪推定原则74 第三节大数据侦查思维对司法证明的影响75 一、 对传统司法证明相关性的影响76 二、 对传统司法证明标准的影响79 第四节本章结论82第四章大数据侦查的模式84 第一节个案分析模式和整体分析模式85 一、 个案分析模式与整体分析模式的区分标准85 二、 个案分析模式与整体分析模式的比较85 三、 个案分析模式与整体分析模式的区分意义86 第二节回溯型侦查模式和预测型侦查模式88 一、 回溯型侦查模式和预测型侦查模式的区分标准88 二、 回溯型侦查模式和预测型侦查模式的比较90 三、 回溯型侦查模式和预测型侦查模式的区分意义92 第三节原生数据模式和衍生数据模式95 一、 原生数据模式和衍生数据模式的区分标准95 二、 原生数据模式和衍生数据模式的比较96 三、 原生数据模式和衍生数据模式的区分意义97 第四节人数人模式和案数案模式99 一、 人数人模式和案数案模式的区分标准99 二、 人数人模式和案数案模式的比较99 三、 人数人模式和案数案模式的区分意义101 第五节案数人模式和人数案模式102 一、 案数人模式和人数案模式的内涵102 二、 案数人模式的运用104 三、 人数案模式的运用106 第六节本章结论107第五章大数据侦查的方法109 第一节数据搜索109 一、 数据库搜索109 二、 互联网搜索112 三、 电子数据搜索114 第二节数据碰撞116 一、 数据碰撞的原理116 二、 数据碰撞的示例118 第三节数据挖掘123 一、 手机数据挖掘124 二、 话单数据挖掘132 第四节数据画像136 一、 数据画像的原理136 二、 数据画像的示例139 第五节犯罪网络关系分析140 一、 犯罪网络关系分析的缘起140 二、 犯罪网络关系分析的原理及示例142 第六节犯罪热点分析145 一、 犯罪热点分析的原理145 二、 犯罪热点分析的示例146 第七节大数据公司调取数据149 第八节本章结论152第六章大数据侦查的制度构建154 第一节大数据侦查的权利保障制度154 一、 大数据侦查对个人信息权的冲击154 二、 大数据侦查中个人信息权的保障制度165 第二节大数据侦查的程序保障制度170 一、 大数据侦查的黑箱效应170 二、 大数据侦查的正当程序规制173 第三节大数据侦查的相关配套机制175 一、 大数据侦查的数据共享机制176 二、 大数据侦查的技术应用平台180 三、 大数据侦查的第三方行业规范183 第四节本章结论191 结论193 参考文献195 后记203
|
內容試閱:
|
爱丽丝: 请你告诉我该往哪个方向走。柴郡猫: 这取决于你要到哪里去。爱丽丝: 我并不在乎要到哪里去。柴郡猫: 那你走哪条路都没关系。爱丽丝解释道: 我只想去任何一个地方。柴郡猫: 你一定能够实现这个愿望,只要你走的够远就可以了。那还是2014年,我开始研读英国学者舍恩伯格的经典之作《大数据时代: 生活、工作与思维的大变革》,被其中的恢宏描述震撼到了。之后又看了中国学者涂子沛的《大数据》等相关著作,进一步被大数据战略、数据革命、数据帝国、数据治国、数据开放、大趋势、大挑战以及大变革等词汇所打动。随后,我开始郑重思考自己所在团队中国人民大学电子证据研究小组我们自称人大团队,在法学研究方面该不该向大数据法律和司法方向转型。这时,我看到了当时网上风靡的帖子,它以《爱丽丝梦游仙境》的场景为例,讲述了大数据技术中数据挖掘的魅力任何业务问题都可以转换为数据挖掘问题。我理解,这是大数据时代的寓言。人大团队并不是一个严谨的学术机构,它是由人大法学院、信息学院、信息资源管理学院的师生基于共同的兴趣走到一起形成的。它也有研究平台和实务平台,前者包括人大法学院的证据学研究所、网络犯罪与安全研究中心、知识工程与数据工程教育部重点实验室等;后者包括中国人民大学物证技术鉴定中心、人大法学院证据学实验室等。后来,我们又陆续聘请了公检法纪以及公证、鉴定机构、科研院所等部门朋友参加。逐渐壮大了队伍,形成了覆盖电子证据全行业的规模。有了共同的研究旨趣,人大团队做了很多针对电子证据的法律与技术交叉、理论与实务跨界的工作,在电子证据的法治建设、理论创新、实务推动方面做得颇有声色。人大团队并没有名义上的负责人,我的恩师何家弘教授算是精神领袖。早在2000年9月,他访问日内瓦国际电信联盟等机构归来,敏锐地决策要认真研究电子证据问题。何家弘主编: 《电子证据法研究》,前言部分1~2页,北京,法律出版社,2002。这是人大团队面向IT时代的一次布局。事实证明,此次布局是非常有远见的,且相当成功的。大数据侦查序那么,人大团队在DT时代该做出什么样的贡献呢?变与不变,就是首先面对的问题。一方面,大数据泛滥。许多人言必大数据,但真真假假、虚虚实实,浮夸的成分不少。大数据能否支撑一个时代,能否改变社会方方面面,当时尚不明确。即便大数据技术就是时代性的,我国是否需要配套的司法治理、法治建设,也令人疑惑。人大团队一旦转型,能否一如既往地形成独特优势,也需要琢磨。另一方面,法律人不能缺席大数据。大数据是一座巨大的金矿,法治的阳光不能照耀到是不可能的。2013年美国奥巴马总统大数据总统将之定义为未来的新石油,将大数据战略上升为国家意志,声称未来对数据的占有和控制甚至将成为国家核心资产。就国内而言,2011年温州动车事故也开始让人们领略到了社交大数据的威力。当年7月23日20时30分05秒, D301次列车与D3115次列车在温州发生动车组列车追尾事故。在专案组成立之前,新浪公司就发布了3286883条关于这起事件的微博;之后,基于700多万条微博制作了视频,从事故现场、寻人、遇难名单、献血现场等多角度展示这次突发事件的真相。至此,我冥冥中受《爱丽丝梦游仙境》柴郡猫说法的启示,决定拓展团队研究范围。事实证明,这一决策是正确的。大数据发展的潮流是不可抗拒的,大数据法律和司法的改变也是亟需的。中国计算机学会大数据专家委员会在2013年中国大数据发展白皮书与2014年大数据发展趋势预测报告中论断,2014年将是大数据从概念走向价值的元年。2015年后,我国的大数据发展急剧加速: 7月,《国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见》发布,提出运用大数据加强对市场主体的服务和监管;8月,国务院发布《促进大数据发展行动纲要》,推动各行业大数据发展,强调数据资源共享开放;10月,党的十八届五中全会明确提出 国家大数据战略;今年3月,十三五规划纲要出台,再次强调国家大数据战略。司法系统也开始加入大数据的时代潮流。仅就公开的新闻报道来看,今年下半年中央政法委孟建柱书记、最高人民检察院曹建明检察长、李如林副检察长等纷纷率团调研贵州大数据交易中心,为大数据 司法进行布局。尤其是2016年10月21日,上午高检院召开了大数据应用研究会,下午中政委请马云给全国政法队伍讲授大数据等科技创新在社会治理中的运用。大数据法律共同体已经全面行动。人大团队较早地转向大数据法律研究,也就是打开了另外一扇窗。2015年5月13日,我第一次受邀给全国军队保卫部门讲授《大数据侦查与大数据证据》,获得了良好的赞誉,尽管当时的认识还不够深入。此后,我陆续以《大数据时代网络安全问题与挑战》《大数据推动检察办案变革》《大数据在检察办案中的运用》《大数据在纪律审查中的运用》等为题开讲,得到了越来越多的认同,在此过程中也与一线办案同志交流了宝贵经验。实务中,我们积极改造所熟悉的手机取证业务,拓展基于大数据取证的司法鉴定工作,并在个案中获得成功。我们还敏锐地发现,几乎所有的大数据公司都通过手机APP,收集广大用户位置等信息,而这一现象将会极大地改变现有的侦查制度、证据制度和权利保障制度。2015年12月,每年一度的网络犯罪高峰论坛召开,我代表团队就大数据的证据价值、侦查模式与权利保障发言,以丰富的实践案例和直观的技术图示吸引了场内外广大专家学者的热议。今天看来,万物皆数据,数据司法是未来科技司法的主方向,司法人员将越来越离不开大数据引领等言论,越来越成为新的共识。这些规律我们较早地感受到了,也作了一些有益的探索与推动。人大团队在许多场合都呼吁,我国的网络安全、反贪侦查、纪律审查、食安执法、网信执法、文化执法等工作都应加强大数据的运用,深化同大数据公司的合作,同时有效规制大数据的安全与共享问题,并能够给出具体的方案。大数据法律与司法问题归根到底是下一代年轻人的舞台。在这一进程中,人大团队很多年轻人开始持续发力。谢君泽老师在挖掘电子文档痕迹方面有着独到的认识,他基于对批量产生的文档痕迹进行分析,成功地协助查办了国家审计署审计华润公司煤矿并购的泄密案件、天津港812爆炸案之安评部门渎职犯罪案件等。我去微软中国公司交流时,方得知这可以叫做大痕迹数据。君泽虽不是我名下的学生,但却是辅助我时间最长、最得力的助手和骨干,现已名声在外,前途无量。徐菲、张杨杨、郭树正同学很早就配合我对电子定位技术进行研究,探索收集APP背后的IP地址、MAC地址等大数据的方法,并已日臻成熟;周迪、吕宏庆同学擅长互联网数据挖掘,对网络舆情分析、数据画像及数据碰撞等率先探索;陈泽鸿、张洪铭同学积极试用人大信息学院开发的时事探针平台,试探性地绘制了我国的反腐败指数图、网络犯罪指数图;张艺贞、黄砻同学较早借鉴国外OPEN DATA机制,对国内公开数据库如何归整利用进行实验;胡聪同学运筹帷幄,组织团队对BAT公司调研,推动网信部门和检察部门建立大数据公司有效协查调证机制;王耀同学撰写《职务犯罪侦查的大数据模式初探》一文,展示了反贪工作中借助大数据的现实与前景这样的优秀学生很多,他们以自己的方式在感受大数据时代的脉搏。此外,人大团队特别注意与外面的大数据专家合作。外脑的指导对于我们开展研究起到了关键性的作用。例如,人大信息学院院长文继荣教授曾经长期任职于微软公司,我们多次登门拜访求教大数据知识,文教授不吝解惑,并无偿向我们提供了时事探针应用平台,还根据我们的需要特意对中国裁判文书网的海量裁判文书进行大数据分析;人大公共决策实验室王克平主任多次为我们提供最先进的大数据可视化展示实验室,不厌其烦地展示大数据在公共决策、司法办案中的运用;人大信息资源管理学院的钱毅等教授也伸出援手,协助我们成功申报国家社科基金项目大数据时代电子文件的证据规则与管理法制建设研究,促成了一个跨越法学与电子文件管理学的大数据研究机会。中国科学院高能物理研究所的许榕生教授、香港大学K.P.Chow教授也不吝赐教,分享了他们在大数据分析及预测方面的宝贵经验。还要特别感谢来自我挂职的检察系统,以及检察行业的朋友。他们让我们看到了大数据与检察工作、大数据平台建设、大数据预防、大数据初查、大数据侦查、大数据管理、大数据挖掘、大数据碰撞、大数据画像等鲜活例子,也讲授了他们在实务中积累的宝贵经验。大数据转型研究之路上,这样的同道者,我们有很多很多,铭记于心。王燃博士也是人大团队一员,是最值得称赞的大数据法律制度探索者。我依稀记得她初到人大法学院证据学教研室的场景。那一年级共有五位法学硕士,她看起来话不多,抽签师从我的恩师何家弘教授跟我同辈呢。不过,我也给她上课,带着她做项目。硕士两年、博士三年下来,她给我的印象不是最聪明的学生,但却蛮有智慧,更是执行力超强。马云说过,大数据时代电脑一定比人类聪明,但人类永远比电脑有智慧。王燃是不是人大团队中的有智者呢?天知道,反正她选择了大数据法律和司法作为研究方向。忘了是什么时候,她征询我关于博士研究方向的建议。我可能随口说了大数据法律问题研究很有前景。其时我的内心想法是,团队必须研究大数据法律问题,但这个主导者可能未必是她。结果她认真了,很快拿出了文献综述和写作提纲。而这个题目对于她而言,显然是有相当难度的。她既没有技术背景,也对实务不甚了解,还不了解海外发展情况。谁知道她会怎么切入研究?她会不会做出成果?她的智慧就是认定了就做。她挤出时间到北京市检察院挂职,尽快了解实务;她访学台湾地区,了解境外情况;她更瞅准时机向各位老师求教,博采众长;她还虚心向法律硕士的师弟师妹们学习手机取证、大数据分析等经验,弥补了自己技术盲的短板。我记得博士论文开题时,她拿出了一份不太好的写作提纲。导师组建议重新梳理另起炉灶,而我直接提议她集中研究当时已经热兴的大数据侦查,写透大数据侦查的思维、模式、措施、制度等基础问题。没想到,半年后她真的如样交出了论文稿。当然,她也付出了身心交瘁的代价,她经常跟熟悉的同学开玩笑说最后悔读博士了,弄得一脸痘。其实,她博士论文答辩通过时满是喜悦,在场的每个人都能够感受到她的心情。几个月后,她便将博士论文修改完善出版,这也是执行力强的明证。当前我国政法系统正积极向大数据技术靠拢、向大数据战略转型。这时收到她《大数据侦查》专著文稿,我也非常欣慰。人大团队终于有成员拿出了大数据法律的第一本专著,这应该也是国内的第一本大数据侦查论著。我想,这就像我2004年出版《中国电子证据立法研究》专著一样,走出第一步就意味着良好的学术开端。我相信,她还会推出诸如《大数据证据》《大数据权利法律保护》之类的几部曲。据我了解,她的论文《大数据时代侦查模式的变革及其法律问题研究》荣获了第11届中国法学青年论坛主题征文一等奖,她以大数据侦查与大数据证据开启了天津大学的北洋法学学术沙龙第一讲,她还受邀给全国检察机关第一次大数据专班主讲大数据证据。崭露头角的她,会在这条道路上走好走远!以我的学术眼光,王燃博士的《大数据侦查》一书具有相当的创新性: 一是概念的全面创新。她构建起大数据侦查较为完整的框架,包括概念、思维、模式、方法及相关制度构建等。二是重要观点具有前瞻性。本书很多观点是在博士论文中表达的,当时提出的很多观点现在看来具有相当的前瞻性,并已逐渐被证实。例如,书中揭示了大数据热潮下的一些思维误区;强调大数据相关思维和预测思维在侦查中的广泛运用前景,尤其是预测性,必将推动事后侦查向事前侦查、预测侦查转型;提出大数据侦查的模式,强调从数据空间去寻找突破点;提出大数据搜索、大数据碰撞、大数据画像、大数据挖掘、犯罪热点分析、犯罪网络分析、大数据公司取证这几种大数据侦查的具体方法,已经越来越为实务部门所开发运用;强调大数据侦查在发展技术、应用的同时,要注意其所带来的法律问题以及对传统法律原理、规则的冲击,应当对大数据侦查进行一定的程序规制。诚然,这本书也难免有幼稚和错误之处,这有赖于读者们的慧眼识别。马云还说过,整个大数据时代最重要的事情,是要做到事前诸葛亮'',就是要有预防机制。《大数据侦查》一书在某种程度上也是事前诸葛亮。王燃博士是不是在两年前就预测到了大数据 司法在今天的热络呢?是不是也昭示着大数据司法在未来的突起呢?大数据时代是充满无限生机的时代,也是一切都有可能的时代。王燃博士出版《大数据侦查》为人们提供了一个柴郡猫智慧的小样本。同时,本书的出版也为人大团队的大数据之行留下了一个印记。我相信,这本书开卷有益。我期望,人大团队在DT时代做出新的华丽转身。刘品新2016年10月22日写于拉萨
第三章大数据侦查的思维本章主要从思维层面出发,探讨大数据侦查的思维特征,包括相关性思维、整体性思维、预测性思维。与此同时,也对当下大数据过热浪潮中一些思维误区进行了澄清,强调大数据不是万能的,大数据也有出错的可能。与此同时,大数据侦查的思维特征还会对传统的诉讼程序、司法原理等带来一定的影响,如预测性思维对无罪推定原则的影响,相关性思维对司法证明原理的影响等。第一节大数据侦查思维的体现〖*45〗一、 相关性思维相关性思维是大数据之父舍恩伯格所提出的大数据三大思维特征之一,并且是大数据最重要的思维变革。长久以来,我们人类的思维范式都是一种诞生于小数据时代的因果关系思维,强调原因在前,结果在后,先产生一个假设,然后再去验证假设的正确性。传统的侦查思维乃至整个法律领域的思维,都是建立在因果逻辑的基础上,对犯罪事实的认定,必须严格地遵循因果关系逻辑,要求证据与事实之间具有引起与被引起的因果关系。然而,大数据却颠覆了人类传统的因果思维,强调事物之间的相关关系而非因果关系。大数据的相关性主要通过量化两个数值之间的数理关系而得出,这种相关性只能告诉人们是什么却不能解释为什么,即知其然而不知其所以然,凭借人类的主观经验有时候也难以对这种相关性进行因果关系解释。将大数据的相关性思维运用至侦查中,可以大大拓展侦查的思维视野,发掘更多的线索、情报。具体而言,侦查人员可以从以下两个方面运用大数据相关性思维。第一,找到一个关联物并监测它,这是大数据的一个经典理论,大数据可以找到一个现象的良好关联物,通过对关联物的分析来观测现象本身。大数据的这一原理同样可以运用于侦查领域,如果甲和乙经常一起出现,只要甲现象发生了,那么我们就可以推测乙现象也发生了。例如可以通过对证券账户的观测来监控证券欺诈现象,可以通过对个人资产数据的监控来判断国家工作人员是否有贪污受贿嫌疑等,可以通过对社交关系网的分析来判断哪些人与恐怖分子有联系等,这些都是大数据相关关系在侦查中的具体运用。并且,随着大数据技术的发展,未来我们不再需要人工选择关联物,大数据通过计算能够告诉我们谁是最好的代理人。\[英\]维克托迈尔舍恩伯格,肯尼斯库克耶: 《大数据时代》,盛杨燕,周涛译,75页,杭州,浙江人民出版社,2013。大数据侦查第三章大数据侦查的思维第二,挖掘数据背后的相关性。在传统的侦查中,侦查人员凭借主观能力、主观经验,往往只能收集看起来与案件有明显因果关系的线索、证据,但是大数据方法则能够从海量看似与案件无关的数据中挖掘出相关信息,并用作案件侦查的线索。例如现在侦查实务中所流行的手机数据挖掘、话单数据挖掘方法,海量的手机数据、通讯数据看似与案件并无关系,但是对其进行数据挖掘后,则能够发现当事人的行踪轨迹、人际交往关系、通话规律、购物规律等大量有价值的信息。这些信息看似与案件事实没有因果关系,但经进一步分析后能够为案件侦查提供线索、情报。例如在J省W市检察院查办的一起贪污贿赂案件中,举报人称嫌疑人受贿贪污资产达上千万元,但侦查人员并没有发现嫌疑人本人、家庭成员房产、银行存款、证券资产等明显异常情况。后侦查人员对嫌疑人的手机数据进行收集并分析,发现以下几条敏感信息: 通讯录中多位密切联系人为该区著名公司企业老板,深圳某区供电局告知本月用电度数和电费金额,嫌疑人咨询如何办理移民香港手续。侦查人员事先已知其女儿在香港定居,结合手机中的敏感信息,推测嫌疑人在深圳有房产,资产大部分已经转移香港,并有移民香港的倾向,并据此为突破口对嫌疑人展开讯问;同时,分析有关公司经营活动与嫌疑人职责职权的关联关系,对与嫌疑人密切联系的企业老板进行深度话单分析;侦查人员还根据手机数据对嫌疑人的兴趣爱好、行为特征以及交往群体进行了分析并以此来制定审讯策略。最终案件成功侦破,查获嫌疑人受贿556万余元,贪污20余万元的犯罪事实。在本案中,手机大数据大大拓展了侦查范围,很多隐藏的线索在大数据技术下纷纷浮出水面。由此可见,大数据相关性思维能够大大拓展侦查线索、情报的来源。引导侦查人员多角度、全方位地寻找案件破案口。这也提醒了侦查人员,在直接对案件嫌疑人展开侦查有障碍时,可以从与人或事相关的现象着手展开分析;当物理空间的线索、证据不足时,侦查人员可以寻找虚拟空间的相关数据,通过对数据的二次分析来发掘更深层次的信息。二、 整体性思维在小数据时代,由于人类获取信息的能力有限,在面对大量数据集时,只能采用抽样调查的方法,希望通过科学的抽样方法来获取尽可能准确的统计结果。但即使选取样本的方法再科学,也无法获取全部的数据,而一些重要的信息很可能就在这些非样本数据中。构建于小数据时代的传统侦查思维,同样不可避免地带上抽样的印记,主要体现在以下两个方面。第一,取证思维的有限性。在犯罪发生过程中,会在物理空间留下各种痕迹,然而由于时空条件的限制和人类认知能力的有限性,侦查人员只能获取一部分的线索、证据。这部分线索、证据充其量只是一小部分,侦查人员不会知道在这之外还有多少未知的证据。第二,事实还原思维的片面性。在传统的侦查中,司法人员根据已经收集的证据,通过每个证据去还原一个个零散事实,再通过这些零散的事实去拼凑出整体事实,这是一种小事实到大事实的逻辑过程。然而由于获取证据的有限性,所还原出的事实往往是不全面的,并且往往带有司法人员主观推断的成分,甚至会由于证据的不足而不得不放弃对真相的追求。通过对单个证据的收集和审查去认定案件事实,充其量是一种小数据时代的抽样调查方法,这种样本分析法往往不可避免地带有偏见和漏洞。封利强: 《事实认定的原子模式与整体模式之比较考察》,载李学军主编: 《证据学论坛》第十七卷,115页,北京,法律出版社,2012。然而,大数据思维的首要转变就是摆脱抽样数据的束缚,运用整体的、所有的数据。\[英\]维克托迈尔舍恩伯格,肯尼斯库克耶: 《大数据时代》,盛杨燕,周涛译,29页,杭州,浙江人民出版社,2013。在大数据时代,我们完全有条件去获得某个研究对象的所有数据,达到样本=总体的规模,不必再拘泥于技术限制进行数据抽样分析,大数据时代再局限于抽样的分析方法就像汽车时代骑马一样奇怪。\[英\]维克托迈尔舍恩伯格,肯尼斯库克耶: 《大数据时代》,盛杨燕,周涛译,43页,杭州,浙江人民出版社,2013。这种全数据的思维模式,有利于人们对事件进行全景式的观察,不放过任何一个细节,弥补了传统抽样调查片面性的缺陷。大数据侦查思维同样带有全数据色彩,呈现出与以往不同的整体性思维的特征,这在取证和事实还原两个阶段都有所体现。第一,取证思维的整体性。大数据时代建立起一个与物理世界相对应的平行数据空间,大数据侦查便在这样的数据空间中展开,不再拘泥于现实世界的书证、物证、人证等载体,而是关注虚拟世界的相关数据。数据空间的技术特征赋予了侦查人员获取全数据的可能性,对数据进行整体性、全面性获取。因而,大数据侦查的取证思维也具有整体性特征,或许与案件有关的数据仅仅是一小部分,但是大数据侦查需要先获取一定范围内的所有数据,再通过挖掘、碰撞等大数据方法得出与案件相关的信息。例如,若是想找出嫌疑人通话记录中的可疑通话,侦查人员必然需要先获取其一段时间内所有的通话记录,再通过数据之间的搜索、碰撞等方法才能找出可疑通话。因此,大数据侦查应当抛弃传统的片面性取证思维,取而代之以整体性思维在获取全体数据的基础之上,通过数据分析方法来进一步寻找与案件相关的数据。大数据侦查遵循着从大数据到小数据的取证模式,相比于传统取证范围、数量的有限性,大数据的整体性取证模式获取的信息无疑更加全面。第二,事实还原思维的整体性。取证思维的整体性同样也带来事实还原思维的整体性。在传统侦查思维中,司法人员通过一个个线索、证据去还原事实零散片段,再将这些零散的片段拼凑出整体事实。而大数据侦查则运用一种整体性的事实还原思维,首先还原出更广泛意义上的大事实例如想获取嫌疑人贪污贿赂的事实,侦查人员可以通过手机数据、电脑数据、网络数据、视频数据等各个维度的数据去还原嫌疑人在一段时间内的完整生活、工作事实,而与案件相关的事实必然也置于这个大事实之中;在此基础上,侦查人员再借助一定的技术手段去判断、甄别其中与案件有关的事实。这是一种从大事实到小事实的逻辑过程。相比于传统片面化、零散化的事实认定方式,大数据侦查基于整体性思维,所还原出的事实更具有全面性和完整性。需要注意的是,本文此处所谓的事实认定的整体性,并不一定就是所有的案件事实,有可能只是整个案件事实的某个组成部分,但即便是这种部分事实,大数据思维下对其认定也是采用的整体性思维逻辑。图3\|1传统侦查中的事实认定思维图3\|2大数据侦查中的事实认定思维三、 预测性思维大数据之父维克托迈尔舍恩伯格认为大数据最重要的价值在于其预测功能,预测是大数据的核心价值。对未来世界进行预测一直是人类长期以来可望而不可即的能力,试想一下,如果我们能事先知道未来事情的发展走向,就能够扬长避短,未雨绸缪,提前做好预防措施,合理规避风险,这对于人类的进步发展将具有划时代意义。而大数据技术使得人类的预测能力成为现实,至少以目前的技术来看,能够在一定范围内预测事情的发展走向。例如,百度开发的旅游景点预测应用能够达到90%的准确率,其原理就在于我们很多人习惯于事前在网络上搜索旅游地的信息,因而搜索行为数据与实际旅游数据之间有着某种相关性,大数据系统根据这种相关性就能够预测出旅游人数,并与旅游局公布的数据达到惊人的一致。此外,社交网站推送我们感兴趣的话题,购物网站推送我们心仪的商品,搜索引擎网站能够预测流行病趋势、经济发展趋势等,都是大数据预测功能的体现。如图3\|3所示例如百度网站根据其海量的搜索数据,开发出百度预测功能,能够对流行病、景区舒适度、经济发展、电影票房、体育赛事等进行准确的预测。图3\|3百度对故宫游客预测值与实际人数对比图大数据预测的原理就在于相关关系的分析,通过对关联物的观察来预测未来。我们同样可以将大数据预测原理应用于犯罪侦查中。按常理来说,犯罪活动一般不会是瞬间的,而是一个循序渐进的发展过程,包括犯罪准备活动、犯罪预备、犯罪实施及犯罪结束等一系列环节。侦查人员可以通过大数据的预测功能,在犯罪活动实施前去捕捉犯罪信号。例如恐怖犯罪活动中,犯罪分子一般会有购买枪支、炸药、刀具等准备行为,如果能够事先对这些购买数据实现监控,则能够及时发现异常,预测犯罪活动的发生;恐怖犯罪分子的行为轨迹也具有一定特征,我国的暴恐分子往往从新疆、广西、云南等边境地区向内地迁移,侦查人员同样可以通过恐怖组织成员的行为轨迹数据去捕捉异常信号。大数据预测思维在犯罪侦查领域的运用,往往比在其他领域的运用发挥更大的价值。不仅有助于侦查机关合理分配侦查资源,提高打击犯罪的精准性,更重要的是能够在一些犯罪活动尚未发生或者是在其发生过程中,就及时将其识别,从源头上保护公民的生命、财产等利益免遭侵犯。具体而言,侦查人员则可以从以下几个角度去预测犯罪的发生。1 着眼于对案件的预测。每种犯罪都有一种或几种特定的行为模式,根据每种犯罪行为模式来建立特定预测模型,并将预测模型运用于对关联数据的监控,就能够达到预测犯罪的效果。例如内幕交易行为往往体现为股票交易数据的异常,证监会根据历史内幕交易犯罪数据计算出其犯罪模型,并将特定的算法模型投放至海量的股票交易数据中,就能够迅速识别出异常交易账户,它们很可能就是内幕交易案件的线索;再如腾讯公司与公安机关合作成立的反诈骗联盟中心,他们的反欺诈识别数据模型能够对一些涉嫌诈骗的账号、网址进行自动识别和拦截,从而将网络欺诈活动扼杀在萌芽中,其运用的也是这一原理。2 着眼于对犯罪分子的预测。犯罪活动还会在人群上呈现一定的特征模式。就犯罪分子与普通人而言,他们会有一些异常特征,这些特征会通过行为轨迹数据、旅店住宿等数据体现出来;就不同案件的犯罪分子而言,他们在地域、身份等方面都有着不同的特征。侦查人员可以利用犯罪分子的数据特征模式,对其犯罪的可能性及犯罪概率进行预测。例如江苏省某市检察院正在探索建立的大数据风险立案制度,其原理就在于对嫌疑人的特征进行数据挖掘,进而进行犯罪风险的预测。具体运作过程如下: 在职务犯罪案件的初查阶段,侦查人员根据对既有的数据库的查询及分析,全面、具体地了解被查对象和有关涉案人员的基本情况及其相互关系,对其家庭资产情况、社会交往群体、经济社会活动形成总体性的认识。在此基础上对被查对象是否涉嫌职务犯罪以及犯罪领域、范围、严重程度形成初步的判断,并以之作为是否立案的依据。3 着眼于对整体犯罪趋势的预测。这种预测方式不针对具体个案或具体犯罪分子,而是针对某一地区的整体犯罪情况。通过对某一地区历史犯罪的地理位置数据、案发数据等的分析计算,测算出犯罪热点地区,并对未来一段时期的高危地区、犯罪类型等犯罪走势进行预测。犯罪热点预测并不是幻想,实践中我国已经有不少侦查机关开始推行这一技术。例如北京市怀柔区公安局2013年建立了犯罪数据分析和趋势预测系统,以该地区近十年的犯罪数据为基础,依托于大数据犯罪热点分析系统,对未来的犯罪活动实现了较为精准的预测。在该系统运用后,怀柔区的发案率、报案率、接警率都大幅度下降,尤其是为该地区2014年APEC会议期间的社会治安提供了有效的安全保障。《大数据能预测哪里易发犯罪》,载新浪网http:news.sina.com.cno20140623141930407753.shtml,最后访问时间: 2016年9月23日。第二节大数据侦查思维的误区我国在2015年进入大数据元年,大数据正式上升为国家战略,各行各业都在如火如荼地发展大数据计划。在这样的趋势下,人们容易产生激进主义思潮,过度依赖、迷信大数据,甚至有学者认为大数据意味着人类理论时代的终结the end of theory,仅凭数据的相关关系,就可以解决一切问题。实际上,大数据不一定就是客观中立的,大数据也会出错、会产生偏见性判断,大数据的相关关系能否替代人类长久以来的因果关系目前也还广遭质疑。在侦查领域,我们同样需要谨防在大数据热潮下所产生的一些思维误区,如数据越多越好数据可以不精确大数据一定是客观准确的相关性可以替代因果性等都是常见的思维误区。一、 数据越多越好大数据最显著的特点就在于数据之大,强调通过对海量数据进行分析。因而,人们很容易产生一种思维误区,认为数据量越多越好。实际上,这里的数据之大主要是为了区分小数据时代人类统计所采用的抽样法。在过去由于数据集成技术的有限性,人们无法记录、获取关于某个对象的全部数据,因而只能退而求其次采用具有代表性的抽样数据;而在大数据时代人类则完全有能力获取所有数据,达到样本=全体的数量级,这便是大数据大的实质意义所在。这里的数据之大具有一定的相对性,即便人类的数据收集技术再先进,也不可能穷极所有的数据。因而,对于某一分析对象而言,只要收集了一定范围内与之相关的全体数据,大致达到样本=全体的程度即可。例如要对嫌疑人的通话数据进行分析,我们不可能调取其几十年来所有的通话数据,一般只需调取其在案发前后一段时间内的通话数据,这样的数据量就已经达到 大数据的量级了。在大数据侦查中,要把握好数据收集的量度。犯罪行为毕竟是在特定时空由特定犯罪人所实施的行为,犯罪情报、线索及证据的收集需要与案件具有一定的相关性,侦查中如果盲目地搜集过多的数据,无疑会带来诸多无用数据废弃和数据噪声,增加从海量数据中析取有用数据的难度。此外,侦查具有资源有限性和时效性的特征,收集过多的数据必然需要投入更多的时间和精力去分析、提取数据,增加侦查人员工作的负担。侦查人员应该将更多的精力放在对数据的分析、挖掘上,而不是盲目消耗在数据收集环节。因此,在大数据侦查过程中要避免过度陷入数据越多越好的思维误区,应当以具体案件、犯罪嫌疑人等要素为坐标,选取一定时空范围内的相应数据,达到一定范围内的样本=总体即可。二、 数据源可以不精确在大数据时代,要求每一数据都精确无误是不可能的。随着数据量的增大,大数据的算法允许不精确的数据、混杂的数据。容许数据的混杂性有利于减少数据处理的时间和成本,反倒能够更快地获悉事实真相。\[英\]维克托迈尔舍恩伯格,肯尼斯库克耶: 《大数据时代》,盛杨燕,周涛译,65页,杭州,浙江人民出版社,2013。况且数据量的巨大往往可以忽略、抵消这些不精确的数据,正如经济学中的边际递减效应原理,当总数越来越大时,增量的效应反而会递减。然而,这并不意味着我们可以完全忽视数据中的错误,走入另一个极端。当错误的数据达到一定程度时,即便是数据的量再大也无法弥补错误,这些劣质的、错误的大数据会降低数据分析结果的有效性,直接影响到数据分析结果的准确性。实务中不乏数据错误酿成大祸的案例: 例如,在美国有40 000 000人的信用报告中,其中20 000 000人的信用报告存在严重的数据错误;60 Minutes: 40 Million Mistakes: Is Your Credit Report Accurate? CBS television broadcastFeb. 10,2013,http:www.cbsnews.com83011856o_16257567957credit,2016年9月25日访问。在美国,由于数据源及数据计算错误,每年都会造成大量的医疗
|
|