yl23411永利(中国)有限公司

人才培养首页 > 人才培养 > 正文

知识图谱的前世今生

作者：时间：2018-01-04 点击数：

知识图谱的前世今生

蚂蚁金服高级算法专家王雅芳

我今天看了看，就我一个人是理工科报告，我担心大家听着枯燥，我尽量闲聊为主。我讲知识图谱，我就是因为知识图谱专家被聘来聘去的，其实知识图谱是我导师提的，他老人家2003年就开始提出知识图谱这个方向，结果到现在全世界还有一波人在跟，特别是现在谁想创业挂着知识图谱这个名就了不得了，投资机构就开始不断地往这种公司里去投，实际上都是炒概念。我这个PPT是把我导师长达四个小时的PPT压缩压缩，我这个PPT是为了给公司内部的非计算机专业、数学系准备的，这个应该是技术含量最低的，现在又到了文科，所以我只能尽量讲故事，能讲故事就讲故事，讲不了故事大家知道这个概念就行了。

先讲一下知识图谱是怎么回事，毕竟计算机的人也没有几个听过我这种报告，也不知道什么是知识图谱、知识图谱是怎么回事，所以我估计本专业的人还不一定知道呢，你们还是挺幸运的。其实它本来应该叫知识库，叫做knowledge base，大家知道data base是数据库，knowledge base实际上是另外一种结构化数据的表达方式，然后它有很多的别名。知识图谱其实是谷歌改了个名，我现在到了工业界我算是知道什么叫讲故事了，老的东西，这个名字翻译出来一定要重新起个新名，于是谷歌就觉得这么老的东西它想重新重新炒作，就叫做Knowledge Graph，叫做知识图谱了。实际上我们计算机方向，knowledge base本身是数据库领域的，实际上它还有语义网，语义网实际上就是专做知识图谱相关的这种东西。但是像我老师这种数据库大牛就会说语义网是什么东西，不就是一大堆数据库的东西又重新炒，然后它还有个名叫语义网。然后还有一大堆的linked data，实际上这一堆东西都是讲的一个东西，就是叫数据库。你们能把这几个概念知道的话，别人就不能忽悠你了，我是研究语义网、我是做知识图谱、我是做linked data，其实都是讲一个的，千万不要听。我一到工业界一看这也叫知识库、那也叫语义网，实际上它都是叫做知识库，就是knowledge base，结果他在那儿都混用这个名字，我最看不惯这一点了，因为我毕竟还是学术出身，我最受不了的就是不断把我的学术名给歪曲了。但是他们还是会这么干，一大堆不懂的，包括投资的也是不懂，换个名就行了。

这是整个计算机领域的发展史，计算机是怎么回事呢，AI现在怎么又活起来的，现在AI这个概念有点太大了，我是非常地反对，不满意这一点。什么叫AI？AI明明就是计算机的一个小领域，怎么就现在AI等于计算机了呢？现在是深度学习，深度学习明明就是AI里面继续学习里面的一个小算法，怎么深度学习就等于AI、就等于计算机了呢，这么一丁点的一个小东西，一下子就扩大成了计算机就是AI、计算机就是深度学习，好像你不懂深度学习你就不是计算机的了。我就是不懂深度学习，但是我还是计算机的，我也不是深度学习的。现在是谷歌把这两个东西炒热了，一个是知识图谱、一个是深度学习。大家怎么能理解什么是知识图谱、什么是深度学习呢？知识图谱其实就是人的大脑，也就是说其实就是人怎么认知这个世界的，知识图谱是一个结构化的数据、结构化的语义表达，好像是从认知学发展过来的，并不是从计算机领域诞生的本体这个词，于是计算机只不过是把更多的数据用那套理论把它构建出来了，然后就叫做知识图谱，实际上就是人的头脑，它把这个世界给建模了。深度学习实际上就是人的躯干，我本来可能没有深度学习的时候，神经网络这么老的一个东西，这么多年起起伏伏的，现在一下子活起来了，是因为计算机的硬件跟上了，计算机的硬件跟上了之后把之前这么复杂的一个模型终于让它能够计算起来了。于是当你的计算能力增强，也就是说你从一个小孩变成一个大人，你终于能跑马拉松了，你小孩要是跑马拉松能累死。也就是说我们计算机领域是在硬件的发展情况下从一个婴幼儿终于变成了一个成年人，然后我们的体力都够了，我们对世界的认知也变得大了之后，我们终于看上去好像很强大了，这就叫人工智能，这是我的理解。现在好像全世界都在很火的AI，实际上它的发展史是这样的，计算机的发展历是这样的。

最初最初计算机其实只是从数据库的，就是DB，大家知道的形形色色的数据库表就是二维表格嘛，有一大堆的属性定义的一个表名，也就是说怎么把一大堆数据结构化存成表，就是关系数据库嘛。但是数据库还有其他好多的一些东西，还有图数据库，现在就是因为知识图谱火了起来所以有图数据库，当然最初最初数据库实际上就是把数据结构化了之后然后快速地检索这些数据以及怎么分析这些数据。这是1996年到2000年，数据库应这种人类社会发展的需要诞生了。IR就是信息检索，大家就想成是搜索引擎就行了，信息检索是怎么回事呢，我们之前都是结构化的数据，接下来我们可能会有一些非结构化的数据，比如说之前写了一大堆文章之类的，怎么检索这类文章，有了越来越多的这种需要，所以说这时候就诞生了IR领域、信息检索领域，也就是说这一块实际上是从数据库领域分出来的，这些人基于之前数据库领域积累下来的技术经验，然后开始研究一些非结构化的数据，就是文章，大家就想想自然文本就行了，然后这些数据的检索和查询，于是就到了IR领域。

然后再往后就到了2005年了，这个时候我开始上本科的。2006年-2010年的时候，WEB领域和AI这些都起来了。什么是WEB，2006-2010年实际上是互联网大力发展的时候，也就是说这个时候互联网上的数据越来越多，这时候有一波人又基于之前的这一堆出来了互联网的分析，于是这波人就开始研究互联网上的数据。这个时候也会有AI和NLP，实际上在我看来AI实际上有三大块，NLP是自然语言理解，计算语言学大家应该会知道，自然语言理解就是怎么能够用计算机进行分词、句法分析这些东西。然后还有一波人，因为互联网起来了嘛，就会有一大堆的视频、图象、多媒体，AI里面还有一部分是做图像、视频的。也就是说一个是文本的分析叫NLP，还有另一部分是图像和视频，这块是视觉领域，这是两个应用领域。其次还有一个是继续学习领域，也就是计算机偏理论的那一块，继续学习就是现在最火的深度学习，就是一大堆的计算纯理论工具那一块。AI实际上包括三大块，这三块都是在前面这几个领域发展的基础之上才逐步发展起来的。于是到了2015年的时候，由于互联网发展越来越大，于是这两大领域势头明显超越了传统领域，说实话DB已经开始研究完了，大家都开始用成熟的商业产品的时候，这个领域就已经结束了，现在大部分都在研究WEB和AI相关的东西，因为大家认为IR搜索引擎就是一个很普通的产品的时候，IR这个领域也算是结束了，于是就开始往剩下的这两个领域还扩充。我就是讲讲计算机这几个领域的发展史，让大家知道什么是AI，AI只是计算机的一个小领域，也是个过渡阶段，接下来可能也会有更多的新的领域的诞生，都是应这个社会发展的需要而不断诞生的新的发展领域。比如我觉得现在计算社会、计算人文这个领域在计算机这个方面非常火，我的导师在2003-2013年结束了知识图谱长达十年的研究之后，现在开始跨入计算人文这个方向的研究，也就是说这个方向是非常有前景的，很有可能它一出来就盖过去前面的全部，所以我还挺乐意加入这一块的研究。

这是知识库的定义，这是我拿着我老板的定义，我认为我导师是这方面的鼻祖，所以我拿着他的定义应该还是比较靠谱的。也就是说什么是知识库，knowledge base。本体其实你就想想你怎么认知这个社会，比如说倪老师是一个具体的实体，然后他还有一些什么类型的，首先他是老师，老师的话就是人，人再往上就是哺乳动物，再往上就是动物，就是这样对整个社会的分类体系的构建。最底下的业结点，具体到一个个体的时候叫实体。比如说倪万在永利yl23411官方工作，倪万和永利yl23411官方有一个工作的关系，这是一个事实，这个事实还有一定的时间属性，比如我三个月之前在永利yl23411官方工作，现在到蚂蚁金服工作，所以说这些事实还是具有一定的时间属性，它可能会随时间变化的，这样就是一个知识库，这个知识库里面就是说时间和地点属性了。然后还有一些基本的常识性的知识，还有就是我要为了证明这个事实还要有一些证据，我怎么证明倪万老师在永利yl23411官方工作，因为我从yl23411永利的主页上看到了，所以证明这个事实是存在的，这些所有的数据我把它结构化出来构建成知识库，就叫知识图谱，知识图谱就是这个东西。这个里面看上去也没什么计算机的东西，计算机的东西是什么？举个例子，先看看什么是本体，这是非常简单的一个例子，就是分类体系嘛，最底下是海淀区，然后上面都是属于分类，上面是省、国家，事实是中国的首都是南京、还有中国的首都北京，它还有一个永定河流经海淀区，但是它是带时间属性的，还带推理规则，也就是说永定河是一个河流，然后永定河流经海淀区，海淀区隶属于北京，就能推出永定河隶属于北京，这是一个推理的规则，这个知识库里面还定义了很多这种规则，我们用这些规则还能发现很多新的事实，于是我就能构建成这样一套新的知识图谱存到我的知识库里面。

然后讲讲为什么要构建知识图谱。这是我老师的PPT，他从2003年开始思考为什么要做知识图谱，他老人家当年去搜索了这么一个剧，这个剧是三个女的去做一个什么预言，然后谷歌没有任何给他找到他想要的东西。然后2004年他再搜了一次，终于搜到了，搜到了他的PPT，2003年的时候他用这个例子做报告嘛，我们的搜索引擎发展到现在了搜这么简单的例子还搜不到。最后到2004年居然只能搜到他的PPT，因为他的PPT举了这么一个例子。到了2006年终于可以搜到了，这个时候找到了这个剧，这是谷歌的，微软到第四个才找到，微软太弱了，谷歌至少在2006年把他这两个都反馈了，也就是说这个时候的搜索引擎在2006年终于具备了语义搜索的能力。这就是说我非常有目的性的去搜索一个一个剧，但是传统的搜索引擎只能进行关键词匹配，传统的搜索引擎就只能把这些分解成一个一个的关键词，但是实际上我的中心是搜索一个剧，我要查的是这个剧名，但是搜索引擎是无法理解的。于是这个就引发了一大堆人的思考，用了十几年的时间，到了2016年搜索引擎终于可以理解用户的句，不是简单进行关键词的匹配，这个时候的搜索引擎具备了语义搜索，其实它背后就是靠强大的知识图谱，也没有什么深度学习。

然后这个是说知识图谱的发展史，最初在1985年的时候，这家公司构建了很多知识库，这些知识库有很多的推理规则，然后到了1990年的时候有了计算语言学，这几个人是在计算语言学领域得到了终身成就奖，这个老师带着他的员工团队构建出了对整个社会认知的大的辞典，我说的那些分类体系全都是他构建出来的，花了十几年的时间，最后获得了终身成就奖。也就是说认知体系就有了，接下来为什么现在知识图谱突然就变火了，因为之前的知识图谱这些数据都是人工录的，人工录太慢了，量始终上不去，大家看这个就只是一个简单的分类体系就花了这么久，而且还是计算语言学斯坦福的博士去做，难度也非常大。后来维基百科的诞生促使了知识图谱的发展，因为维基百科是全世界人类贡献自己的知识的，于是这个时候这个数据量终于不是一个人、一个团队去做了，是整个全球的人去做贡献，于是这么多的知识量的时候，在2004-2005年才终于引起了计算机学界的关注，大家实际上终于可以避免之前知识图谱怎么就做死了，就是因为拼人力拼不上去。2005年在互联网大力发展的情况下有了维基百科，知识图谱终于可以从维基百科做贡献了。于是这个时候知识图谱就有很多，像我老师这个yago是最早的知识图谱，从维基百科里面建。然后2010年左右才有了谷歌Knowledge Graph。

这个就是整个知识图谱的发展史，也就是说没有互联网、没有维基百科就没有知识图谱，也就不可能现在这么火，而且大家也不可能有语义搜索，现在搜索引擎用得这么舒服的语义搜索的功能，所以它的背景是这样一个背景，是为了语义搜索而构建的知识图谱，所以说现在再有什么创业公司说什么不是凡是为搜索目的而建的，就是炒概念。这些全是从人嘛，这是一个分解界，之前全是从人的知识、靠人来做的，这个时候终于可以靠机器来做了，所以才大力地把知识图谱构建起来了。

这些是一些知名的知识库，知识库的构建基本上就是按照刚才说的从互联网上不断地获取知识存到知识库，然后知识库又能帮我更好地理解互联网上的内容，这样就形成了一个很好的闭环，也就是说我的知识越丰富，我就能更好地理解我的文本，文本又能返过头来辅助扩充我的知识，现在的搜索引擎像百度、谷歌它们实际上都是不断有一个团队用知识库分析文本，文本里面又不断拓展知识库，然后这样大家用搜索引擎，这个知识库就是语义化的嘛，主、谓、宾三元组的方式去存储的。

然后它是怎么构建的，维基百科怎么把知识图谱给推动起来了，大家可以看看，实际上这些东西我们叫半结构化数据，它不是纯结构化的，纯结构化的就是数据库那种。这个半结构化对我们计算机人士来说就是写规则抽取出来，就是做成结构化数据，抽取数据，这个时候当你有了这个维基百科，维基百科上的东西越多，你结构化数据当然会越多。实际上现在大家能知道的知识图谱、知识库，包括商业，实际上都是在半结构化里面抽的，不可能从自然文本里面抽，从自然文本里面抽太难了，噪音非常大，因为我就是研究这个的嘛。现在我们对外公布的数据都是从半结构化数据不断往这里扩充的。包括中文的百度百科，从半结构化数据抽是主力，既然半结构化数据是纯工程，没有任何的研究点，我们计算机专业要研究的是从非结构化数据也就是自然文本里面抽，自然文本里面能抽出来什么样的知识呢，比如特朗普出生于纽约市，而且他的日期是1946年6月14日，我要怎么样抽取这样一个知识呢，我要有一个算法，我要能衍生出这么一个规则，也就是说城市出生、出生于，知道是这样一个关系。其实就是这样理解的，把计算机想成小孩就行了，什么都想小孩，计算机太笨了，首先肯定不可能颠覆人类，计算机就是一个婴儿的智商，也就是婴儿刚刚上幼儿园，怎么学习。特朗普在纽约出生，当你知道是在什么出生的，代表了出生关系的时候，你再看到第二篇文章的时候，比如这里换成了奥巴马在夏威夷出生，所以计算机就是不断去学这些规则，然后再去做推理，计算机必须得去学，没有人告诉它这些东西它根本就学不出来。然后它是怎么自动挖的，就像小孩的认知一样，比如我知道了特朗普在纽约出生、贝克汉姆在伦敦市出生，我们会告诉计算机这些种子，就是我脑子里已有的知识。我是为了学习一些未知的知识，于是我推出了X出生于Y，X在Y出生，这些都是很好的规则，我通过这些种子学到了这些规则。然后我通过这些规则又去找，找到了习近平出生于北京市，然后我再找，找到另外一些规则，这些可能都是有噪音的，比如出生地、还有离开、返回，比如习近平离开香港返回北京、习近平在北京考察，这些规则也都挖出来了，但是实际上这些规则都是带着噪音的，比如也会搜出来李克强出生于北京市，实际上李克强是出生于定远县的。计算机就是在不断地学，然后它还要学习到一些负面的、噪音的规则，计算机就是这样不断地去学新的，然后再找到这些是错误的。

我用这些规则去做推理，能够把一些错误的规则就排除掉，出生地，X必须得是人，Y必须得是地点，然后D必须得是日期，然后一个人的出生地只能有一个，李克强只能出生于一个地方，于是我们知道北京市是假的，或者说从这个地出生、不是在这个地方生活。其实就是不断地加这些人类定义的规则，让计算机自动学这个规则到现在都没攻克，所以就是不断地加人工定义的规则让它学，计算机怎么可能颠覆人类，人不告诉它它什么都不知道。

我是怎么通过自然文本去抓这些规则的，怎么分析一句话的，其实就是不断地句法分析，然后构建出可能的三元组。句法分析当然难度很大了，到现在中文语法延续了拉丁语系的那些被证明是错误的，于是一大堆的计算语言学家开始重新定义自己的算法。中文用这些拉丁语系定义出来的东西怎么可能，我们中文正着说、反着说都是对的，怎么可能用拉丁语系的语法。我刚到了这个公司，因为之前我一直做英文，到了公司被迫做中文之后发现中文的语法分析太差了、中文的自然语言理解太差了，我全部都是在做怎么提高中文自然语言理解。可是我们那儿的科学家是这样说的，重新定义这些语法，可能还要花5-10年时间，也就是说中文的自然语言处理实际上是非常滞后的。我们在工业界做实际上都是用一些非常小的case尽量去弥补，也就是说我们从根本上是错误的，不知道将来中国的自然语言分析能走多远、多深。但是英文现在的句法分析已经做得非常好了，英文都能达到94%的精确度，中文只有70-80%，所以差得太远。在抽取的时候怎么都会有一定的难度嘛，而且中文比英文更复杂、问题更多，词又没有时态，而且很多词既可以做形容词、也可以做动词，丰富业余生活、丰富的业余生活，它又不一样了，所以中文的语法怎么能和拉丁语系是一样的。

语义理解实际上都是基于命名主体消歧的，大家看什么叫语义分析，举个例子，搜一下华盛顿，第一条就是乔治·华盛顿，还有可能是华盛顿州，还有很多很多都有可能被简称为华盛顿，大家用百度搜一下，百度里面第一条就是乔治·华盛顿，再往后就是美国首都了，再往后还有电影名，到底我要的是哪一个华盛顿，也就是说语义分析就是为了帮用户确认他指的到底是哪个人、是哪个实体。

这是我举的一个例子，这是我盗出来的例子，我觉得这个例子至少可以帮助大家理解什么叫语义消歧，哥哥在1998年发行了春天，他主演的霸王别姬是100部最受欢迎的电影之一。大家能知道哥哥是谁吗？春天是什么？霸王别姬是什么？只要你的脑子里面构建了这么一个指示体系，你就能知道哥哥就是张国荣，他发行的春天是他的专辑，霸王别姬实际上是他的电影。计算机是怎么做理解的，你知道的原因是因为你脑子里有这个知识体系。而计算机就是因为构建了一个很大的知识图谱、知识库，背后这个认知体系它都有了，于是计算机见到了这么一句话，我现在就要匹配，这个哥哥到底是什么，这个是张国荣，但是这里还有一个叫哥哥的，这是一个韩国电影，还有酒店哥哥，还有一个网站，就是专门帮你订酒店的。春天也多了去了，也有个电影叫春天的，也有他的专辑，然后歌也都有，还有霸王别姬这首歌。然后我把这些都连接上，基于之前那么复杂的知识库，还有我所知道的一些先验知识，存知识的时候我还存到了一些证明，然后我构建出来了这么一张图，这个图上还带着一定的权重，最后我用一个算法把它解决出来了，最后这个算法是这里面只能关联一个实体，而且这个实体之间也只能有一条关联边，然后我用这样一个知识库把这个图解决出来，最后选择的是这样一个东西，就是这样一个算法，这才是计算机研究的。这是模拟的一个人嘛，因为光看见哥哥这两个词也计算不出来，再往后看我才知道哥哥是张国荣，然后霸王别姬实际上是他的电影，如果我只看到了霸王别姬，我也没法判断出来，只有这么多联合的推理，我才能推测出这个人到底是谁，实际上就是模仿了人的思维，这就是知识图谱和它的应用，它的应用就是做消歧的，如果一旦把这个东西去掉，它就是炒概念了。

接下来还有基于知识图谱的问答，大家知道谷歌、百度都可以搜一些问答的时候，它都可以准确地给你回答出来了。比方说我之前要是想搜是谁出演了霸王别姬，我只能到百度里面去搜，它搜出来还是一定的关键词匹配，匹配出来的是一些文章。可是我问的就是要回答出到底是谁发表了春天，我就不想再人工找这些文章自己做推理了，我希望计算机能够给我一个准确的回答，于是知识图谱构建出来之后就能做准确的自然语言问答，我们叫Factoid QA，也就是说我要寻求一个事实、一个实体，而不是说一篇文章了，我要的答案其实就是一个事实，所以我要对这些文本进行一个基本的解析。就是我怎么把这句话解析成一个知识库的查询语言，然后就能知道到底是谁发表的，回答这个问题，但是实际上背后它也有类似刚才解析那句话一样的模式，它要对语言进行了一定的解析，然后这句话进行了消歧之后就找到了这样的答案。其实就是消歧嘛，什么叫消歧，就是可能有很多很多答案的时候，我用一个算法把最可能的那个答案找出来，这就是消歧，这就是语义解析、语义消歧。要是没有这样一个知识库的话可能会匹配一大堆的文章，但是有了这个知识库就能找到我想要的那个东西，大家能理解到这一层就行。

这个就是我老师积累十年做的PPT，这就是一个语义搜索引擎，现在谷歌、百度可能还没有做这么细。给大家看一个例子，马英九，这里面他的所有可能的候选都出来了，这都是在知识库里面，还有它的分类都有，这些都是分类标签，比如永利yl23411官方同学录，这些都是分类标签，而实体就是每个个体的名字。我搜哪个词都会把它背后所有的可能都选出来，比如我在搜China com，它实际上就是一个分类，解析成了中国的公司，Jack Ma就是马云。它怎么做的这个搜索呢？实际上我们用我们强大的知识库和语义消歧的技术，已经把每一个文本做了语义解析了，也就是说每个文本里面所有可能的实体都已经对应到我的知识库上了，这些东西我事先做好了语义解析之后，这句话能搜索出来Jack Ma和中国所有的公司。如果是传统的搜索引擎只能搜索出来中国公司、马云，它只能匹配这个关键词，把带着中国公司的一些文章找出来。但是如果我用这样的搜索的话，中国所有的公司实际上等于已经作为我的列表里面，只要中国的公司在我这个知识库里面有备案，这些相关的名字就都出来了，这样就是一个真正的语义搜索引擎。当然它还可以加传统的关键词搜索，比如说加上投资，就是马云投资的公司我都能搜索出来了，但是传统的关键词搜索是做不到这一点的，它只能找到关键词匹配。这是我导师十年的知识图谱积累做出来的这么一个东西，能方便大家深入分析这些文本。这些都是具体的一些公司名，我要分析亚马逊、百度、阿里巴巴集团这些相关的数据，这个看上去是能够做关联词搜索的，但是你要用这种传统的方式是做不了的。我这个实际上是根据类型分析的，就是中国互联网公司、德国互联网公司、南韩互联网公司做语义分析，如果没有知识图谱、没有语义解析，中国互联网公司你只能敲出那几个词，你能找出来它的相关文章，你得把中国所有的互联网公司名列一下，然后把所有德国互联网公司名列一下，人工做就累死了，所以说当我们有了语义搜索引擎这种东西的时候，我们在做分析的时候就敲这几个，我们就能把中国所有的互联网公司都列出来，一看中国远大于那些，这个不用说的，我们中国的移动互联网是全世界第一的，这一点非常自豪。然后这个时候你还可以结合着你想要的公司名，比如阿里巴巴这家公司然后再去做分析。甚至于还可以搜德国的足球队员、法国足球队员、巴西足球队员的相关信息的一些分析，这是巴西的，巴西的足球队员在某一个年、某一个月份可能更高，这可能是世界杯吧。

我现在做的其实非常地贴合人文，刚才跟曾老师聊了好久，我们很开心，接下来要做合作的。其实我公司里的合作人还是你们07级的yl23411永利的员工，叫秦浩，我很开心看到员工了，当然他现在叫我老师，他现在是做品牌。实际上我现在做的这个项目我非常看好，虽然说推动起来很痛苦，我现在做的项目就是怎么样帮助品牌和营销做智能评估和智能投放，我们现在非常想了解做品牌的写文章，怎么样才能用一个非常小的方案能够达到更大的效果，而且针对不同的人群是不是要写不同的文章才会效果更好，比如说我从来不关心娱乐八卦，你在娱乐八卦上写什么样的文章我从来不会关注的。我要研究用户的心智，研究用户的关注，对这波人我要想触达到他应该写什么样的文章，我们现在在做这样的一个项目。怎么样触动这个团队要做这样一个项目呢，就是他们被特朗普大选把希拉里干掉这件事情非常得感兴趣，特朗普花的钱非常少，既然把希拉里花了这么多钱的传统媒体支持的团队干掉了，所以说大家非常感兴趣，它实际上就是这样一个团队，研究用户的心智，针对这部分人做精确的触达，写能够触达他们的文章。其实现在我们中国，别看我们这个互联网好像很先进，我们的公关实际上超级原始，还是用传统的公关思路走，地毯式的圈一部分人。看这一张图就行了，传统的品牌根据传统的地理人口学统计，地毯式传播，比如说山东地区，这就是一群人，可实际上山东地区也是不同人有不同的关注点，他就从来没有考虑。特朗普仅仅花了6亿人民币，希拉里耗资18亿人民币。特朗普背后是这家公司，Cambridge Analytica，这家公司给他做的精确的心理学数据分析，最后给他精确地触达了，在互联网上做触达，而希拉里只是关注传统媒体了，特朗普非常关注社交媒体，精确触达，花了小的钱，获得了更大的影响力，我们就是做这样的一件事。我非常感兴趣是幸好到了这样一家公司能做这样的事，不然没数据。

上一条：媒介与技术：基于文化与社会理论视角

下一条：“数”说中国电影市场