我是咱们yl23411永利有限公司的老朋友,首先是因为跟明洋经理是老朋友,今天跟大家分享的题目是大数据与传播,底层逻辑与应用场景,这个是当时跟明洋经理沟通的时候我自己给自己设了一个难度比较大的题目,实际上我一说出来之后就有点后悔,但是明洋经理说这个通知已经发出去了,我就只能硬着头皮来说这个事情。好在我对这个领域确实还有点兴趣,无论是从过去做舆情研究或者是传播效果研究,还是现在从事新媒体的内容生产、实际操作,对于媒介技术的进展一直是相当地关注,关注的原因大家都知道,实际上大概从上个世纪的90年代末期开始,技术的进步对于我们传媒整体格局的影响远远大于政策和传媒市场的影响。也正因为这个缘故,大家会发现,随着时间的推移,特别是到21世纪第一个10年结束的时候和2001年开始,你们会发现每一年都会有一个新的所谓的风口期,比如说大数据、视频直播、短视频,现在关于VR、AI和ARA,就是人工智能,大家耳边不断地接触到各种让你眼花缭乱、目不暇给,甚至你刚想对某一次新技术做一些了解的时候发现你就已经落伍了,比如说视频直播,大家都在忙活视频直播的时候,短视频已经成为大家非常热衷,而且事实上也已经引起资本市场极度关注的领域。再比如说前两年VR、AI虚拟现实技术非常火,以至于东方和西方的传媒市场都以为这个是非常了不得的领域,但是今年大家发现这个技术已经稍稍冷却下来了,又被新的技术替代。这种新的技术让你感觉你没法保持一个较为冷静的心态去看这个技术的进步。从这个意义上来说,我觉得咱们yl23411永利有限公司敢于提媒介技术传播领域实在是一件极具勇气的事情,因为它不管是对我们的研究者还是教育领域而言,意味着我们必须一直保持着一种对技术进步的敏感,也就是说你今年说我在对现在的媒介技术前沿有一个充分的把握和了解,然后我们各位老师各占一个山头,从此就以为可以在这个领域里面高枕无忧了,可能到明年就发现你做的这个事情已经过时了。因为这个原因,我对明洋经理、对咱们永利yl23411官方传播学院真的是有一种崇敬之心,也正因为这个缘故我愿意把我一些非常不成熟的想法在这儿跟各位分享。
本来在考虑时间安排的时候我说安排在下午吧,明洋经理说上午可能更好一些,我说就安排在上午最后一场吧,他说还是第一场吧,我就这样子被逼到现在这个位置。实在地说,我不敢说我已经有了充分的准备,所以昨天晚上,不瞒在座的各位说,我差不多是3点钟左右才迷糊了一会儿,尽管如此,我现在在这儿说我下面要跟大家要分享的东西,还是战战兢兢、如履薄冰,但是因为我是第一个,可以说我下面就给大家抛一块砖,后面还有五位专家跟大家分享各自怀揣的宝玉。因为我是第一个,相对而言我可以粗糙一点,可以跟实际的媒体操作更接近一点,后面的专家可以有更多的理性的思考和理论的抽象。想到这些,我相对而言心情就稍微放松一点了。
下面我们就言归正传,这两张照片不知道大家最近一段时间关注了没有,大概关注乌镇的世界互联网大会大家都会发现今年的互联网大会和以往有一个很大的不一样,以往官方的主办者,比如说国家网信办,特别是卢伟部长会有很高调的各种宣言和声明,但是今年的互联网大会似乎这些官方的声音我们见到的少了,或者说被关注的少了,大家看到各种饭局,大家又从饭局里面读出江湖味来,然后又从江湖味里面读出谁对谁亲密了、谁对谁冷落了,说在两个饭局里面都没有见到马云,周鸿祎一直是人际关系里面的另类,但是最近他的人际关系好像又好起来了,被人链接到各种关系圈子里面去了。实际上我在看这种照片的时候实在没有太多的兴趣,因为我这个人不太喜欢说那些八卦的东西,哪怕它是非常严肃的八卦。但是我对好些人的说法,对于互联网发展的趋势以及技术发展的未来的判断还有一些思考、有一些看法。最近一段时间马云先生好像成为各种新概念的生产者和各种思想的批判者,虽然他在各种场合说媒体90%是精神排泄物,不知道大家听说过没有,当然这些观点有的比较粗鄙,而且我不认为马云具有真正意义上的对于社会发展和技术未来思考的能力,我相信他是一个非常具有实际市场把控能力的实操者,然后他具体做他的市场、具体做他的团队的工作我相信是有一套的。但是如果他过高地估计他自己在思想领域的能力,可能就会各种露马脚。但是我认同他这种说法,未来30年数据将成为生产资料,计算成为生产力,互联网成为生产关系,虽然这个说法未必符合生产力、生产关系的定义,但是对于互联网未来发展的基础元素的判断我觉得是可靠的。而这一点,李彦宏的判断和他基本是一致的,下面这一句是李彦宏的说法,当互联网人口红利消失以后,现在大家经常听到的互联网发展已经进入下半场的说法,所谓下半场就是说差不多以跑马圈地的方式、以获取人口红利的方式获取市场回报的方式差不多已经过去了,这就是所谓的下半场。在这种情况以AI为主的技术创新奖推动发展。我相信这个判断也基本正确,大家都知道百度这几年情况并不算很好,但是它们在人工智能领域确实投入很多,做了很多工作,就这个意义上来说,李彦宏对AI的判断确实和公司发展的布局是一致的。他后面说的这句我同样是认同的,当前互联网技术的三个成长动力就是算法、算力和数据。大家发现马云和李彦宏对方向的判断在细节上还有一点不一致,但是有一点是相同的,对于数据、对于数据的计算能力他们的关注是一致的,就这个意义而言,我觉得在我们现在讨论媒介技术对于我们传播的影响的时候,数据特别是大数据,我们抓住这一点,实际上就抓住了媒介技术发展的牛鼻子或者说最为关键的一个元素。或者说如果未来你还想在传媒领域做一些引领性的工作,做一些能够在市场空间里面所谓呈现出一点你的独特性的那些东西,一定要对数据、对于数据的运用(算法)和数据的运用场景要有独特的理解和独特的把握。
我今天跟各位分享的是大数据传播,希望跟大家分享的是我对于大数据跟传播之间的关系,它建立的底层的逻辑和它实际上可能运用的场景。昨天新传博士跟我说你的标题可以出一系列书了,我觉得确实是这样,实际上是一个很大的题目,正因为这个缘故,我知道50分钟时间里面我能够跟大家分享的大体上是我在这个问题上的一些方向性的思考,而我所谓的思考并不构成结论,而是跟大家一起,我们看着媒介发展的方向,看到媒介发展的汹涌的波涛下面究竟是什么支撑它向前走的底层的动力,在什么样的场景下我们可以很好地利用这些数据。
大数据在传播领域的应用,实际上我们可以把它看作一个大的场景,它和快消品、餐饮行业、网络消费、通信领域的应用一样,只是大数据应约的一个场景而已。在传播领域而言,我们又可以有不同的分场景或者叫小的场景,就是说当我们把一个传播的过程加以分解的时候,我们发现在不同的场景下数据可以产生的作用以及对于我们传播过程产生的影响实际上是不一样的。说大数据可能对于传播产生影响,它的底层逻辑是什么,实际上我们可以回归到传播的本原,这个过程实际上大家都非常熟悉了,我们做传播学研究和学习的同仁们都知道,从纳斯威尔的开始,对于传播的过程的分解虽然有各种补充,大体上无非是这些元素,就是谁说什么、通过什么渠道、对谁产生了什么样的效果,然后我们再把它放置到一个更为开阔的社会环境下面看这个传播过程,然后再进一步,比如说现在在互联网环境下反馈这个环节可能会更多地被引起重视,就是所谓的互动的环节,就是我传播给受者、受者对传者又会有进一步的影响,而这个影响的过程又成为这个传者下一次传播的心理基础和传播内容的设定基础。实际上当我们讲大数据可以对于我们传播产生什么样的影响,它底层的基础逻辑是什么的时候,实际上我们只要牢牢记住这样一个基本的传播逻辑就可以了。
我们在每一个环节,从对传播者的研究到对内容的研究,传播环境的研究可能还包括噪声的研究,大家知道现在很多时候有的人宣称大数据帮他们提供传播效果的时候,我们常常说到的一个概念是所谓的水军,那么水军的话,就一个严肃的传播过程而言它是一个噪声,它不是正常的传播过程应该有的东西。当然有些噪声是有的人期待的,就是那些希望作假的、希望达到另类的传播效果的人,水军对他们来说是有所帮助的,但是对于我们一个严肃的传播过程研究者而言,我们应该有方法,对于数据有基本的判别,发现哪些是真数据、哪些是伪数据,哪些是呈现的真实的传播过程,哪些实际上是环境带给我们的噪声。
实际上我们在传播领域的应用,我们可以把大数据的应用分为不同的环境,呈现为不同的场景,比如说我们在内容生产领域,大数据可以帮助我们对于生产者资质的评估、对于新闻价值的判断、对于内容生产本身的影响。因为时间关系,下面这些就没法跟大家说很多了,但是我可以跟大家说一点的就是,我们举一个例子,我们在实际的工作当中,实际上是经常碰到的,大家都知道在互联网时代说人人都有麦克风、人人都有摄像机,大家的手机都可以成为一个场景呈现的基本工具,因为这个原因,现在对于传媒机构而言,它如果希望能够获得更多的第一现场的内容的时候,它有一个比较简便的方法就是所谓的让用户生产内容,不知道在座的各位有多少人看梨视频,大家都知道它实际上主要的内容来源是用户给它提供的。但是对于严肃的媒体机构而言,它有一个困境就是这些用户给它提供的内容究竟是不是可靠的、可信度如何、真实性如何、通过什么方式可以去验证它。如果我们碰运气就会发生比较大的麻烦,我举个例子,我们《北京时间》平台上有很多用户生产的内容,我们叫用户注册的媒介号,就像大家在微博上可以注册一个账号、在头条上可以注册一个账号然后发布自己的内容一样,在《北京时间》平台上我们有用户注册的自己的媒介号,有一位所谓的军事爱好者,他经常在上面发一些不咸不淡的所谓的军事方面的消息,这个本身也无所谓,而且我们以为一般来说这样的消息没有任何政治风险,但是某一天他在他的那个账号上面连续发了六篇关于俄罗斯把一些所谓的先进的武器卖给中国,然后现在俄罗斯应该后悔了,中国的战略影响力远远地超越了俄罗斯,就是这类的东西,这个消息发布正好是在什么场景下面呢?就是德国G20马上就要开始,习近平主席正在俄罗斯访问,大家知道中俄关系现在实际上是一个非常有趣的关系,这个关系可能还富有一些其他的战略意义,所以这个时候这个人的这个内容,实际上在一个严肃的媒体或者说在一个讲究基本的政治原则的媒体,实际上应该是避免它的,但是我们没能避免,没能避免的原因是因为我们忽略了自媒体账号的传播者他过去传播的军事内容可能带来的影响,而这些影响就我们对于中俄关系的判断以及在特殊的情境下可能给人们带来的负面的联想而言会产生什么样的影响,这一点我们评估不足。我们现在反思的时候,实际上觉得如果我们有一套比较充分的内容生产者的评估机制,而这个评估机制是建立在对他过去发布的内容以及发布内容的时间结点的把握的监控基础上的话,实际上我们是完全可以实现对他进行控制的。另外,当然还有一方面是这个人已经在这个媒体平台上已经有一些劣迹,只要我们能够把他过去的那些轨迹记录下来,并且我们给他有一个叫信用度的评分,我们基本上就可以对于某些人可能发生的内容发布风险进行控制。内容分发的领域就是我们对渠道和平台的判断。传播生态的分析基本就是对于传播过程、传播环境的分析。内容推送环节的分析,就是所谓的千人千面,看上去大家都是下载了同一个客户端,我们下载的是今日头条、我们下载的是澎湃、我们下载的是《北京时间》,但是你看到的推送的内容跟你身边的朋友并不完全一致,可能跟你老爸老妈比起来差距更远,差距远的原因就是因为这个阅读平台对你的偏好有一定的评估,实际上它对它发布的内容也是做了标签化内类的,当他把他发布的内容跟你的阅读偏好做一个匹配的时候就实现了精准了推送。传播效果的评估实际上也是一样的。
这里我以我们《北京时间》这样一个媒体机构存在的状态跟大家分享,就是在哪些环节我们实际上是跟数据关联的。硬件我们当然不要求说它了,哪里有全景演播室、媒体技术体验厅等等,在演变方面实际上每一个环节都是跟媒体关联的,整体的计算中心实际上就是一个云计算中心,然后用户库、媒资库和海量视频内容的管理,这个实际上都是建立在云计算中心的基础上,如果没有它就没有整个生产、制作、播出的过程,就不能对于你的用户进行精准的分类和管理。
同样,对于内容生产者而言,如果我们媒体自己生产内容是一个主体的话,我们称之为优质内容的话,实际上优质的PGC也可以生产同样的内容,UGC生产的内容必须有一个控制过程的,这个控制过程也同样建立在信用评估和内容本身的价值评估基础上。
我这里给大家提供两组非常有趣的数据,这个都是短视频在两个不同的平台上top10,大家看看很有意思吧,这个前十,千万豪宅失火致母子4人死亡,保姆被指见火就跑,这是杭州纵火案;司机暴打女行人惹众怒,甲壳虫被掀翻砸漏等等,这边都是短视频,那边也是短视频。这两类短视频实际上都是同一个生产平台生产出来的,这两类短视频都是在同一时间在不同的平台上发布的,但是它们的点击会有如此大的差距,如果把这些交给在座的各位,你们会做如何的分析呢?实际上这两组数据可以给我们有很多的分析空间。一是这个平台本身它的品牌标识或者说它的品质印象,就是它的受众到这个平台上来看相关的信息的时候,比如说各位如果想关注党的十九大相关的信息,我相信大家首先会选择几个中央的主流媒体,比如说新华社、中央电视台。大家如果想要了解最近那几个小鲜肉的最新的状况、还有谁谁的前女友之类的消息,我相信大家不至于要到新华网或者人民网去找,这首先是一个平台的差别。第二个,我们看它的点击量本身就说明它的受众是有相当大的差别,就是这个平台上的受众相对而言对于严肃新闻的关注度比较高,那个平台上的受众对于社会热点、娱乐八卦甚至其他乱七八糟的东西关注度更高一些。然后再进一步地说,在这两个平台上呈现出来的情况表明,同样的内容如果我们以不同的标题呈现,那么在不同的平台上呈现出来的传播效果也会有很大的差别。我给大家看这两组数据的意思是什么呢,实际上当我们发现内容传播效果不一致的时候,它一定和这个传播平台以及它背后的受众、传播特定的时机相关联的。我可以揭晓一下这两个平台的不同,这一栏是在《北京时间》平台上呈现的传播效果,这一栏是在微博的平台上呈现的传播效果。这是就内容而言。
实际上内容生产领域,我相信大家听说过数据新闻,数据新闻实际上是对所谓的数据进行充分的内容加工的有效的手段,我这里给大家有一个基本的梳理,现在实际上有多种探索了。这个是中新网那年青岛大爆炸的时候做的新闻,以网页的形式呈现出来,这里面每个点你点击进去都有相关的数据和内容呈现。这是一个网页状态呈现的,是关于二氧化碳的过去、现在和未来。这个是网页和APP数据新闻,这是一个很有趣的关于嫁到上海的女性和成功地成为上海女婿的人员的比例以及他们的基本状况。这个是大家看到过的央视做的数说命运共同体,“一带一路”倡议特别报道。这样的一些内容,实际上告诉我们数据除了帮助我们做传播过程的研究、分析、提升我们的传播效率之外,实际上同时也可以成为我们内容生产的原材料,这个生产的过程需要这个团队具备基本的人员配备或者素质,比如说你对数据的基本的分析和挖掘的能力,分析、挖掘之后你有基本的把数据可视化的能力,所谓数据可视化就是把一套枯燥乏味的数据呈现为大家能看得懂、有视觉冲击力的内容。我觉得我今天这个题目起得确实有点大而无章,每一块都没法跟大家细致地分享,实际上我觉得每一点都是给大家一个提示,未来如果你们对大数据和传播过程有兴趣的话,实际上每一个领域都有可能成为我们重点关注的领域。这些领域我之所以都关注,就是因为我现在是一个新媒体平台上内容生产的管理者,我非常认同传媒界的人士都是浅薄的,我实际上挺浅薄的,就是因为我对什么都感兴趣,但是我对每一个方面可能都研究得不是很深,我希望我给大家提供的这些领域和方向对大家的研究而言是有价值的。
我们作为内容的生产者,我们对于内容的传播平台和渠道,我们对内容的生产和传播过程有基本的判断。接下来就是内容的发送和逻辑,所谓的千人千面,我们把千人千面的逻辑简单化就是这样的过程,机器把文章推送给可能感兴趣的用户,它对内容进行标签化,比如说我刚才把短视频的内容进行分类,政治的、外交的、八卦的、明星的、娱乐的这样的标签,根据我的用户的过去的阅读兴趣,我给他也贴上标签,比如他对政治、娱乐八卦之类的感兴趣,比如她作为一个新生儿的母亲可能对于育儿知识这类的东西更感兴趣,我把这些贴了标签的内容和她的兴趣标签做匹配,我就可以做相关的推送了。我把这些可能感兴趣的用户做了推送,推送完了之后如果点击率高,我就可以进一步扩大范围推送给更多相似的用户。我怎么给更多相似的用户,就是我前面说的,实际上对于用户做了标签化的分类。通过这种算法逻辑、推送内容的方式当然是有问题的,这是人民日报2016年12月23号的一篇关联文章,《算法盛行更需“总编辑”》。如果按照我刚才的逻辑,是不是用不着总编辑了,那边有内容来源,这边有丰富的用户,用互联网或者移动媒体的说法,就是我的活跃用户,月活用户或者日活用户有多少,然后我这边又有丰富的内容源,这些内容源有可能是我自己生产的,也可能是通过机器抓取的,这些内容过来之后我对它们进行标签化的处理,然后我对我的用户做标签化的分类之后做匹配,然后推送。推送之后就发现问题了,前一段时间我们新媒体机构接到网络管理部门的要求,对于这种所谓的通过算法的方式进行推送进行严格的清理,就是因为我们的领导干部他也用手机嘛,或者是领导干部的亲戚也用手机嘛,当他的手机上被推送过来的东西都是乱七八糟的时候,这就是一个挺麻烦的事情。你们现在就可以打开手机上的客户端试试,你们看看置顶的第一条是什么、第二条是什么。这个实际上就是对于算法的批判之后,人民日报2017年7月6又有一篇文章,《新闻莫被算法“绑架”》,同时人民日报还发了三篇对于算法批评的文章,实际上你通过算法推送给用户的可能是用户喜欢看的,就像前两天我参加百胜餐饮公司进入中国30年搞了一个庆典,我参加他们的庆典,然后他们CEO,一位中年女性,身材保持得非常好,下面的记者就问,你作为必胜客和肯德基的最高管理者,你吃不吃肯德基的东西,她说我当然吃,每周都吃两到三次,而且还有一个下午必须从2点吃到5点,就是试吃那种状态的。大家说你的身材怎么会保持那么好?我虽然吃,但是,一,有节制;二,保持平衡。我说她这个例子是什么意思呢,实际上我们算法推送的时候,现在被广为诟病的算法的弊端实际上就是发现了你想要的东西,what you want,你想要的那个东西它给你了,但是对你需求的、what you need的东西,就是保持你营养平衡的东西它没有充分地给你,这是算法现在的不足。所以我对现在包括人民日报在内的对算法的批评,我是持谨慎的赞同态度,我不认为是算法本身出了问题,而是因为我们没有很好地善用这个算法工具,才导致了我们给读者、给用户提供了不健康、不平衡的精神食粮,所以我觉得这个话题抛给在座的各位是有意义的。实际上,未来在座的各位只要从事跟传播相关联的行业,不一定是在媒体机构,也许你只是在一个很小的客户端,前两天我在面试一个毕业生的时候,我问他你有其他offer吗?他说有一个,但是我不太想去。我说哪儿?他说迷蒙工作室。也就是说你哪怕到迷蒙工作室这样的地方,你从事的也是传播的事情,或者是媒体公关相关联的工作,你实际上也是从事这样的工作。对于用户而言,我们作为一个传播者,就必须有方法去洞察他想要什么,同时我还能超越于他自己能够感知到的他想要的那个东西,这也是苹果公司一直以为做市场调研是不靠谱的原因。大家知道市场调研能够发现的是用户显性的需求,他真正意义上超越于显性的东西是通过市场调研没法获得的,这就需要你的洞察力,所以我们的算法和算法背后的运行逻辑一定是建立在我们对用户深刻的洞察和把握的基础上,也正是因为这个原因,我一直认为现在所谓的算法工程师,他的价值是明显被高估的或者泡沫化的、虚高的。为什么?他们只是一个工具的运行者,真正洞察人心的一定还是那些了解人的人。
我们在运行过程中,大家看到这些东西都是需要我们的数据,并且数据支撑的平台,比如我们做云中央厨房,对于不同的媒介、对于不同的传播形态、对于不同区域之间的勾连,比如说内容呈现的时候用什么样的方式既能让用户喜欢,又能够传递所谓的主流价值观,我们作为严肃的内容生产者的话,我们有丰富的资源,在PC端、在移动端,在不同的微信、微博端,我们究竟用什么方式去发布它,然后我们用什么样的方式可以精准地把我们需要传递的东西传递到需要的人手里。还有对于传播效果的分析,这是我抽取的我们一个时间截面,8月11-13日,正好是周五到周日三天,大家发现传播的峰值点是不一样的,大家会发现在工作日的时候上午和下午有两个峰值点,在周末的时候从上午9点之后基本上是属于一个平台期,略微有点增长。这样的东西对于我们而言有什么样的价值?大家都知道我们的内容发布,同样的一条信息,你是早上8点钟发布还是9点钟发布,还是下午3点发布、还是晚上7点发布,它的效果是不一样的,因为用户接触媒体的最方便的时间不一样嘛,就像我们过去说电视的黄金时间一样,晚上8点之后到11点之前是电视的黄金时间,不是那个时间段天然地就比其他时间段更值钱,而是那个阶段电视观众更有可能接触电视,对于网络传播而言也是同样的道理。
基于大数据计算,我们《北京时间》智能推荐+人工,在算法还是人工更起决定因素这个问题上,我们的看法是依靠技术,但不唯技术,立足平台但不唯平台,争取点击率但不唯点击率,发挥市场导向的作用。最后我想跟大家分享的这句话是苹果CEO库克这次来乌镇互联网大会的时候说的一句话,他说很多人都在谈AI人工智能,但是我其实并不担心机器人像人一样思考,大家都在说未来机器人会不会取代人,会不会被机器人统治,库克说我并不担心机器人像人一样思考,我担心人像机器一样思考。我套用库克的一句话,实际上就是对于大数据我并不担心,因为大数据让我们的整个传播过程发生了根本的改变,而我担心的是有些人把大数据过于神秘化、过于神圣化,以至于有所谓的大数据崇拜,从而发生了不应该出现的事情,就是我刚才给大家分享的人民日报的那两篇文章,算法的时代当然还需要总编辑,算法的时代我们当然不能被算法绑架。你被它绑架的过程实际上就是你臣服于一个异化了的物的过程,所以我觉得库克说的这句话挺好的。
最后我想跟大家分享一个对于大数据悲观的观点,GARTNER声称60%的大数据项目失败,它的分析师表示,去年的大数据预估过于保守,他认为实际数字现在已经接近85%。也就是说他认为现在的大数据项目成功的并不多,很多时候在一些新技术出现的时候我们往往过高地估计了它的价值以及它对于我们社会运转的功能和价值,而随着时间的推移我们会渐渐地看到它的可能性,而这个过程中我们也可以撇除掉它刚刚出现的时候在我们面前的泡沫。这就是我今天跟大家分享的一些内容,谢谢!