看穿美国总统特朗普就职以来 8000 多条 Twitter 推送,仅需20 秒!

看完一条微博/微信要多久?100条呢?1000条呢?8000条呢?看完再整理出高效的数据分析和见解呢?

近期,美国 SumUP 分析公司利用其研发的实时文本分析平台,对美国总统特朗普就职以来的 8,000 多条 Twitter (英文的微博)推送进行了分析和处理,全程仅用 20 秒,秒杀的节奏!

20秒看看其“看”出了什么 (这个例子的数据源可以到这里下载,http://www.trumptwitterarchive.com/ ):

1. 热门话题总结; 5大热门话题, 其中36% 是关于虚假新闻,18% 是关于白宫。

2. 正负面情感值归类:特朗普发了很多关于希拉里·克林顿和南部边界的负面推送;他的关于减税的讨论都比较正面和积极。

3. 话题贡献源的确认和分离:使用Nucleus平台,能够迅速分离出所有的推送中哪些推送对上面的话题和情感值有贡献。

4. 话题历史数据趋势的分析:

- 历史数据显示,虚假新闻的话题在他的推送中一直很重要和流行,流行度平均值都在25%以上(下图蓝线)

- 关于白宫的话题,在去年一年流行度呈上升趋势:从10%增长增长到30%(下图橙色线)

- 关于北朝鲜的话题流行度出现突然峰值:从2019年2月到4月,流行度从平时的10% 突然增长到25%。究其原因,是2月底北朝鲜和美国领导人峰会在河内举行带来的广泛关注(下图绿色线)

5. 话题共识度的衡量:话题共识度用来衡量所有作者对特定话题的认可度。在这个例子里,共识度显示特郎普总统对某个话题的一致性。

- 我们查询了关键字“非法”,得到15条推送,对以下几个话题共识度是62%:[特朗普-竞选][特朗普-共谋][竞选-俄罗斯] [情报-委员会]

- 我们也对特朗普关于“失业率”的看法感兴趣,得到3条推送和100%共识度

推送一:工作机会增多,失业率历史新低,工资水平持续上涨

推送二:我们国家经济越来越好,失业率不断刷新最低记录

推送三:@GOPChairwoman:自从我竞选成功以来,我们增加了6百万个工作机会,失业率历史新低,工资水平持续上涨符号列表

20 秒获取的信息量,你服了吗?

面对数据爆炸性增长促成的这个“大数据”的时代, 一方面更多的数据蕴藏着更多的信息红利;另一方面更多的数据也意味着更大的工作量。全球有80% 以上的数据是杂乱的非结构化数据,并以每年50% 的速度增长。无论是投资人,金融或者情报分析师,律师,还是科研人员等专业人士, 每天都需要花1/3的时间来阅读和获取信息, 同时还要花费大量的时间进行数据的分析和整理,以便提供准确的建议,制定正确的方向策略,或者提供针对性的客户服务。绝大多数的专业人士认为目前低效的大数据处理方案将导致机会错失,见解偏差和信息不全的风险, 并为之充满困扰。

因此,涵盖了自然语言处理,计算机语言学,以及统计机器学习等领域的文本分析技术,在大数据处理领域开始扮演越来越重要的角色。尤其是近年来人工智能的推动,使其迅速发展和演变,尤其是算法的优化,算力的增长和存储的提升,让专业人士能够克服处理非结构化数据中的障碍,将它们迅速转化成有效的信息和深刻的见解。Nucleus,就是SumUP 专门打造的文本分析平台,旨在帮助那些专注于信息处理的专业人士智能快捷的实时处理和有效使用非结构化数据。

从理解特朗普推送中对流行话题到公众对总统候选人的情感变化,从金融分析师从文本中提取交易信号,从企事业对社交媒体内容的监控,到连接医学和法律调研等各个领域, 文本分析的需求和应用场景正日益增加。

8 月 8 日 10:00 - 12:00

赛灵思联手 SumUp 首席专家,共同为大家带来一场别开生面的网上研讨会,大家可以报名现场领略基于 Alveo 加速卡的文本信息是如何帮助您从浩如烟海的海量文本中分析和提取关键信息的。

扫码报名即送“幸运大转盘”!!会员专享福利哦!!

关于SumUp和Nucleus

SumUp Analytics 的 Nucleus 平台是一个提供 Xilinx FPGA 支持的实时文本分析 SaaS 算法,用于从非结构化文本中识别、提取和分析重要信息。该平台在采用 Alveo™ U200 加速器卡的本地设备或 AWS EC2 F1 实例上无缝工作。Nucleus 不仅包括一个运行在 Xilinx FPGA 上的 Python/SDAccel 混合库,用于核心分析,而且还包括用于外设分析的分布式 CPU。

关于 Alveo

赛灵思 Alveo™ 数据中心加速器卡专为满足现代数据中心变幻莫测的需求而设计。对于常规工作负载,与 CPU 相比性能提升高达 90 倍,这其中包括机器学习推断、视频转码和数据库搜索与分析。

最新文章

最新文章