首页
 

图解资讯

北京pk10冠亚和值计划 > 图解资讯 > 你的垃圾数据是金矿

你的垃圾数据是金矿

点击:41时间:2018-06-07

你对海量数据的处理能力了解较少的一个方面是使用传统上被忽视的数据的能力,或者在某些情况下甚至被认为是垃圾。这一全新的数据类别被称为“排气”数据——作为其他过程的副产品生成的数据。

广告许多金融市场数据是由于双方同意出售资产的价格。此时销售价格的记录成为一种排气数据的形式。不久前,除了经济史家和监管者之外,这类数据并没有多大意义。

股票价格和其他证券销售价格的大规模即时存档现在是许多大银行和对冲基金机器学习算法的“训练基地”。他们的贸易引擎从那段历史中“学习”,这种学习现在为世界贸易提供了很多动力。

传统交易,如房屋销售历史或股票交易档案,是时间序列数据的一种形式,但许多其他不太传统的措施也正在收集和交易。

还有其他类别的非常规数据不是基于时间序列的。例如,网络数据概述了社交网络的关系和其他信号,地理空间数据有助于映射,调查数据本身关注人们的观点。然而,时间序列或纵向数据是最常见的形式,也是最容易与其他时间序列数据集成的形式。

移动电话的位置数据意味着许多公司现在都有人员移动数据。[照片:通过对话,Flickr用户Andrew Hyde ]一致的纵向非常规排气数据或线索数据集,正如我所说,是多种多样和不断增长的。其中包括:

徒步交通数据消费者支出数据卫星影像数据iometrics commerce包裹流量数据技术使用数据员工满意度数据。Glasgows电车艺术中心过去九年的步行数据可视化。图片:通过对话,Flickr用户凯尔·麦格理说,举例来说,你对超市的季节性盈利感兴趣。步行交通数据可能不是获利的原因,因为更多的商店访客不一定与获利甚至销售直接相关。但它可能在统计上与销售量有关,所以可能是一个有用的线索,就像体温是一个好线索或一个人整体健康的信号一样。当结合使用数据分析技术的大量其他信号时,这可以提供有价值的新见解。

例如,对冲基金BlackRock推出的“量化”投资基金广告,就是利用每五分钟拍摄一次的中国卫星图像,更好地了解工业活动,并对报告数据进行独立解读。

传统上,金融界交易者(包括高频交易者)有两种主要类型,一种是希望通过大量的小型交易获利,另一种是希望通过更长时间内的少量大型押注获利的投资者。投资者往往更关心所涉及的基础资产。就公司股票而言,这通常意味着试图根据公司的销售、成本、资产和负债等了解公司的潜在价值或基本价值以及未来前景。

无人机和新型低成本卫星的航空摄影是非常规数据的一个重要新来源。[照片: Flickr用户bxhxxxx ]一种新型基金正在出现,它将基于计算机的量子计算的速度和计算能力与投资者使用的基本分析相结合:量子计算。这些基金利用先进的机器学习,结合各种常规和非常规数据源,预测资产的基本价值和市场错配。

其中一些新型基金,包括纽约的两个Sigma和伦敦的Winton Capital,都非常成功。温顿是由剑桥大学物理专业毕业生戴维·哈丁于1997年创建的。在不到二十年的时间里,它跻身全球十大对冲基金之列,接受咨询的资产达三百三十亿美元,拥有物理学、数学和计算机科学博士学位的人数超过四百人。在不远处,拥有300亿美元资产的Sigma也闪耀着顶尖的科技人才。

新的公司也在出现,包括由计算生物学和墨尔本大学校友德斯蒙德·伦教授管理的塔法费资本管理公司。了解包括生物学和生态学在内的许多自然科学领域的复杂数据动态,已成为了解金融市场动态的极好培训。

所有人的怪异数据,但c或正在使用替代数据。一些初创公司正肩负着使获取新资源民主化的使命。Bay Area startup第二措施的联合创始人兼首席执行官迈克尔·巴比诺( Michael Babineau )旨在为消费者购买数据提供类似彭博终端的方法。这将把卡片报表中大量不可理解的文本转换成更结构化的数据,从而使广大商业和投资者能够访问和使用这些数据。

广告其他公司,如旧金山的Mattermark和纽约的CB Insights,都是情报部门,为公司的信号提供迷人而有价值的数据洞察力。“这些可以成为成功的指标和潜在预测者——特别是在高科技风险投资的高风险游戏中。

类似于阿德里安·霍洛瓦蒂十年前在芝加哥在线绘制犯罪和许多其他统计数据的开创性工作,悉尼的微城市提供了澳大利亚周边居住地点的详细数据点的精细阵列。它允许潜在的居民和投资者比较郊区非常特殊的社区的学校、餐馆和许多其他便利设施。

我们觉得,由CSIRO研究员塞西莉亚·帕里斯设计的这是一个非常出色的数据项目,探索社交媒体特别是推特能否提供准确、实时的世界情绪状态信号。

我们觉得这是一个研究工具,通过推特来创造有关世界各地人们情绪的“信号”数据。[照片:通过对话,CSIRO ]奇怪的小数据比简单的流行经济学有它的好处和风险,Freakonomics ( 2005 )展示了不同寻常但高质量的数据源在创造洞察力方面的价值。对办公室里一个诚信体系饼干罐的账目进行认真的记录显示,人们在某些假期偷东西最多(可能是因为这些时候财务和精神压力增加);查阅毒贩簿记账目解释了为什么许多毒贩和他们的祖父母住在一起(他们太穷了,搬不出来);芝加哥的大量公立学校记录显示,家长的关注是学生学业成功的关键因素。Freakonomics中的许多例子都是基于小而古怪的数据样本。然而,正如许多学者所知,小样本研究可能会带来几个问题。问题在于抽样——它是否足够大,足以代表一个强有力的样本,以及它是否是研究旨在了解的随机选择的人群。

还有错误的问题。虽然可以预期误差会随着样本量的减少而减小,但最近对学术心理学论文的一项元研究发现,半数被测试的论文显示了显著的数据不一致和误差。在少数情况下,这可能是由于作者篡改了结果,而另一些可能是由于转录或其他简单的错误。

广告奇怪的数据越来越容易找到,越来越多的大规模非常规数据收集变得容易获得。推动其扩散的有三个高炉:

互动炉:我们自己与web和web服务(电子商务、web邮件、社交媒体)等日益增长的互动;交易炉:日益增长的在线商业分类账;自动化炉:网络连接传感器的爆炸。虽然大型数据收集无法避免制造,但有时可以帮助解决样本大小和表示问题。当与机器学习相结合时,它们可以:

从不完整、嘈杂甚至部分错误的数据中提供准确的见解。在没有先验假设的情况下提供关联、模式和连接。通过调用多个视角来帮助消除偏误。[照片: Flickr用户Ken Hawkins ]我们能从更多的线索中期待什么?我们可能会看到意想不到的结果,并惊讶于许多因素,如社会和个人信息,在多大程度上可以利用意想不到的数据信号进行高度预测。迈克尔·柯辛斯基和他的同事在2013年发表于PNAS的分析中展示了社交媒体数据的预测能力。他们证明,像宗教、政治、甚至你21岁时父母是否在一起这样的高度个人化的特质,单独使用Facebook喜欢是很容易预测的。

一个丰富的领域是生物识别。澳大利亚一家科技公司表示,人们的声音可以作为认知负荷的信号,用于实时检测压力水平,减少呼叫中心工作人员的缺勤率。我们将看到大量应用程序出现,它们利用处理非常规数据源。一个丰富的领域是生物识别。澳洲科技公司启动的脑计显示,人们的声音可以作为认知负荷的信号,用于实时检测压力水平例如,减少呼叫中心工作人员缺勤。

我们还可以期待看到更多关于社区、人口和产业的元分析。现在,越来越多的雄心勃勃的研究已经成为可能,这些研究将大量的、往往是完全不同的数据集结合在一起,从而对经济学、法律、卫生和许多其他研究领域产生新的见解。一个例子是最近发表在《美国医学协会杂志》上的一项荟萃研究,它结合了另外九项研究,发现老年人的行走速度确实是长寿的预测因素。

丰富的数据与机器学习相结合,可以让我们对工作、生活和玩耍的方式有新的个人见解。个人和企业可以利用他人的经验,并将其与我们自己的数据相结合,从而使我们有能力做出更好的决策,这就有巨大的潜力。

广告许多传统企业,如银行、航空公司和超市,以及新的网络巨头,已经知道客户的习惯和统计偏好。但随着更简单、成本更低的工具和新的数据处理方法的出现,企业和个人有可能自己获得这种洞察力。通过将公共、私人和历史统计数据与自己的数据(包括典型数据和奇怪的东西)相结合,我们可以获得迄今只有政府和少数大公司才能获得的各种见解。

Paul x . McCarthy是学者联盟的联合创始人和首席执行官,该联盟是一家基于专家数据分析的全球研究人员和学者高管搜索和招聘公司。他是《在线重力》( Simon & Schuster )的作者,该书探索了数据分析时代企业的新动态。

这篇文章的早期版本最初出现在对话中。

关闭