生活范文化
新浪微博
微信
当前位置:生活范文化网 » 刮痧

大数据周报

本周推荐的文章主要关于Apache Airflow、TLA+、熔断器,以及优步的M3数据库。

科技

  1. 介绍了关于构建弹性系统的熔断器模式,以及一些实现细节,如是否将其应用到每个主机、每个服务等等之上。

    https://engineering.grab.com/designing-resilient-systems-part-1

  1. 这篇文章主要介绍了Apache Flink 1.7的一些新特性,其中包括支持状态存储中的记录格式的改变、临时表的join、通过MATCH_RECOGNIZESQL语句进行模式分析、支持exactly-once的S3的StreamingFileSink。还有即将到来的Flink 1.8的一些细节。

    https://www.slideshare.net/tillrohrmann/apache-flink-17-and-beyond

  2. 关于Amazon EMR和基于Spark的数据分析平台的介绍。文章包括了总体架构,并且提供了Spark源码(其中有些小的建议)。

    https://medium.com/@tomas.duhourq/building-scalable-analytics-with-aws-part-i-6de6a90e3513

  1. Spark的HiveWarehouseConnector(HWC),提供了通过Hive执行查询的读API并将结果封装为DataFrame,以及通过DataFrame和Structed Streaming将数据写入到Hive。HWC是捆绑在HDP(Hortonworks 数据平台)中的,代码在Github中开源了。

    https://hortonworks.com/blog/hive-warehouse-connector-use-cases/

  1. HELK stack建构于ELK stack之上,提供分析安全事件日志的分析工具。本文主要介绍使用KSQL进行join Kafka中的数据,以便更进一步的分析。

    https://posts.specterops.io/real-time-sysmon-processing-via-ksql-and-helk-part-1-initial-integration-88c2b6eac839

  1. 关于使用Apache Airflow的大量技巧,比如如何高效定义DAG,存储数据库密码等。

    https://medium.com/datareply/airflow-lesser-known-tips-tricks-and-best-practises-cf4d4a90f8f

  1. TLA+是一种用于验证分布式系统的格式规范。这篇文章介绍了如何使用TLA+来分析两阶段提交。

    https://muratbuffalo.blogspot.com/2018/12/2-phase-commit-and-beyond.html

  1. 这篇文章主要是关于优步的M3开源分布式时序数据库。介绍了主要组件、与prometheus和statsd的API的兼容、查询语言等等。

    https://towardsdatascience.com/introducing-m3-8790c503ce24

  1. 在日常的批处理作业中,不仅要关注失败的,还需要检测延迟任务和慢任务。这篇文章介绍Walmart实验室如何分析历史任务数据来预测一个作业能否达到SLA。

    https://medium.com/walmartlabs/auditing-airflow-batch-jobs-73b45100045

  1. Geoblink写了几篇关于Apache Airflow的文章,他们喜欢对于Airflow进行简单的扩展,这里他们介绍了如何实现一个PostgresHook来导入Postgis的数据。

    https://medium.com/geoblinktech/bring-sanity-to-your-data-pipelines-with-apache-airflow-3c9906aac77c

新闻

  1. Datanami目前涵盖的公司有Redis、MongoDB以及Confluent,他们对其软件在Saas上的使用做了限制。

    https://www.datanami.com/2018/12/24/cloud-backlash-grows-as-open-source-gets-less-open/

  1. 创新数据系统研究的一场会议将在一月份召开,但是会议的文件已经发布到网上了。其中有一些有意思的东西,比如面对查询优化的深度学习、利用特定硬件(如GPU)的数据库系统。

    http://cidrdb.org/cidr2019/program.html

  1. 欧盟对于一些开源软件漏洞的悬赏进行赞助,其中包括Apache Kafka和WSO2。

    https://www.zdnet.com/article/eu-to-fund-bug-bounty-programs-for-14-open-source-projects-starting-january-2019/

版本发布

  1. Apache Flink针对1.5、1.6以及1.7版本发布了小版本,其中包含了各自版本的不少漏洞修复以及优化。

    https://flink.apache.org/news/2018/12/21/release-1.7.1.htmlhttps://flink.apache.org/news/2018/12/22/release-1.6.3.htmlhttps://flink.apache.org/news/2018/12/26/release-1.5.6.html

以上来自Data Eng Weekly #295