本期会给大家奉献上精彩的:Spark编程模型、Spark性能优化、Spark Streaming笔记、HBase数据迁移、HBase如何避免RS OOM、千人千面、线程的基础知识。全是干货,希望大家喜欢!!!
#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!也请同学们继续打赏,支持社区,支持编辑们持续奉献高质量知识!
#大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学,欢迎扫描文末二维码联系(参与社区工作,收获知识和进步,还有红包哦)。
特别提醒,文末有惊喜!
以下是正文,限于众编辑水平有限,不保证大家都喜欢。
1Spark编程模型本文由Hadoop的MapReduce思想引出Spark,介绍了Spark运行的核心机制,接着以通俗易懂的方式介绍了包括Application、Driver、SparkContext、Cluter Manager、Worker、Task、Job、Stage、RDD、共享变量、DAGScheduler、TASKSedulter等核心概念,着重从不同角度介绍了RDD内部原理。
https://blog.csdn.net/WYpersist/article/details/79671397
数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。
https://blog.csdn.net/u012102306/article/details/51556450
本文对spark stream进行了分析,主要从离散流 transformation,缓存和持久化和checkpoint这几个角度进行了详细的阐述
http://mp.weixin.qq.com/s/_pZ5U-UlZvhPeXuOepO9_w
介绍HBase常用的大数据量数据迁移常见的两种方法
http://mp.weixin.qq.com/s/2vYvafdKumJiLToTrSumTA
当堆积到一定程度后,事实上后面的请求等不到server端处理完,可能客户端先超时了。并且一直堆积下去会导致OOM,1G的默认配置需要相对大内存的型号。当达到queue上限,客户端会收到CallQueueTooBigException 然后自动重试。
http://mp.weixin.qq.com/s/6LTNvKIbH3YskZNsLUk_GQ
本文对58同城智能推荐系统展开介绍,基于58平台产生的各类业务数据和用户积累的丰富的行为数据,采用各类策略对数据进行挖掘分析,最终将结果应用于各类推荐场景。首先会概览整体架构,主要分为数据层、策略层和应用层三层,然后从算法、系统和数据三方面做详细介绍。
http://mp.weixin.qq.com/s/J_PYcKw2HQVSszj7YCHJSQ
编写正确的程序并不容易,而编写正常的并发程序就更难了;相比于顺序执行的情况,多线程的线程安全问题是微妙而且出乎意料的,因为在没有进行适当同步的情况下多线程中各个操作的顺序是不可预期的。
http://mp.weixin.qq.com/s/9GtIkAVm_QNNIOo1cnNXpA
某女买了一件1,000块的衣服,我质疑有点贵。
她说:贵?我跟你说,这件衣服原价2,000块,打了五折之后便宜一半,就等于我赚了1.000块!虽然我花出去1.000块,但同时我又赚回来了1.000块,所以这件衣服相当于是白送,免费。你懂个屁!
我被她的经济数学头脑震惊得久久说不出话来……
致谢:
魏宏斌、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉
猜你喜欢
加入技术讨论群
《大数据和云计算技术》社区群人数已经3000+,欢迎大家加下面助手微信,拉大家进群,自由交流。
喜欢QQ群的,可以扫描下面二维码:
欢迎大家通过二维码打赏支持技术社区(英雄请留名,社区感谢您,打赏次数超过108+):