padluo (31)in #cn • 6 years ago从用户连续活跃的最大天数说起问题引入 最近经常碰到这样的问题,每天每个城市播放最多的10首歌,某月每支股票连续下跌/上涨的最大天数,用户连续活跃的最大天数,初步看起来都和分析函数相关,考验逻辑思维和写复杂SQL的能力。 以用户连续活跃的最大天数为例 以Oracle的分析函数语法说明,首先模拟一些用户活跃的数据, -- 建表语句padluo (31)in #cn • 6 years agoSeries和DataFrame的数据取值与选择数据取值与选择 NumPy数据取值的方法,包括取值操作(如arr[2, 1])、切片操作(如arr[:, 1:5])、掩码操作(如arr[arr > 0])、花哨的索引操作(如arr[0, [1, 5]]),以及组合操作(如arr[:, [1, 5]])。…padluo (31)in #cn • 7 years agoSpark实战(6)_spark-sql -e -f -i命令的整合和spark-sql日常作业开发流程总结背景介绍 在日常工作中,我们可以在一个shell脚本里面利用 spark-sql -e 执行sql脚本,而且可以传参数,但是存在一个问题,shell脚本对格式要求严格,而且shell脚本和spark-sql的脚本混在一起,内容庞大凌乱,不好管理。而 spark-sql -f…padluo (31)in #cn • 7 years agoSpark实战(5)_Spark Core核心编程Spark版本 cdh5.9.0集成的spark的版本1.6.0,集成的hadoop版本2.6.0。查看的网址: 如果用cdh5.9.0 parcels离线安装自带的spark(on yarn),启动时提示缺少包,需要修改spark-env.sh的配置 SPARK_DIST_CLASSPATH…padluo (31)in #cn • 7 years agoScala的Class、Object、Trait开发环境 ideaIU或ideaIC。 idea的scala插件,File-Setting-Plugins,搜索scala在线安装,或下载后离线安装Install plugin from disk。 加载scala的包,Project Structure,Global Libraries,添加scala-sdk。 基础…padluo (31)in #cn • 7 years agoSpark实战(4)_Master原理剖析与源码分析主备切换机制原理剖析 Master可以配置两个,Spark原生的standalone模式支持Master主备切换。 Spark Master主备切换可以基于两种机制,一种是基于文件系统的,一种是基于ZooKeeper的,基于文件系统的主备切换机制,需要在Active Master挂掉之后,手动去切换到Standby…padluo (31)in #cn • 7 years agoSpark实战(3)_SparkContext原理剖析与源码分析TaskScheduler的初始化机制 TaskScheduler,如何注册Application,executor如何反向注册? createTaskScheduler(),内部会创建三个东西。 一是TaskSchedulerImpl,它其实就是我们所说的TaskScheduler。…padluo (31)in #cn • 7 years agoSpark实战(2)_Spark内核架构剖析Standalone模式 提交Spark应用的机器,Application(自己的Spark程序),spark-submit(shell)提交Application。…padluo (31)in #cn • 7 years agoScala学习笔记05_面向对象编程之类和对象定义一个简单的类 // 定义类,包含field及方法padluo (31)in #cn • 7 years agoScala学习笔记04_Map与Tuple创建Map // 创建一个不可变的Mappadluo (31)in #cn • 7 years agoScala学习笔记03_数组Array Array,长度不可改变的数组,Scala数组的底层实际上是Java数组,如字符串数组在底层就是Java的String[],整数数组在底层就是Java的Int[]。 // 数组初始化后,长度就固定下来了,而且元素全部根据其类型初始化padluo (31)in #cn • 7 years agoScala学习笔记02_函数入门函数入门 函数的定义与调用 ,在Scala中定义函数时,需要定义函数的函数名、参数、函数体。 scala> :pastepadluo (31)in #cn • 7 years agoScala学习笔记01_条件控制与循环if表达式 if表达式的定义 ,if表达式是有值的,就是if或else中最后一行语句返回的值。 scala> val age = 30padluo (31)in #cn • 7 years ago分布式消息队列Kafka学习笔记Kafka概述 a distributed streaming platform Kafka架构和核心概念 producer, 生产者,生产馒头。 consumer, 消费者,吃馒头。 broker, 篮子。 topic, 主题,给馒头带一个标签,topica的馒头是给你吃的,topicb的馒头是给你弟弟吃。…padluo (31)in #cn • 7 years ago分布式日志收集框架Flume学习笔记业务现状分析 我们有很多servers和systems,比如network device、operating system、web server、Application,他们会产生日志和其他数据,如何使用这些数据呢?可以把源系统的日志数据移到分布式的存储和计算框架上处理,如何解决? shell cp hadoop集群的机器上,hadoop…padluo (31)in #cn • 7 years ago与iPhone5国行A1429的故事:越狱、降级刷机、完美电信3G、不完美电信4G、撸油管自从上次把小米3全网通版刷了安卓原生系统,干净清爽的一B,装上了G家全家桶,焕发了第二春,可以再战几年,唯一缺点就是不能用4G。 你需要一个原生的安卓 这次再深入研究了一下苹果的iPhone 5。 应用场景 作为电信卡(3G/4G)的备用机,可以电话、短信、科学上网。…padluo (31)in #cn • 7 years agoFlume+Kafka+Storm模拟应用日志的实时处理模拟应用需求 采集订单系统应用打印的日志文件。 日志文件使用log4j生成,滚动生成。使用 tail -F xxx.log 来监控文件名称,理解tail -f和tail -F的区别。 将采集的日志文件保存到Kafka中。 (source)输入: tail -F xxx.log (channel)存储:内存…