
1.1 Data Sink 数据输出
经过一系列Transformation转换操作后,最后一定要调用Sink操作,才会形成一个完整的DataFlow拓扑。只有调用了Sink操作,才会产生最终的计算结果,这些数据可以写入到的文件、输出到指定的网络端口、消息中间件、外部的文件系统或者是打印到控制台。
1.1.1 print 打印
打印是最简单的一个Sink,通常是用来做实验和测试时使用。如果想让一个DataStream输出打印的结果,直接可以在该DataStream调用print方法。另外,该方法还有一个重载的方法,可以传入一个字符,指定一个Sink的标识名称,如果有多个打印的Sink,用来区分到底是哪一个Sink的输出。
DataStream<Tuple2<String, Integer>> result = wordAndOne.keyBy(0).sum(1); result.print(); //result.print(“wc “); |
下面的结果是WordCount例子中调用print Sink输出在控制台的结果,细心的读者会发现,在输出的单词和次数之前,有一个数字前缀,我这里是1~4,这个数字是该Sink所在subtask的Index + 1。有的读者运行的结果数字前缀是1~8,该数字前缀其实是与任务的并行度相关的,由于该任务是以local模式运行,默认的并行度是所在机器可用的逻辑核数即线程数,我的电脑是2核4线程的,所以subtask的Index范围是0~3,将Index + 1,显示的数字前缀就是1~4了。这里在来仔细的观察一下运行的结果发现:相同的单词输出结果的数字前缀一定相同,即经过keyBy之后,相同的单词会被shuffle到同一个subtask中,并且在同一个subtask的同一个组内进行聚合。一个subtask中是可能有零到多个组的,如果是有多个组,每一个组是相互独立的,累加的结果不会相互干扰。
1.1.2 writerAsText 以文本格式输出
该方法是将数据以文本格式实时的写入到指定的目录中,本质上使用的是TextOutputFormat格式写入的。每输出一个元素,在该内容后面同时追加一个换行符,最终以字符的形式写入到文件中,目录中的文件名称是该Sink所在subtask的Index + 1。该方法还有一个重载的方法,可以额外指定一个枚举类型的参数writeMode,默认是WriteMode.NO_OVERWRITE,如果指定相同输出目录下有相同的名称文件存在,就会出现异常。如果是WriteMode.OVERWRITE,会将以前的文件覆盖。
DataStream<Tuple2<String, Integer>> result = wordAndOne.keyBy(0).sum(1); result.writeAsText(“file:///Users/xing/Desktop/text”);//result.writeAsText(“file:///Users/xing/Desktop/text”, FileSystem.WriteMode.OVERWRITE); |
1.1.3 writeAsCsv 以csv格式输出
该方法是将数据以csv格式写入到指定的目录中,本质上使用的是CsvOutputFormat格式写入的。每输出一个元素,在该内容后面同时追加一个换行符,最终以csv的形式(类似Excel的格式,字段和字段之间用逗号分隔)写入到文件中,目录中的文件名称是该Sink所在subtask的Index + 1。需要说明的是,该Sink并不是将数据实时的写入到文件中,而是有一个BufferedOutputStream,默认缓存的大小为4096个字节,只有达到这个大小,才会flush到磁盘。另外程序在正常退出,调用Sink的close方法也会flush到磁盘。
DataStream<Tuple2<String, Integer>> result = wordAndOne.keyBy(0).sum(1); result.writeAsCsv(path); |
1.1.4 writeUsingOutputFormat 以指定的格式输出
该方法是将数据已指定的格式写入到指定目录中,该方法要传入一个OutputFormat接口的实现类,该接口有很多已经实现好了的实现类,并且可以根据需求自己实现,所以该方法更加灵活。writeAsText和writeAsCsv方法底层都是调用了writeUsingOutputFormat方法。
DataStream<Tuple2<String, Integer>> result = wordAndOne.keyBy(0).sum(1); result.writeUsingOutputFormat(new TextOutputFormat<>(new Path(path)); |
1.1.5 writeToSocket 输出到网络端口
该方法是将数据输出到指定的Socket网络地址端口。该方法需要传入三个参数:第一个为ip地址或主机名,第二个为端口号,第三个为数据输出的序列化格式SerializationSchema。输出之前,指定的网络端口服务必须已经启动。
DataStreamSource<String> lines = env.socketTextStream(“localhost”, 8888); lines.writeToSocket(“localhost”, 9999, new SimpleStringSchema()); |
1.1.6 RedisSink
该方法是将数据输出到Redis数据库中,Redis是一个基于内存、性能极高的NoSQL数据库,数据还可以持久化到磁盘,读写速度快,适合存储key-value类型的数据。Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。Flink实时计算出的结果,需要快速的输出存储起来,要求写入的存储系统的速度要快,这个才不会造成数据积压。Redis就是一个非常不错的选择。
首先在maven项目中的pom.xml中添加Redis Sink的依赖。
<dependency> <groupId>org.apache.bahir</groupId> <artifactId>flink-connector-redis_2.12</artifactId> <version>1.1-SNAPSHOT</version> </dependency> |
接下来就是定义一个类(或者静态内部类)实现RedisMapper即可,需要指定一个泛型,这里是Tuple2<String, Integer>,即写入到Redis中的数据的类型,并实现三个方法。第一个方法是getCommandDescription方法,返回RedisCommandDescription实例,在该构造方法中可以指定写入到Redis的方法类型为HSET,和Redis的additionalKey即value为HASH类型外面key的值;第二个方法getKeyFromData是指定value为HASH类型对应key的值;第三个方法geVauleFromData是指定value为HASH类型对应value的值。
public static class RedisWordCountMapper implements RedisMapper<Tuple2<String, Integer>> { @Override public RedisCommandDescription getCommandDescription() { //写入Redis的方法,value使用HASH类型,并指定外面key的值得名称 return new RedisCommandDescription(RedisCommand.HSET, “WORD_COUNT”); } @Override public String getKeyFromData(Tuple2<String, Integer> data) { return data.f0; //指定写入Redis的value里面key的值 } @Override public String getValueFromData(Tuple2<String, Integer> data) { return data.f1.toString(); //指定写入value里面value的值 } } |
在使用之前,先new FlinkJedisPoolConfig,设置Redis的ip地址或主机名、端口号、密码等。然后new RedisSink将准备好的conf和RedisWordCountMapper实例传入到其构造方法中,最后调用DataStream的addSink方法,将new好的RedisSink作为参数传入。
DataStream<Tuple2<String, Integer>> result = wordAndOne.keyBy(0).sum(1);//设置Redis的参数,如地址、端口号等 FlinkJedisPoolConfig conf = new FlinkJedisPoolConfig.Builder().setHost(“localhost”).setPassword(“123456”).build(); //将数据写入Redis result.addSink(new RedisSink<>(conf, new RedisWordCountMapper())); |
1.1.7 KafkaSink
在实际的生产环境中,经常会有一些场景,需要将Flink处理后的数据快速地写入到一个分布式、高吞吐、高可用、可用保证Exactly Once的消息中间件中,供其他的应用消费处理后的数据。Kafka就是Flink最好的黄金搭档,Flink不但可以从Kafka中消费数据,还可以将处理后的数据写入到Kafka,并且吞吐量高、数据安全、可以保证Exactly Once等。
Flink可以和Kafka多个版本整合,比如0.11.x、1.x、2.x等,从Flink1.9开始,使用的是kafka 2.2的客户端,所以这里使用kafka的版本是2.2.2,并且使用最新的API。
下面的例子就是将数据写入到Kafka中,首先要定义一个类实现KafkaSerializationSchema接口,指定一个泛型,String代表要写入到Kafka的数据为String类型。该类的功能是指定写入到Kafka中数据的序列化Schema,需要重写serialize方法,将要写入的数据转成二进制数组,并封装到一个ProducerRecord中返回。
//自定义String类型数据Kafka的序列化Schema public class KafkaStringSerializationSchema implements KafkaSerializationSchema<String> { private String topic; private String charset; //构造方法传入要写入的topic和字符集,默认使用UTF-8 public KafkaStringSerializationSchema(String topic) { this(topic, “UTF-8”); } public KafkaStringSerializationSchema(String topic, String charset) { this.topic = topic; this.charset = charset; } //调用该方法将数据进行序列化 @Override public ProducerRecord<byte[], byte[]> serialize( String element, @Nullable Long timestamp) { //将数据转成bytes数组 byte[] bytes = element.getBytes(Charset.forName(charset)); //返回ProducerRecord return new ProducerRecord<>(topic, bytes); } } |
然后将Kafka相关的参数设置到Properties中,再new FlinkKafkaProducer,将要写入的topic名称、Kafka序列化Schema、Properties和写入到Kafka的Semantic语义作为FlinkKafkaProducer构造方法参数传入。最好调用addSink方法将FlinkKafkaProducer的引用传入到该方法中。虽然下面的代码指定了EXACTLY_ONCE语义,但是没有开启Checkpointing,是没法实现的。具有怎样实现Exactly Once,会在后面原理深入的章节进行讲解。
DataStream<String> dataSteam = … //写入Kafka的topic String topic = “test”; //设置Kafka相关参数 Properties properties = new Properties(); properties.setProperty(“bootstrap.servers”, “node-1:9092,node-2:9092,node-3:9092”); //创建FlinkKafkaProducer FlinkKafkaProducer<String> kafkaProducer = new FlinkKafkaProducer<String>( topic, //指定topic new KafkaStringSerializationSchema(topic), //指定写入Kafka的序列化Schema properties, //指定Kafka的相关参数 FlinkKafkaProducer.Semantic.EXACTLY_ONCE //指定写入Kafka为EXACTLY_ONCE语义 ); //添加KafkaSink dataSteam.addSink(kafkaProducer); |
1.1.8 StreamFileDataSink
实时处理的数据,有一些场景要输出到其他分布式文件系统中,比如Hadoop HDFS、Amazon S3 (Simple Storage Service)、Aliyun OSS(Object Storage Service)等。因为这些分布式文件系统都具有高可用、可扩展、多副本、存储海量数据等特点。存储到分布式文件系统的数据,就可以做一些离线的数据分析,比如离线的数仓、数据挖掘、机器学习等。
从Flink 1.9开始,原来的Bucketing Sink已经标记为过时,在未来的版本将会被移除。推荐使用StreamFileDataSink,该Sink不但可以将数据写入到各种文件系统中,可以保证Exacly Once语义,还支持以列式存储的格式写入,功能更强大。
下面的例子是将数据写入到HDFS中,首先在maven项目的pom.xml文件引入HDFS文件系统的依赖:
<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-filesystem_2.11</artifactId> <version>1.9.2</version> </dependency> |
通过DefaultRollingPolicy这个工具类,指定文件滚动生成的策略。这里设置的文件滚动生成策略有两个,一个是距离上一次生成文件时间超过30秒,另一个是文件大小达到100 mb。这两个条件只要满足其中一个即可滚动生成文件。然后StreamingFileSink.forRowFormat方法将文件输出目录、文件写入的编码传入,再调用withRollingPolicy关联上面的文件滚动生成策略,接着调用build方法构建好StreamingFileSink,最后将其作为参数传入到addSink方法中。
DataStream<String> dataSteam = …//构建文件滚动生成的策略 DefaultRollingPolicy<String, String> rollingPolicy = DefaultRollingPolicy.create() .withRolloverInterval(30 * 1000L) //30秒滚动生成一个文件 .withMaxPartSize(1024L * 1024L * 100L) //当文件达到100m滚动生成一个文件 .build(); //创建StreamingFileSink,数据以行格式写入 StreamingFileSink<String> sink = StreamingFileSink.forRowFormat( new Path(outputPath), //指的文件存储目录 new SimpleStringEncoder<String>(“UTF-8”)) //指的文件的编码 .withRollingPolicy(rollingPolicy) //传入文件滚动生成策略 .build(); //调用DataStream的addSink添加该Sink dataSteam.addSink(sink); |
星哥原创,未经许可,不得转载