Strumieniowanie danych w Sparku
					
						Bartosz Kowalik
					
				O mnie
					- Scala dev @ VirtusLab
- Functional programming fun
- GitHub: bkowalik
- Twitter: bkowalikpl
Pytania do publiczności
					- Kto zna Scale?
- Kto zetknął się ze Sparkiem?
- ?
O czym ta prezentacja nie jest
					tutorailem od a do z
				Transformacja
						map(func)
								reduceByKey(func, [numTasks])
							filter(func)
								aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])
							flatMap(func)
								sortByKey([ascending], [numTasks])
							mapPartitions(func)
								join(otherDataset, [numTasks])
							mapPartitionsWithIndex(func)
								cogroup(otherDataset, [numTasks])
							sample(withReplacement, fraction, seed)
								cartesian(otherDataset)
							union(otherDataset)
								pipe(command, [envVars])
							intersection(otherDataset)
								coalesce(numPartitions)
							distinct([numTasks]))
								repartition(numPartitions)
							groupByKey([numTasks])
								repartitionAndSortWithinPartitions(partitioner)
							
							
								https://spark.apache.org/docs/latest/programming-guide.html#transformations
							
						
					Wykorzystane komponenty
						- Kafka
- Cassandra
- Akka HTTP
Czego nie pokazałem
					- akumulatory
- klastrowanie YARN, Mesos, etc.
- Twierdzenie CAP
 
		
					Strumieniowanie danych w Sparku
					
						Bartosz Kowalik