Scraping + Hackathon = Scrapathon
			
			Hervé BERTHOU - Anthony DON - Thomas LOUBIOU Systonic
			
			
			20/05/2016
			
			
			Keep Alert - EPITECH
			
		Plan
- Plateforme de scraping en mode SaaS- Motivations
- Démonstration
- Présentation de l'API
 
- Présentation du Hackathon
- Ressources à votre disposition
- Inscription
Keep Alert
			- Département de Systonic, depuis 2009
- Basé à Pessac
- 25 collaborateurs
Motivation : industrialiser la collecte de données Web
				- Fonctionnalité récurrente dans Keep Alert :
					- Collecte des annonces module AdWords
- Etude de référencement naturel
- Usernames Facebook, Twitter, LinkedIn ...
 
- Limites de la collecte par API
					- Pas disponibles (Google Search) ou payantes (Yahoo)
- Evoluent dans le temps
 
Navigateur web scriptable
				- Composant permettant de piloter un navigateur web par programmation
- Fonctionnalités d'un navigateur :
					- chargement asynchrone, cookies, Javascript
- événements : démarrer quand la page est totalement chargée
- accès au DOM en Javascript : extraction HTML, extraction du texte visible, accès via sélecteurs CSS 
- captures d'écran
 
- Implémentations disponibles : 
					
Language dédié
				- Language dédié : représentation concise d'un scénario
- Une recipe est un fichier texte Javascript qui décrit :
					- les paramètres utilisables
- les étapes de navigation et les sous-étapes
- les informations à extraire de chaque page 
 
- Produit un fichier JSON contenant les données collectées
Démonstration de l'éditeur de script
				- Page de résultats de Google
- Prix des véhicules vendus en Aquitaine sur Le Bon Coin
Plateforme de scraping en mode SaaS
				Objectifs du Hackathon
				- Construire un service innovant et tester la plateforme de scraping
- Thématiques libres :- Visualisation d'informations : observatoire de prix, cartographies
- Growth hacking : cibler de nouveaux clients
- Génération d'alertes
- Création de flux Open Data
 
- 2 contraintes : travail en équipe et utilisation de la plateforme de scraping
Organisation
				- Lancement du scrapathon : inscription des équipes et accès à l'API à la fin de la présentation
- Du 11 au 25 Mai : choix du projet, accès aux outils, test du scraper
- Du Vendredi 20 Mai à 16h00 au Dimanche 22 Mai à 18h00 : Hackathon et codage de votre solution
- Le Mercredi 25 Mai 14h00-16h00 : présentation avec démonstration (10 minutes par équipe) + retour d'expérience
Prix du jury
				- A l'issue des présentations, le jury élira le meilleur projet selon les 3 critères :
					- 1/3 pour l'originalité du projet
- 1/3 pour la qualité de la présentation
- 1/3 pour la finalisation de la démo
 
- Tous les participants recevront une invitation pour le prochain bdx.io (le 21/10/2016).
- Chaque membre de l'équipe gagnante recevra un lot.
Création de votre accès à l'API et l'UI
				Via l'API avec Curl 
					curl -X POST 
--header 'Content-Type: application/json' 
--header 'Accept: */*' -d '{
"email": "votemail@epitech.eu",
"password": "votrepassword",
"username": "votreusername"
}' 
'https://api.scraper.keepalert.com:443/users/'
					
					Cliquez sur le lien reçu par email quelques minutes après votre enregistrement
					Testez l'utilisation de l'API et de l'UI avec vos identifiants
					Vous pouvez scraper !
				Inscription
				- Inscrivez votre équipe : nom, prénom et email @epitech.eu
- Accès à https://scrapathon.slack.com (envoi par email)
- Signature de l'accord de non-divulgation, obtention de vos accès pour le téléchargement de l'éditeur et du scan de l'accord signé (envoi par email)
 
			Scraping + Hackathon = Scrapathon
			
			Hervé BERTHOU - Anthony DON - Thomas LOUBIOU 
			Systonic
			
			
			20/05/2016
			
			
			Keep Alert - EPITECH