PDFprof.com Search Engine



Cloud et calcul distribué

PDF
Images
List Docs
  • Quelle est la relation entre le cloud computing et les systèmes distribués ?

    En informatique distribuée, les ressources sont locales, mais la connexion se fait via le réseau.
    Dans le cloud computing, toutes les ressources (matériel, logiciel, infrastructure) sont fournies et déployées via le cloud/réseau.

  • Comment fonctionne le calcul distribué ?

    Le procédé consiste souvent en l'installation d'un logiciel qui télécharge des données brutes à partir d'un serveur, les retravaille (les « traite ») de façon transparente pour l'utilisateur (en n'utilisant que la puissance de calcul non utilisée par les autres applications), puis renvoie les résultats aux serveurs.

  • Quel est le principe de fonctionnement du cloud ?

    Le fonctionnement du cloud computing
    Les applications et les données ne se trouvent plus sur l'ordinateur local, mais sur le « cloud » ou « nuage » qui est un ensemble de serveurs distants interconnectés au moyen de liaisons internet de haute performance indispensable à la fluidité du système.

  • L'architecture distribuée ou l'informatique distribuée désigne un système d'information ou un réseau pour lequel l'ensemble des ressources disponibles ne se trouvent pas au même endroit ou sur la même machine.
Dans le cloud computing, le calcul distribué est utilisé afin de mettre des infrastructures et des plates-formes rentables et très évolutives à disposition des clients.

Cloud et calcul distribué
Chapitre 6 Résumé et conclusion
INF5171 Programmation concurrente et parallèle Notes de cours
Modèles et Approches Formels pour les Systèmes Distribués
Systèmes parallèles et distribués Introduction
LES ALGORITHMES DISTRIBUÉS
Conception et Analyse de quelques Algorithmes Distribués
Algorithmique Distribuée
Notes de cours Algorithmique parallèle et distribuée
PhD
Calcul Parallèle
Next PDF List

Cloud et calcul distribué

Cloud et calcul distribué-une introduction -Sorina POPUniversity of Lyon, CNRS, INSERM, CREATIS, France.Plan du coursŶIntroductionŶCalcul distribué sur cluster et grilleŶClusters, gestionnaires de tâches et workflowsŶInfrastructure EGI et plateforme VIPŶLe CloudŶDéfinitions et servicesŶTechnologies : OpenStack, Hadoop, MapReduce, SparkŶCloud FranceGrilleset autres offres de CloudŶConteneurs (Docker)ŶBig Data : introductionŶEcoInfo: quelques motsŶConclusions2IntroductionŶPourquoi paralléliser/distribuer le calcul ?ŶAlgorithmes gourmands (Monte-Carlo, )ŶGrands volumes de données, beaucoup de paramètres à explorerŶSur quelle architecture?ŶVotre machine multi-coeursŶUn supercalculateurŶCarte graphique (GPU)ŶUn clusterŶUne grille ou un CloudCrédits : Claire Mouton3Mémoire partagée ou distribuée ?ŶMémoire partagéeŶTous les processeurs ont accès à un même espace mémoire ŶL'accès se fait habituellement par un bus interneŶMémoire distribuéeŶChaque machine représente un noeud dans le système et a sonpropre espace mémoireŶL'accès à la mémoire d'une autre machine se fait par le réseauCrédits et infos complémentaires : https://scs.senecac.on.ca/~gpu621/pages/content/platf_p.html4Calcul intensif et distribuéŶHPC : High Performance Computing (calcul intensif)ŶExécution d'une seule instance d'un codeparallèlesur plusieurs processeursŶTâches parallèles interconnectées (mémoire partagée ou communications)ŶMoyens de calcul adaptés : supercalculateurs, GPU, clusters, cloudŶHTC : High ThroughputComputing (calcul distribué)ŶExécution de plusieurs instancesindépendantesdu code (jobs, tasks) sur plusieurs processeurs potentiellement distribués géographiquement ŶTâches indépendantes (mémoire distribuée)ŶMoyens de calcul adaptés : clusters, cloud et grilles de calcul5Plan du coursŶIntroductionŶCalcul distribué sur cluster et grille de calculŶClusters, gestionnaires de tâches et workflowsŶGrille EGI et plateforme VIPŶLe CloudŶConteneurs (Docker)ŶBig Data : introductionŶEcoInfo: quelques motsŶConclusions6Un cluster (grappe) de calculŶGroupe de serveurs et d'autres ressources indépendantes fonctionnant comme un seul systèmeŶGénéralement situés à proximité et interconnectés par un réseau dédié. ŶProcédé peu coûteuxŶOrdinateur unique doté de plus de puissanceŶRépartition des traitements sur les différents noeuds7Crédits : wikipediaLe gestionnaire de tâchesŶCluster manager/Batch manager/Job schedulerŶGrid Engine (GE), Torque, SLURM ŶOrganise l'exécution des tâches en respectant des règles précises8Crédits : https://www.researchgate.net/publication/241623902_Bubble-Up_Increasing_Utilization_in_Modern_Warehouse_Scale_Computers_via_Sensible_Co-locationsWorkflowŶ"Flot de travail »ŶDescription/décomposition d'une application en plusieurs tâchesŶFacilite la parallélisationet la distribution des tâchesŶLangages et/ou moteurs de workflowŶTaverna, Nextflow, Snakemake, Pegasus, Moteur ŶDAG (directedacyclicgraph)ŶGraphe orienté acyclique (sans circuit)ŶOrdonnancement (scheduling) des tâchesŶPar le moteur de workflowŶPar le gestionnaire des tâches (batch manager)9Crédits : https://pegasus.isi.eduLes grilles et le cloudPC clientGrilleInterface UtilisateurParisLyonLondresBerlin•CaractéristiquesInfrastructures informatiques destinées au calcul distribué et au stockage des donnéesGrand nombre de machines hétérogènes et délocalisées Homogènes grâce au middleware (intergiciel) de grille•Tâches indépendantesBalayage de paramètresDécoupage des entréeset fusion des résultatsCalculs Monte-Carlo10Infrastructure: EGI's biomed VOභLife Sciences sector with three main thematic groupsӑMedical image analysisӑBioinformaticsӑDrug discoveryභEGI's biomed VOӑComputing resourcesŶHigh Throughput Computing (large, shared Grid Computing)ŶCloud Compute (VM-based computing with associated storage)ŶContainer ComputeӑStorageභOpen accessӑFor non-commercial usersӑFor life-science applications ӑAcknowledgmentshttp://lsgc.org11Virtual Imaging Platform (VIP)භScientific applications as a ServiceӑMore than20 applications publiclyavailableභTransparent accessto computingresourcesӑ395 CPU years(EGI biomedVO) usedin 2019-2020භLarge communityӑMore than1450 registeredusersභOpen and reproduciblescienceӑZenodo, DOIs, Containers, Boutiques12Example of white/grey matter brain segmentation with Freesurferon VIPCredits : BerardinoBarile and Dominique Sappey-Marinier, CreatisVIP architectureUserWeb Portal0.

Login1. Send input dataStorageElementWorkflow Engine(Moteur + GASW)3. Launch workflowPilot Manager(DIRAC)4. Generate and submit task5. Submitpilot jobs2. Transferinput filesComputing site6. Get task7. Get files8. Execute9.

Upload results13Monte-Carlo simulations on VIP ŶRepeated random sampling of solution spaceŶLarge number of independent eventsŶParallelisation: split and mergeŶDefine a domain of possible inputs.ŶProcess the inputs.ŶMerge the results.•Example: GATE simulator ŶSimulation of particle trackingŶNuclear medicine simulations for Positron Emission Tomography(PET) and radiation therapy imagingComputing ʌSource: Wikipedia3Dwhole-bodyF18-FDGPETscansimulatedwithGATE,representing4,000CPUhours(5.3months).Credits:IMNC-IN2P3.14GATE on VIP (I)-Staticscheduling-15LatencyResubmission of failed jobsMerging timeHeterogeneity (same start, different finish time)JobsGATE on VIP (II)-Dynamicscheduling-16All computing jobs finish simultaneously.Optimal resource usage and makespan.Failed jobs do not need resubmissionPlan du coursŶIntroductionŶCalcul distribué sur cluster et grille de calculŶLe CloudŶDéfinitions et servicesŶTechnologies : OpenStack, Hadoop, MapReduce, SparkŶCloud FranceGrilleset autres offres de CloudŶConteneurs (Docker)ŶBig Data : introductionŶEcoInfo: quelques motsŶConclusions17Cloud ComputingŶDefinitionŶA model for enabling ubiquitous, convenient, on-demand network access to a shared pool of configurable computing resources that can be rapidly provisioned and released with minimal management effort or service provider interaction. ŶIn addition to Grids, the Cloud provides ŶOn demand services, that are always on, anywhere and anytime ŶEconomic model allowing to pay as much as used and neededŶVirtualization (abstraction of a physical host machine)18Cloud service models19Source : https://www.business2community.com/cloud-computing/8-ways-aws-beats-azure-in-the-cloud-02190398OpenStackŶOpenStack is a free and open-source software platform for cloud computing, mostly deployed as an IaaSŶInterrelated components that control diverse, multi-vendor hardware pools of processing, storage, and networking resources throughout a data centerŶUsers can manage it through Ŷa web-based dashboardŶcommand-line toolsŶa RESTful API.20Horizon (OpenStack)ŶOpenStackdashboardŶWeb based user interface to OpenStack services including Nova, Swift, Keystone, etc.21OrchestrationŶAutomate the deployment and configuration of infrastructureŶBuildyourowncollection of ressources: instances (VMs), networks, security groups, and even auto-scaling rules22https://www.zerobanana.com/archive/2014/05/08#heat-configuration-managementHeat(OpenStack)ŶOpenStack OrchestrationŶLaunch multiple composite cloud applications based on templates in the form of text files that can be treated like code (infrastructure as code)ŶHow itworksŶYou write Heat template (text file) describing the infrastructure (servers, floating ips, volumes, security groups, users, etc)ŶTemplatescanbedeployedthroughthe Horizon Dashboard or withOpenStackCLIŶHeatbuildsand manages the infrastructure describedin the templateŶhttps://www.cisco.com/c/dam/en/us/products/collateral/cloud-systems-management/metacloud/newbie-tutorial-heat.pdf23HadoopŶOpen-source software for distributed computingŶFramework for the distributed processing of large data sets using simple programming modelsŶDesigned to detect and handle failures at the application layerŶHadoop Distributed File System (HDFS)ŶDistributed file system for high-throughput access to dataŶHadoop YARNŶJob scheduling and cluster resource management.ŶHadoop MapReduceŶA YARN-based system for parallel processing of large data ŶTake advantage of data localityŶLibraries in many proglanguages24MapReduceExample25Crédits : https://www.edureka.co/blog/mapreduce-tutorial/SparkŶApache Spark -a replacement of Hadoop MapReduce ?ŶSpark supports in-memory computing, which is faster than MapReduce's file-based modelŶSpark's programming model is much richer than MapReduceŶSpark can run on a variety of clusters, including Hadoop26Source : https://www.lemondeinformatique.frHow SparkWorksŶSpark uses a master/slave architecture ŶOne central driverand many distributed workers (executors) ŶThe driver and each executor are separate java processes ŶCluster Manager TypesŶStandalone-a simple cluster manager included with Spark that makes it easy to set up a clusterŶHadoop YARN-the resource manager in HadoopŶOthers, suchas Apache Mesosand Kubernetes27Credit: https://spark.apache.orgKubernetesŶOpen source platform for managing containerized workloads and servicesŶNote: containers will be discussed later in the presentationŶThe basic scheduling unit in Kubernetes is a podŶOne or more containers that are guaranteed to be co-located on the same nodeŶWorker nodeŶMachine where containers (workloads) are deployed28Kubernetesarchitecture and componentsSource: https://phoenixnap.com/kb/understanding-kubernetes-architecture-diagramsCloud France-GrillesŶCloud académique pour calcul scientifiqueŶ3882 coeurs de CPUŶ14 TB de RAMŶ560 TB de stockageCrédits : Jérôme Pansanel(Directeur technique FG)29ŶVisionŶProvide a web of FAIR (Findable, Accessible, Interoperable, Reusable) data and services for science in EuropeŶGive all European researchers access to (free) scientific data, services and e-infrastructures to analyse dataŶRely mainly on existing services and e-infrastructuresŶPortal: https://eosc-portal.euŶCommunityŶBring together researchers and engineers from all scientific domains and EU countriesŶPartnershipŶThree partners: the European Commission, the EU member states and the users & providers30Autres offres de CloudŶAmazon (AWS)ŶElasticComputeCloud (EC2) ŶDrive (stockage)ŶMicrosoftŶAzureŶGoogleŶGoogle ComputeEngine (GCE)ŶGoogle Cloud StorageŶ 31AWS vs Azure vs GoogleSource : http://cloudacademy.com/blog/public-cloud-war-aws-vs-azure-vs-google/https://stackify.com/microsoft-azure-vs-amazon-web-services-vs-google-compute-comparison/32Gaia-XŶEcosystèmede cloud européenŶEtablir des règles et des standards communsŶFonctionnement décentralisé et fédération des fournisseurs de services et d'infrastructures existantesŶFavoriser la portabilité et l'interoperabilitéŶInitié en Allemagne fin 2019, rejoint par la FranceŶPremiers cas d'usageŶfixer les règles (les attributs retenus, les standards techniques associés, etc.)Ŷtrouver comment contrôler la bonne application de ces règlesŶdéfinir le standard commun qui sera utilisé pour favoriser l'interopérabilité.33Source : https://www.usine-digitale.fr/editorial/qu-est-ce-que-gaia-x-le-projet-franco-allemand-de-cloud-europeen.N97180634https://www.data-infrastructure.eu/GAIAX/Navigation/EN/Home/home.htmlEOSC vs GAIA-XŶEOSCŶWeb of FAIR Digital Objects and Related Services for ScienceŶFAIR principles and metadata standards as guidelines for interoperability and maximum sharing ŶGAIA-XŶnext generation of a EU data infrastructureŶdigital sovereignty while promoting innovation Ŷstrong focus on enabling data sharing in business sectorsŶCompatible approaches with many different potential touching points35Plan du coursŶIntroductionŶCalcul distribué sur grilleŶLe CloudŶConteneurs (Docker)ŶBig Data : introductionŶEcoInfo: quelques motsŶConclusions36Pourquoi s'intéresser aux conteneursŶPortabilité et compatibilitéŶEx : j'ai développé un super algode segmentationŶComment le faire tourner sur différents clusters ?ŶComment le partager avec mes collaborateurs ?ŶReproductibilitéŶEx : j'ai obtenu des super résultats que je veux publierŶComment assurer leur reproductibilité dans 1 an ?ŶComment permettre leur reproduction par les reviewers/chercheurs intéressés ?ඵSans forcément fournir le code But whatare containers? ŶA container = an entire runtime environmentŶAn application + all its dependencies, libraries and other binaries, and configuration files needed to run it, bundled into one packageŶBy containerizing the application platform and its dependencies, differences in OS distributions and underlying infrastructure are abstracted awayŶDocker has become synonymous with container technology because it has been the most successful at popularizing it, butŶContainer technology is not newŶOthercontainers exist(Singularity, Charliecloud )Virtualisation et conteneursŶUne VM (Virtual Machine) " imite » intégralement un serveur et contient un système d'exploitation complet39ŶLe concept de conteneurisation permet aux instances virtuelles de partager un système d'exploitation hôte unique.

Le rôle de l'hyperviseur est assuré par un moteur de conteneurisation (par ex, Docker)Docker images and containersŶA Docker imageis an executable package that includes everything needed to run an application--the code, a runtime, libraries, environment variables, and configuration files.ŶA dockerimage is described in text file called a DockerfileŶYou can also create an image from a container (dockercommit)ŶA Docker containeris a runtime instance of an imageŶWhat the image becomes in memory when executed ŶYou can see a list of your running containers with the command, dockerps, just as you would in LinuxŶYou can run, start, stop, move, or delete a container using Docker API or CLI commands.

Source: https://docs.docker.com DockerfileŶ# Use an official centos as a parent imageŶfrom centos:latest(attention, "latest" not a good idea for reproducibility)Ŷ# Install any needed packages ŶRUN yum install -y epel-release git gccmakeŶRUN git clone git://git.creatis.insa-lyon.fr/demoSorinaŶ# Set the working directory to / demoSorinaŶWORKDIR /demoSorinaŶRUN makeDemoŶ# Buildthe image (once)Ŷ$ dockerbuild . -t camarasu/demo_docker:0.1 Ŷ# Runimage withmountedvolumes (multiple times)Ŷ$ docker run--rm-v $PWD:/dirOut-itcamarasu/demo_docker:0.1/bin/bashŶ[root@c30117fdeb4e demoSorina]# lsŶMakefilehello hello.chello.oŶ[root@c30117fdeb4e demoSorina]# ls/dirOut/ŶDockerfilenotes.txtPlan du coursŶIntroductionŶCalcul distribué sur cluster et grilleŶLe CloudŶConteneurs (Docker)ŶBig Data : introductionŶEcoInfo: quelques motsŶConclusions43BigDataŶ"A new generation of technologies and architectures designed to economically extract value from very large volumes of a wide variety of data by enabling high-velocity capture, discovery, and/or analysis»ŶTechnologiesŶTechniques for analyzing data, such as machine learning ŶBig Data technologies, like business intelligence, cloud computing and databasesŶVisualization, such as charts, graphs and other displays445V de BigDataSource : https://lipn.univ-paris13.fr/~cerin/Livre_blanc_data_hosting.pdf45Plan du coursŶIntroductionŶCalcul distribué sur cluster et grilleŶLe CloudŶConteneurs (Docker)ŶBig Data : introductionŶEcoInfo: quelques motsŶConclusions46Impacts environnementaux47Exemple de consommationŶConsommation 2021 Centre de Calcul Strasbourg ŶCloud Computing: 51628 kW / an pour 1024 coeurs (50 kW/an/coeur) ŶStockage : 34147 kW / an pour 768 To -> soit 44 kW / an / To ŶEn France ~ 60 gCO2e / kWŶ~ 3 kg de CO2 / coeur / an Ŷ~ 2,7 kg de CO2 / To / an ŶIl faut ajouter 30 % pour la climatisation et l'environnement de la salle à ces chiffres ŶCrédits et remerciements : Jérôme Pansanel48Example matériel49Crédits et remerciements : Denis Trystramet Philippe Ciblat, https://perso.telecom-paristech.fr/ciblat/docs_recherche/presentations/cours_esiee2022.pdfEcoInfoŶhttps://ecoinfo.cnrs.fr/ŶRéduire les impacts environnementaux et sociétaux négatifs des technologies du numériqueŶAgir vers la sobriété numériqueŶRéfléchir avant d'agir : réfléchir à ses besoins logiciels et matérielsŶRefuser (ne pas) : ne pas produire/conserver de données inutiles, etc ŶRéduire et introduire de la sobriété dans les usages, les achats, la consommationŶRéutiliser : favoriser systématiquement le réemploi de matériel fonctionnel (le coût environnemental étant principalement lié à la fabrication des objets technologiques)ŶRecycler en utilisant les filières officiellesŶAcheter de préférence auprès de constructeurs engagés dans une démarche éco-responsableŶPartager : mutualiser le matériel et les licences logicielles, ouvrir ses données et son codeŶÉlargir sa vision des impacts et s'interroger sur la pertinence des choix et des décisions au niveau de son groupe de travail, voire de la société50Résumé et conclusionsŶDe plus en plus de données à traiterŶAppel au calcul distribué sur clusters, grilles et cloudsŶBien poser le problèmeŶOptimisations toujours possiblesŶReproductibilitéŶCloudŶCalcul distribuéŶStockageŶMachines virtuelles et conteneursŶServices à la demandeŶVirtualisation et C