Outils pour utilisateurs

Outils du site


issue106:monopinion

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
issue106:monopinion [2016/03/02 16:14] – [8] auntieeissue106:monopinion [2016/03/04 17:53] (Version actuelle) andre_domenech
Ligne 9: Ligne 9:
 Le Big data et Ubuntu Le Big data et Ubuntu
  
-Big data est une expression qui s'est métamorphosé en mot à la mode qui circule dans les sphères actuelles des technologies de l'information. Des administrateurs utilise le terme comme un concept qui permette de se servir, d'une manière ou d'une autre, des informations concernant les clients collectées par les entreprises. Les vendeurs de systèmes informatiques et de logiciels le perçoivent comme une occasion commerciale et les défenseurs des droits de l'homme et de la liberté s'inquiètent des implications sociales et personnelles – après tout, Big data rime bien avec Big brother. +Big data est une expression qui s'est métamorphosée en mot à la mode qui circule dans les sphères actuelles des technologies de l'information. Des administrateurs utilisent le terme comme un concept qui permet de se servir, d'une manière ou d'une autre, des informations collectées par les entreprises, concernant les clients. Les vendeurs de systèmes informatiques et de logiciels le perçoivent comme une occasion commercialeet les défenseurs des droits de l'homme et de la liberté s'inquiètent des implications sociales et personnelles après tout, Big data rime bien avec Big brother. 
  
 Mais quels sont les liens entre le concept du Big data et la distribution Ubuntu ?  Mais quels sont les liens entre le concept du Big data et la distribution Ubuntu ? 
  
-Commençons par essayer de trouver une quelconque définition du concept. Je dois souligner que la définition ne peut ni être très concrète ni très précise, puisque la géométrie de l'informatique est souvent variable et le concept de Big data s'approche de la limite de ce qui est possible avec le matériel que l'on peut se procurer aujourd'hui dans un magasin lambda. La technologie de demain peut en modifier les principes fondamentaux.+Commençons par essayer de trouver une quelconque définition du concept. Je dois souligner que la définition ne peut être ni très concrèteni très précise, puisque la géométrie de l'informatique est souvent variable et le concept de Big data s'approche de la limite de ce qui est possible avec le matériel que l'on peut se procurer aujourd'hui dans un magasin lambda. La technologie de demain peut en modifier les principes fondamentaux.
  
 ===== 2 ===== ===== 2 =====
Ligne 23: Ligne 23:
 Another way of clarifying the concept is by considering how Big Data is generated in the first place. In the initial stages of computer science, data was collected mostly as written documents (printed matter, forms), and then entered painstakingly by hand into computers. Large companies employed whole rooms of people whose task was to type data into perforated cards, paper tape and then magnetic media. ** Another way of clarifying the concept is by considering how Big Data is generated in the first place. In the initial stages of computer science, data was collected mostly as written documents (printed matter, forms), and then entered painstakingly by hand into computers. Large companies employed whole rooms of people whose task was to type data into perforated cards, paper tape and then magnetic media. **
  
-En premier lieu, de par sa nature, le Big data concerne de très grandes quantités de données. Le terme « grand » peut signifier diverses choses, selon le contexte, et nous devons nous mettre d'accord sur l'idée que « Big (grand) » dans Big data est équivalent sur le plan fonctionnel à un ensemble de données « plus grand que ce qui peut être géré (stocké ou traité) dans un laps de temps raisonnable sur un seul ordinateur. » Comme vous pouvez le constater, cette définition comporte pas mal d'imprécisions, puisque les capacités (puissance de calcul, espace disque) peuvent être très différentes selon qu'il s'agit de mon ordinateur portable ou d'un très grand ordinateur central. Ce qui en ressort très clairement, cependant, c'est que le Big data concerne en large partie le traitement des données en parallèle.+En premier lieu, de par sa nature, le Big data concerne de très grandes quantités de données. Le terme « grand » peut signifier diverses choses, selon le contexte, et nous devons nous mettre d'accord sur l'idée que « Big (grand) » dans Big data est équivalent sur le plan fonctionnel à un ensemble de données « plus grand que ce qui peut être géré (stocké ou traité) dans un laps de temps raisonnable sur un seul ordinateur. » Comme vous pouvez le constater, cette définition comporte pas mal d'imprécisions, puisque les capacités (puissance de calcul, espace disque) peuvent être très différentes selon qu'il s'agit de mon ordinateur portable ou d'un très grand ordinateur central. Ce qui en ressort très clairement, cependant, c'est que le Big data concerne en grande partie le traitement des données en parallèle.
  
 Cela étant dit, le traitement en parallèle peut avoir lieu dans des fils séparés à l'intérieur d'un seul et même ordinateur ; ainsi, des mises en garde s'imposent. Cela étant dit, le traitement en parallèle peut avoir lieu dans des fils séparés à l'intérieur d'un seul et même ordinateur ; ainsi, des mises en garde s'imposent.
  
-Une autre façon de clarifier le concept est en examinant comment le Big data est généré au départ. Au cours des premières phases du développement de l'informatique, la plupart des données furent rassemblées en tant que documents écrits (des imprimés, des formulaires), puis rentrées manuellement, avec une attention maximum, dans les ordinateurs. Les grandes entreprises faisaient travailler de grandes salles pleines d'individus dont la tâche étaient de taper les données sur des cartes perforées, sur des rouleaux de papier, puis sur des supports magnétiques. +Une autre façon de clarifier le concept est d'examiner comment le Big data est généré au départ. Au cours des premières phases du développement de l'informatique, la plupart des données furent rassemblées en tant que documents écrits (des imprimés, des formulaires), puis rentrées manuellement, avec une attention maximum, dans les ordinateurs. Les grandes entreprises faisaient travailler de grandes salles pleines d'individus dont la tâche étaient de taper les données sur des cartes perforées, sur des rouleaux de papier, puis sur des supports magnétiques. 
  
 ===== 3 ===== ===== 3 =====
Ligne 35: Ligne 35:
 Finally, large amounts of information are now available that have been generated not through an active participation by a human being, but simply through automatic methods. Some examples may help clarify this. Let us say Average Joe walks out of his house one fine morning, gets into his car and goes to the grocery two streets away for a loaf of bread. Naturally, he has his mobile phone in his pocket, so his local telephone utility company has automatic information on his whereabouts by tracking to which cell base-stations his phone connects. If he has left GPS connected on his phone, this may result in both a depleted battery life, and whatever app is running in the background and has been authorized to consult GPS data to track his physical movements. If his route has passed in front of a police automatic license plate reader, data has been generated on his car’s movements. Finally, if he has used a credit card to pay for his acquisition at the store, at least two different financial organizations (his bank, and the store’s bank), now have data on the whereabouts of his credit card, and its usage patterns. ** Finally, large amounts of information are now available that have been generated not through an active participation by a human being, but simply through automatic methods. Some examples may help clarify this. Let us say Average Joe walks out of his house one fine morning, gets into his car and goes to the grocery two streets away for a loaf of bread. Naturally, he has his mobile phone in his pocket, so his local telephone utility company has automatic information on his whereabouts by tracking to which cell base-stations his phone connects. If he has left GPS connected on his phone, this may result in both a depleted battery life, and whatever app is running in the background and has been authorized to consult GPS data to track his physical movements. If his route has passed in front of a police automatic license plate reader, data has been generated on his car’s movements. Finally, if he has used a credit card to pay for his acquisition at the store, at least two different financial organizations (his bank, and the store’s bank), now have data on the whereabouts of his credit card, and its usage patterns. **
  
-Ce n'est plus le cas. Aujourd'hui, de grandes quantités de données commerciales sont en fait entrées par l'utilisateur luiou elle-même. L'un des effets de la croissance du e-commerce et de ses compagnons, e-business et e-administration, est que les gens normaux finissent effectivement par remplir davantage de formulaires, avec de plus grandes quantités d'information, qu'à l'époque des formulaires papier. La nature électronique des données entrées rend leur traitement plus facile et plus rapide.+Ce n'est plus le cas. Aujourd'hui, de grandes quantités de données commerciales sont en fait entrées par l'utilisateur lui ou elle-même. L'un des effets de la croissance du e-commerce et de ses compagnons, e-business et e-administration, est que les gens normaux finissent effectivement par remplir davantage de formulaires, avec de plus grandes quantités d'information, qu'à l'époque des formulaires papier. La nature électronique des données entrées rend leur traitement plus facile et plus rapide.
  
-Enfin, de grandes quantités d'information, qui ne sont pas générées par la participation active d'un être humain, mais tout simplement par des méthodes automatisées, sont actuellement disponibles. Quelques exemples pourraient à clarifier cette idée. Disons que Monsieur Tout-le-monde quitte sa maison par une belle matinée, s'installe dans sa voiture et va acheter du pain en tranches à l'épicerie à deux rues de sa maison. Bien entendu, son téléphone mobile est dans sa poche, ce qui veut dire que la société qui assure ses services de téléphone reçoit des informations automatique sur son emplacement en suivant la série de stations de base cellulaires auxquelles son téléphone se connecte. S'il a laissé le GPS de son téléphone activé, ce qui peut résulter en une durée de vie moindre de la batterie, mais aussi cela aidera l'appli quelconque lancée en arrière-plan et autorisée à consulter les données GPS à pister ses mouvements. Si, sur sa route, il passé devant un lecteur automatique de plaques d'immatriculation de la police, des données concernant les mouvements de sa voiture ont été générées. Enfin, s'il utilise une carte de crédit pour payer son achat au magasin, au moins deux organismes financiers (sa banque à lui et la banque du magasin) possèdent maintenant des données concernant l'emplacement de sa carte de crédit et sa façon de l'utiliser.+Enfin, de grandes quantités d'information, qui ne sont pas générées par la participation active d'un être humain, mais tout simplement par des méthodes automatisées, sont actuellement disponibles. Quelques exemples pourraient clarifier cette idée. Disons que Monsieur Tout-le-monde quitte sa maison par une belle matinée, s'installe dans sa voiture et va acheter du pain en tranches à l'épicerie à deux rues de sa maison. Bien entendu, son téléphone mobile est dans sa poche, ce qui veut dire que la société qui assure ses services de téléphone reçoit des informations automatiques sur son emplacement en suivant la série de stations de base cellulaires auxquelles son téléphone se connecte. S'il a laissé le GPS de son téléphone activé, ceci peut résulter en une moindre durée de vie de la batterie, mais aussi cela aidera une quelconque appli lancée en arrière-planet autorisée à consulter les données GPSà pister ses mouvements. Si, sur sa route, il est passé devant un lecteur automatique de plaques d'immatriculation de la police, des données concernant les mouvements de sa voiture ont été générées. Enfin, s'il utilise une carte de crédit pour payer son achat au magasin, au moins deux organismes financiers (sa propre banque et celle du magasin) possèdent maintenant des données concernant l'emplacement de sa carte de crédit et sa façon de l'utiliser.
  
 ===== 4 ===== ===== 4 =====
Ligne 51: Ligne 51:
 In classical computing, this would require all employee files to be held within a single relational database table, which is then read sequentially - perhaps using an index - to select registers in which field “division” equals “Logistics”. The contents of field “salary” in the chosen rows are then added up and returned.** In classical computing, this would require all employee files to be held within a single relational database table, which is then read sequentially - perhaps using an index - to select registers in which field “division” equals “Logistics”. The contents of field “salary” in the chosen rows are then added up and returned.**
  
-Il faut souligner que toutes ces données ne sont collectées que par des méthodes automatiques, en se servant de machines qui ne sont jamais éteintes. Une partie des informations peut sembler être du genre privé (une transaction privée entre Monsieur Tout-le-monde et son boulanger), une large partie en sera en fait considérée comme des informations publiques dans de nombreuses juridictions. De par sa nature, une rue est un endroit publique et personne ne pourra penser avec raison que ses mouvements qui ont lieu au vu et au su de tous sont privés.+Il faut souligner que toutes ces données ne sont collectées que par des méthodes automatiques, en se servant de machines qui ne sont jamais éteintes. Une partie des informations peut sembler être du genre privé (une transaction privée entre Monsieur Tout-le-monde et son boulanger), une large partie en sera en fait considérée comme des informations publiques dans de nombreuses juridictions. De par sa nature, une rue est un endroit public et personne ne pourra penser avec raison que ses mouvementsqui ont lieu au vu et au su de toussont privés.
  
 Le traitement du Big data nécessite aussi beaucoup d'attention. Bien qu'il existe une grande diversité de langages de programmation et des API pour accéder aux données, qui peuvent s'utiliser pour traiter le Big data, le paradigme principal est le modèle MapReduce introduit par Google et, aujourd'hui, implémenté souvent par Hadoop. Pour produire des résultats à partir de grandes quantités de données, deux étapes distinctes sont nécessaires - et les deux peuvent fonctionner en parallèle. À la première étape, celle de « Map », les données sont filtrées et triées. Les résultats sont alors envoyés vers une seconde étape, l'étape « Reduce », où des résultats globaux peuvent être calculés. Le traitement du Big data nécessite aussi beaucoup d'attention. Bien qu'il existe une grande diversité de langages de programmation et des API pour accéder aux données, qui peuvent s'utiliser pour traiter le Big data, le paradigme principal est le modèle MapReduce introduit par Google et, aujourd'hui, implémenté souvent par Hadoop. Pour produire des résultats à partir de grandes quantités de données, deux étapes distinctes sont nécessaires - et les deux peuvent fonctionner en parallèle. À la première étape, celle de « Map », les données sont filtrées et triées. Les résultats sont alors envoyés vers une seconde étape, l'étape « Reduce », où des résultats globaux peuvent être calculés.
Ligne 59: Ligne 59:
 SELECT SUM(salary) FROM employee WHERE division = “Logistics” SELECT SUM(salary) FROM employee WHERE division = “Logistics”
  
-Dans l'informatique classique, tous les fichiers des employés devraient se trouver dans une seule table de base de données relationnelle qui est lu de façon séquentielle - peut-être à l'aide d'un index - pour sélectionner les enregistrements dans lesquels le champ « division » égale « Logistics ». Le contenu du champ « salary » (salaire) dans les lignes choisies est alors ajouté et retourné.+Dans l'informatique classique, tous les fichiers des employés devraient se trouver dans une seule table de base de données relationnelle qui est lue de façon séquentielle - peut-être à l'aide d'un index - pour sélectionner les enregistrements dans lesquels le champ « division » égale « Logistics ». Le contenu du champ « salary » (salaire) dans les lignes choisies est alors ajouté et retourné.
  
 ===== 5 =====  ===== 5 ===== 
Ligne 73: Ligne 73:
 À l'étape « Map », le nœud de chaque employé analysera les registres disponibles et produira une sortie intermédiaire avec, notamment, le nom et le salaire des employés qui satisfont le critère : division = « Logistics ». Ces données sont ensuite entrées dans « Reduce », où les doublons sont éliminés, le cas échéant, et le total final est calculé. À l'étape « Map », le nœud de chaque employé analysera les registres disponibles et produira une sortie intermédiaire avec, notamment, le nom et le salaire des employés qui satisfont le critère : division = « Logistics ». Ces données sont ensuite entrées dans « Reduce », où les doublons sont éliminés, le cas échéant, et le total final est calculé.
  
-Deux considérations intéressantes se présentent ici. D'abord, chaque nœud d'employé qui fait la sélection et le tri initiaux traite de grandes quantités de données. Ainsi, c'est logique d'essayer de réduire au maximum la distance entre l'employé et les données sur lesquelles le nœud travaille. Dans l'idéal, les données seraient stockées physiquement sur le même système informatique que l'employé. Ensuite, les résultats intermédiaires sont une version digérée des données originales et, pour cette raison, ils occuperont, la plupart du temps, de bien plus petits volumes que l'ensemble complète. Cela prendra moins d'espace et de bande passante quand il faut le remanier et distribuer à d'autres employés pour préparer l'étape « Reduce ».+Deux considérations intéressantes se présentent ici. D'abord, chaque nœud d'employé qui fait la sélection et le tri initiaux traite de grandes quantités de données. Ainsi, c'est logique d'essayer de réduire au maximum la distance entre l'employé et les données sur lesquelles le nœud travaille. Dans l'idéal, les données seraient stockées physiquement sur le même système informatique que l'employé. Ensuite, les résultats intermédiaires sont une version digérée des données originales et, pour cette raison, ils occuperont, la plupart du temps, de bien plus petits volumes que l'ensemble complet. Cela prendra moins d'espace et de bande passante quand il faudra le remanier et le distribuer à d'autres employés pour préparer l'étape « Reduce ».
  
 ===== 6 ===== ===== 6 =====
Ligne 85: Ligne 85:
 Examinons maintenant le rôle joué par notre système d'exploitation préféré pour ce qui concerne le stockage et le traitement du Big data, ainsi que sa collecte initiale. Personne ne sera étonné d'apprendre que la plupart des serveurs sur le Net tournent sous une quelconque distribution du système d'exploitation GNU/Linux. Cela est utile pour le traitement du Big data, puisqu'on pourrait dire que le concept même a été inventé par Google, qui est dans une position privilégiée pour la collecte de grandes quantités de données concernant ses utilisateurs et qui est un leader sur le marché dans l'utilisation commerciale de ces informations. On sait aussi que Google est un grand utilisateur de GNU/Linux, à divers niveaux (ses propres serveurs, le développement de logiciels et comme base de construction d'Android). Examinons maintenant le rôle joué par notre système d'exploitation préféré pour ce qui concerne le stockage et le traitement du Big data, ainsi que sa collecte initiale. Personne ne sera étonné d'apprendre que la plupart des serveurs sur le Net tournent sous une quelconque distribution du système d'exploitation GNU/Linux. Cela est utile pour le traitement du Big data, puisqu'on pourrait dire que le concept même a été inventé par Google, qui est dans une position privilégiée pour la collecte de grandes quantités de données concernant ses utilisateurs et qui est un leader sur le marché dans l'utilisation commerciale de ces informations. On sait aussi que Google est un grand utilisateur de GNU/Linux, à divers niveaux (ses propres serveurs, le développement de logiciels et comme base de construction d'Android).
  
-Beaucoup de grandes unités centrales sont également en fonction, faisant tourner divers systèmes d'exploitation. Cependant, selon la tendance qui débuta il y a pas mal d'années, les ressources de ces unités centrales sont souvent partagées entre diverses machines virtuelles. Des constructeurs de systèmes, comme IBM, sont les acteurs majeurs dans ce domaine, avec, notamment la zSeries et « Linux on a z » : beaucoup d'instances de machines virtuelles tournant sous Linux coexistent au sein de l'espace processus et mémoire de la grande unité centrale. D'autres, comme Amazon, font tourner de grands nuages de machines virtuelles, bien que ce soit sur de plus petits serveurs munis de processeurs Intel x86_64.+Beaucoup de grandes unités centrales sont également en fonction, faisant tourner divers systèmes d'exploitation. Cependant, selon une tendance qui débuta il y a pas mal d'années, les ressources de ces unités centrales sont souvent partagées entre diverses machines virtuelles. Des constructeurs de systèmes, comme IBM, sont les acteurs majeurs dans ce domaine, avec, notamment la zSeries et « Linux on a z » : beaucoup d'instances de machines virtuelles tournant sous Linux coexistent au sein de l'espace processus et mémoire de la grande unité centrale. D'autres, comme Amazon, font tourner de grands nuages de machines virtuelles, bien que ce soit sur de plus petits serveurs munis de processeurs Intel x86_64.
  
-C'est ici qu'Ubuntu fait son apparition. Il y a plusieurs distributions Linux entre lesquelles choisir pour une machine virtuelle, mais, en pratique, le choix est fait souvent entre le sous-ensemble de distributions RedHat (Red Hat Enterprise Linux, avec un abonnement payant, ou CentOS, gratuit) ou les distributions de Debian. Dans le cas de Debian, nous trouvons soit Debian lui-même, sans beaucoup de choix de soutien payant, soit Ubuntu Server, avec ou sans une assistance commerciale.+C'est ici qu'Ubuntu fait son apparition. Il y a plusieurs distributions Linux entre lesquelles choisir pour une machine virtuelle, mais, en pratique, le choix est fait souvent entre le sous-ensemble de distributions RedHat (Red Hat Enterprise Linux, avec un abonnement payant, ou CentOS, gratuit) et les distributions de Debian. Dans le cas de Debian, nous trouvons soit Debian lui-même, sans beaucoup de choix de soutien payant, soit Ubuntu Server, avec ou sans une assistance commerciale.
  
 ===== 7 ===== ===== 7 =====
Ligne 97: Ligne 97:
 The virtual (cloud) server technology is often applied to Big Data processing. In the first place, as has already been pointed out, it makes sense to have the workers placed near the data they will be working on, thus reducing network overhead. But most data processed by large organizations is already in the cloud, having been collected through e-commerce servers that are already virtual machines. When the collection point, storage and processing takes place within the same physical facility, data transmission costs are null to negligible, and transfers can take advantage of the server farm’s LAN infrastructure for speed.** The virtual (cloud) server technology is often applied to Big Data processing. In the first place, as has already been pointed out, it makes sense to have the workers placed near the data they will be working on, thus reducing network overhead. But most data processed by large organizations is already in the cloud, having been collected through e-commerce servers that are already virtual machines. When the collection point, storage and processing takes place within the same physical facility, data transmission costs are null to negligible, and transfers can take advantage of the server farm’s LAN infrastructure for speed.**
  
-L'insistance sur la disponibilité des possibilités d'une assistance payante peuvent sembler bizarre à certains utilisateurs. Toutefois, il faudrait prendre en compte le fait que les systèmes d'exploitation utilisés comme serveurs sont dans un environnement commercial. Les systèmes d'information sont vraiment essentiels au flux de travail des entreprises. Les chefs du service informatique sont sous pression et doivent pouvoir garantir que leur système fonctionnera sans faille et rapidement. Ces considérations rendent logique le paiement d'un service d'assistance de qualité pour s'assurer que, si et quand des problèmes se présentent, ils peuvent être résolu grâce à une expertise extérieure de haute qualité et non seulement avec les ressources propres à l'entreprise.+L'insistance sur la disponibilité de possibilités d'une assistance payante peuvent sembler bizarre à certains utilisateurs. Toutefois, il faudrait prendre en compte le fait que les systèmes d'exploitation utilisés comme serveurs sont dans un environnement commercial. Les systèmes d'information sont vraiment essentiels au flux de travail des entreprises. Les chefs du service informatique sont sous pression et doivent pouvoir garantir que leur système fonctionnera sans faille et rapidement. Ces considérations rendent logique le paiement d'un service d'assistance de qualité pour s'assurer que, si et quand des problèmes se présentent, ils peuvent être résolus grâce à une expertise extérieure de haute qualité et pas seulement avec les ressources propres de l'entreprise.
  
-Cela explique pourquoi la plupart des grandes distributions Linux propose des solutions précises pour créer et configurer des ordinateurs virtuels dans le nuage, et ces solutions sont affichées de façon bien visible sur leurs pages Web. Sur leur site, CentOS propose « une image générique d'activation de cloud-init » dans les premiers paragraphes (https://www.centos.org/). RedHat (http://www.redhat.com/en/insights/openstack) et Ubuntu (http://www.ubuntu.com/cloud/openstack), tous les deux, s'impliquent activement dans la construction de fermes de serveurs virtuels basées dans le nuage au moyen d'OpenStack, rendant la convergence entre les deux distributions server Linux très simple+Cela explique pourquoi la plupart des grandes distributions Linux proposent des solutions précises pour créer et configurer des ordinateurs virtuels dans le nuage, et ces solutions sont affichées de façon bien visible sur leurs pages Web. Sur leur site, CentOS propose « une image générique d'activation de cloud-init » dans les premiers paragraphes (https://www.centos.org/). RedHat (http://www.redhat.com/en/insights/openstack) et Ubuntu (http://www.ubuntu.com/cloud/openstack), tous les deux, s'impliquent activement dans la construction de fermes de serveurs virtuels basées dans le nuage au moyen d'OpenStack, rendant très simple la convergence entre les deux distributions serveur Linux. 
  
-La technologie du serveur virtuel (dans le nuage) s'applique souvent au traitement du Big data. En premier lieu, comme mentionné plus haut, c'est logique que les employés soient proches des données sur lesquelles ils vont travailler, réduisant ainsi la surcharge réseau. Mais la plupart des données traitées par de grands organismes se trouvent dans le nuage déjà, ayant été collectées par des serveurs du e-commerce, qui, eux, sont déjà des machines virtuelles.Quand le point de collection, le stockage et le traitement ont lieu à l'intérieur des mêmes structures physiques, le coût de la transmission des données est nul à presque rien et, pour la vitesse, les transferts peuvent profiter de l'infrastructure LAN de la ferme de serveurs.+La technologie du serveur virtuel (dans le nuage) s'applique souvent au traitement du Big data. En premier lieu, comme mentionné plus haut, il est logique que les employés soient proches des données sur lesquelles ils vont travailler, réduisant ainsi la surcharge réseau. Mais la plupart des données traitées par de grands organismes se trouvent dans le nuage déjà, ayant été collectées par des serveurs du e-commerce, qui, eux, sont déjà des machines virtuelles. Quand le point de collection, le stockage et le traitement ont lieu à l'intérieur des mêmes structures physiques, le coût de la transmission des données est nul ou presque rien et, pour la vitesse, les transferts peuvent profiter de l'infrastructure LAN de la ferme de serveurs.
  
  
Ligne 112: Ligne 112:
 Please take a moment to navigate to the Ubuntu project’s homepage, http://www.ubuntu.com/. Now consider the main menu options. Beside “Cloud”, “Server” and “Desktop”, we find three further options that relate to devices that may be used for Big Data collection: “Phone”, “Tablet” and “Things”. This last category can be interpreted as Canonical’s interest in putting a version of Ubuntu (Core) on relatively lightweight and inexpensive computing devices, mostly based on versions of the same ARM platform that powers most phones and tablets. ** Please take a moment to navigate to the Ubuntu project’s homepage, http://www.ubuntu.com/. Now consider the main menu options. Beside “Cloud”, “Server” and “Desktop”, we find three further options that relate to devices that may be used for Big Data collection: “Phone”, “Tablet” and “Things”. This last category can be interpreted as Canonical’s interest in putting a version of Ubuntu (Core) on relatively lightweight and inexpensive computing devices, mostly based on versions of the same ARM platform that powers most phones and tablets. **
  
-En deuxième lieu, utiliser la virtualisation comme base pour le traitement des données veut dire que les organisations, qui ont besoin de traiter de grandes quantités de données, n'ont plus besoin d'acquérir et d'entretenir de grandes fermes de serveurs. Les coût d'infrastructure sont externalisés vers des fournisseurs d'informatique dans le nuage, comme Amazon, et ces services ne sont loués qu'au besoin. Cela introduit plus de flexibilité, puisque des serveurs moins, ou plus nombreux, peuvent être utilisés au besoin, selon la taille ou la complexité de chaque problème ou ensemble de données précis.+En deuxième lieu, utiliser la virtualisation comme base pour le traitement des données veut dire que les organisations, qui ont besoin de traiter de grandes quantités de données, n'ont plus besoin d'acquérir et d'entretenir de grandes fermes de serveurs. Les coûts d'infrastructure sont externalisés vers des fournisseurs d'informatique dans le nuage, comme Amazon, et ces services ne sont loués qu'au besoin. Cela introduit plus de flexibilité, puisque des serveurs moins, ou plus nombreux, peuvent être utilisés au besoin, selon la taille ou la complexité de chaque problème ou ensemble de données précis.
  
 Aujourd'hui, le traitement du Big data semble se faire strictement par des machines virtuelles dans le nuage basées sur Linux, Ubuntu étant au moins un des acteurs principaux dans le domaine. Mais quid de la collecte des données au départ ? Aujourd'hui, le traitement du Big data semble se faire strictement par des machines virtuelles dans le nuage basées sur Linux, Ubuntu étant au moins un des acteurs principaux dans le domaine. Mais quid de la collecte des données au départ ?
  
 +Veuillez prendre une minute pour naviguer jusqu'à la page d'accueil du projet Ubuntu, http://www.ubuntu.com/. Maintenant, regardez les options du menu principal. Outre « Cloud », « Server » et « Desktop », nous trouvons trois options supplémentaires qui ont un rapport avec des dispositifs qui peuvent servir pour la collecte du Big data : « Phone », « Tablet » et « Things » (objets). On peut interpréter cette dernière catégorie comme l'intérêt qu'a Ubuntu à mettre une version d'Ubuntu (Core) sur des appareils informatiques assez légers et peu chers, pour la plupart basés sur des versions de la même plateforme ARM qui alimente la plupart des téléphones et tablettes.
  
  
Ligne 131: Ligne 132:
  
 Just saying… ** Just saying… **
 +
 +Une fois que ceux-ci seront utilisés pour rendre l'électronique grand public de Monsieur Tout-le-monde plus intelligente - des téléviseurs, des systèmes de divertissement dans les voitures, des systèmes de chauffage et plus - et surtout connectée au Net, les possibilités de collecter des données et de les transférer à tout fournisseur de service qui s'y est mis, sont infinies.
 +
 +Il se peut que Monsieur Tout-le-monde bénéficie de l'innovation. Avoir un accès en temps réel aux conditions de la circulation tout en conduisant, peut être considéré comme un progrès utile pour la grande partie de l'humanité vivant dans des zones urbaines congestionnées. Être capable de surveiller et d'ajuster le chauffage central de votre maison à distance, et ainsi réduire les factures de chauffage et les émissions de carbone ne peut pas être jugé comme quelque chose de mauvais.
 +
 +Ubuntu Core se prête parfaitement à ce type d'application, puisque sa structure modulaire cadre très bien avec l'obtention de « juste assez de système d'exploitation » pour du matériel léger, en ne laissant à l'intégrateur système que la tâche de construire son propre module de code pour le travail précis que le système doit fournir. Ainsi, fondamentalement, Ubuntu est fin prêt pour accaparer de grands morceaux de l'écosystème du Big data, des serveurs de stockage et du traitement des employés dans des machines virtuelles, jusqu'aux dispositifs très intelligents qui alimentent les ensembles de données.
 +
 +Il y a juste un doute qui me taraude l'esprit.
 +
 +Quid de la liberté individuelle, y compris la liberté de ne pas être suivi à la trace, non seulement dans le monde numérique, mais aussi dans notre vraie vie d'hommes et de femmes ? Quand la communauté - et Canonical lui-même - se dressera-t-elle pour annoncer clairement sa position sur le sujet ?
 +
 +Mon grain de sel...
issue106/monopinion.1456931674.txt.gz · Dernière modification : 2016/03/02 16:14 de auntiee