Outils pour utilisateurs

Outils du site


issue94:critique_litteraire

When I see the phrase ‘Cookbook’ in a title, I’m immediately attracted to it, and, once I thumb through the book, I’m more times than not disappointed. The reason for this is that the recipes presented are usually either so basic or so obscure that I would never use them. So when I volunteered to review this book, I was expecting to experience this once again. However, once I got into the book, I was very pleasantly surprised. As promised, this book provides source code examples in R and Python. The R projects are limited to chapters 2 through 5, but give enough information to whet the appetite of anyone interested in data analysis. Chapters 6 through 11 are focused on Python solutions and I must say, the code is very clean and the presentation is very good. While the subjects of some of the chapters aren’t really my cup of tea (Recommending Movies or Harvesting and geolocating twitter data), the authors presented the information in such a way that the examples could be extrapolated to cover many forms of data, not just movies or twitter.

Quand je vois l'expression « livre de recettes » (Cookbook) dans un titre, il m'attire immédiatement, et, après avoir feuilleté le livre, je suis le plus souvent déçu. La raison en est que les recettes présentées sont généralement soit trop simples soit trop obscures pour que je ne les utilise jamais. Alors, quand j'ai proposé de faire une critique de ce livre, je m'attendais à constater ceci à nouveau. Mais une fois entré dans le livre, j'ai été très agréablement surpris.

Comme promis, ce livre fournit des exemples de code source en R et en Python. Les projets en R sont limités aux chapitres 2 à 5, mais donnent suffisamment d'informations pour aiguiser l'appétit de quiconque s'intéresse à l'analyse des données. Les chapitres 6 à 11 sont axés sur des solutions Python et je dois dire que le code est très propre et la présentation, très bonne.

Alors que les sujets de certains des chapitres ne sont pas vraiment ma tasse de thé (recommander des films ou récolter et géolocaliser des données de Twitter), les auteurs ont présenté l'information de manière à ce que les exemples puissent être extrapolés pour couvrir de nombreuses formes de données, pas uniquement des films ou Twitter.

Chapter 1 is dedicated to preparing the data evaluation environment on your computer for both R and Python. It is done in a very clear and easy-to-follow manner – without spurious packages that tend to obfuscate not only the intent of the project, but also make the reasoning behind the need for those packages questionable. Their choice of the free Anaconda Python distribution actually flies in the face of my above statement; however it is the correct tool (in my humble opinion) for the data analysis that is to follow, and will follow if you are going to continue in a serious data analysis role. In the same vein, the section on setting up a R environment is very straightforward and allows the reader to choose the best tool for the particular job. Enough information is given about the usage of R vs Python for even the greenest programmer to make a reasonable decision of which one to use. The four authors, Tony Ojeda, Sean Patrick Murphy, Benjamin Bengtort and Abhijit Dasgupta all have extremely impressive credits and have done a tremendous job on this book. Their roles in the ‘real world’ include work at Johns Hopkins University to Masters Degrees and PhDs. I doubt anyone could have come up with a more impressive group to discuss this very complex subject. The bottom line here is that if you are looking for a book to learn about data analysis and get snippets to help you along, then this is the book for you. You will want to pay close attention to Chapter One when setting up your analysis workstation, since the reasoning behind the packages used is clearly explained and the examples are well done. I would suggest that you install both R and Python as described in the book, since not all jobs are best handled by only one package.

Le chapitre 1 est consacré à la préparation de l'environnement pour l'évaluation de données sur votre ordinateur pour, à la fois, R et Python. C'est fait d'une manière très claire et facile à suivre ; sans paquets parasites qui tendent à masquer non seulement l'intention du projet, mais mettent aussi en question le raisonnement promouvant la nécessité de ces paquets. Le choix de la distribution gratuite Anaconda Python va effectivement à l'encontre de la déclaration ci-dessus ; mais (à mon humble avis) c'est l'outil approprié pour l'analyse de données qui va suivre, et suivra si vous continuez sérieusement dans votre rôle d'analyseur de données. Dans la même veine, la section sur la mise en place d'un environnement R est très simple et permet au lecteur de choisir le meilleur outil pour un travail spécifique. Suffisamment d'informations sont données sur l'utilisation de R plutôt que de Python, pour qu'un programmeur, même le plus tendre, puisse prendre une décision raisonnable sur lequel utiliser.

Les quatre auteurs, Tony Ojeda, Sean Patrick Murphy, Benjamin Bengtort et Abhijit Dasgupta ont tous des références impressionnantes et, dans ce livre, ils ont réalisé un travail énorme. Dans la « vie réelle », leurs curriculum sont brillants [Ndt : voir, par exemple, le site du livre sur Barnes and Noble où il y a une section « Meet the autor »] et comprennent des diplômes avancés divers et/ou l'encadrement de ces diplômes à l'université Johns Hopkins. Je doute que quiconque d'autre ait pu rassembler un groupe aussi impressionnant pour traiter ce sujet très complexe.

L'essentiel ici est que, si vous cherchez un livre pour en apprendre davantage sur l'analyse des données et avoir des extraits pour vous aider, alors ce livre est fait pour vous. Vous porterez une attention particulière au premier chapitre lors de la configuration de votre poste de travail d'analyse, puisque le raisonnement derrière les paquets utilisés est clairement expliqué et les exemples sont bien faits. Je suggère que vous installiez à la fois R et Python comme décrit dans le livre, car la meilleure façon de traiter certaines des tâches est avec les deux paquets.

issue94/critique_litteraire.txt · Dernière modification : 2015/04/03 23:03 de d52fr