EBookClubs

Read Books & Download eBooks Full Online

EBookClubs

Read Books & Download eBooks Full Online

Book Repr  sentation et fouille de donn  es volumineuses

Download or read book Repr sentation et fouille de donn es volumineuses written by Elie Prudhomme and published by . This book was released on 2009 with total page 0 pages. Available in PDF, EPUB and Kindle. Book excerpt: Le stockage n'étant plus soumis à des contraintes de coût importantes, les systèmes d'information collectent une quantité croissante de données, souvent via des processus d'acquisition automatique. En parallèle, les objets d'intérêt sont devenus plus complexes. C'est le cas, par exemple, des images, du texte ou encore des puces à ADN. Pour leur analyse, les méthodes d'apprentissage doivent alors prendre en compte l'augmentation massive et conjointe du nombre d'exemples et d'attributs qui en résultent. Or, les outils classiques de l'apprentissage automatique ne sont pas toujours adaptés à ce changement de volumétrie tant au niveau de leur complexité algorithmique que pour appréhender la structure des données. Dans ce contexte de données volumineuses en apprentissage supervisé, nous nous sommes intéressés à l'extraction de deux catégories de connaissances, conjointement à la prédiction, la première relative à l'organisation des exemples entre eux et la seconde relative aux interactions qui existent entre les attributs. Pour nous intéresser aux relations entre les exemples, nous définissons le concept de représentation en apprentissage supervisé comme une modélisation et une visualisation des données à la fois du point de vue de la proximité entre les exemples et du lien entre la position des exemples et leur étiquette. Parmi les différents algorithmes recensés qui conduisent à l'obtention d'une telle représentation, nous retenons les cartes auto-organisatrices qui présentent la plus faible complexité algorithmique, ce qui les rend adaptées aux données volumineuses. L'algorithme des cartes auto-organisatrices étant nonsupervis é, nous proposons une adaptation à l'apprentissage supervisé par le biais des cartes étiquetées (Prudhomme et Lallich, 2005b). Nous montrons également qu'il est possible de valider statistiquement la qualité de la représentation obtenue par une telle carte (Prudhomme et Lallich, 2005a). Les statistiques que nous proposons sont corrélées avec le taux d'erreur en généralisation, ce qui permet de juger a priori de la qualité de la prédiction qui résulte de la carte. Néanmoins, la prédiction des cartes auto-organisatrices n'est pas toujours satisfaisante face à des données en grandes dimensions. Dans ce cas, nous avons recours aux méthodes ensemblistes. Ces méthodes agrègent la prédiction de plusieurs classifieurs simples. En créant une certaine diversité entre les prédictions de ces classifieurs, les méthodes ensemblistes améliorent la prédiction qui aurait été obtenue par un seul classifieur. Pour créer cette diversité, nous apprenons chaque classifieur simple (dans notre cas, des cartes auto-organisatrices) sur un sous-espace de l'espace d'apprentissage. La diversité est ainsi l'occasion de diminuer la dimensionnalité du problème. Afin de choisir au mieux les sous-espaces, nous nous sommes inspirés des connaissances théoriques disponibles sur la répartition de l'erreur en généralisation d'un ensemble. Nous avons alors proposé deux heuristiques. La première heuristique est non-supervisée. Elle repose sur l'interprétation des corrélations entre attributs pour déterminer les sous-espaces à apprendre (Prudhomme et Lallich, 2007). La seconde heuristique, au contraire, est supervisée. Elle optimise par un algorithme génétique une mesure de l'erreur d'un ensemble en fonction de l'erreur des classifieurs qui le composent (Prudhomme et Lallich, 2008b). Ces deux heuristiques conduisent à des ensembles de cartes (ou des comités de cartes) dont l'erreur en généralisation est plus faible que celle d'une carte seule apprise sur la totalité des attributs. Néanmoins, ils conduisent également à une multitude de représentations. Pour proposer une seule représentation à l'issue de l'apprentissage, nous introduisons la notion de stacking géographique. (...).

Book Recherche d information

    Book Details:
  • Author : Massih-Reza Amini
  • Publisher : Editions Eyrolles
  • Release : 2013-04-18
  • ISBN : 2212191855
  • Pages : 255 pages

Download or read book Recherche d information written by Massih-Reza Amini and published by Editions Eyrolles. This book was released on 2013-04-18 with total page 255 pages. Available in PDF, EPUB and Kindle. Book excerpt: Le premier ouvrage francophone sur les algorithmes qui sous-tendent les technologies de big data et les moteurs de recherche ! Depuis quelques années, de nouveaux modèles et algorithmes sont mis au point pour traiter des données de plus en plus volumineuses et diverses. Cet ouvrage présente les fondements scientifiques des tâches les plus répandues en recherche d'information (RI), tâches également liées au data mining, au décisionnel et plus généralement à l'exploitation de big data. Il propose un exposé cohérent des algorithmes classiques développés dans ce domaine, abordable à des lecteurs qui cherchent à connaître le mécanisme des outils quotidiens d'Internet. Le lecteur approfondira les concepts d'indexation, de compression, de recherche sur le Web, de classification et de catégorisation, et pourra prolonger cette étude avec les exercices corrigés proposés en fin de chapitre. Ce livre s'adresse tant aux chercheurs et ingénieurs qui travaillent dans le domaine de l'accès à l'information et employés de PME qui utilisent en profondeur les outils du webmarketing, qu'aux étudiants de Licence, Master, doctorants ou en écoles d'ingénieurs, qui souhaitent un ouvrage de référence sur la recherche d'information.

Book Data visualisation

    Book Details:
  • Author : Nathan Yau
  • Publisher : Editions Eyrolles
  • Release : 2013-11-14
  • ISBN : 2212244150
  • Pages : 367 pages

Download or read book Data visualisation written by Nathan Yau and published by Editions Eyrolles. This book was released on 2013-11-14 with total page 367 pages. Available in PDF, EPUB and Kindle. Book excerpt: L'essor des nouvelles technologies et du Web a extraordinairement accéléré et simplifié la collecte, le stockage et l'accès aux données. Analysées et présentées de façon explicite et sensée, elles contribuent à faciliter la prise de décision, partager les connaissances et les idées, porter à un regard plus objectif sur le monde. La data visualisation est ainsi devenue une discipline à part entière, outil privilégié des datajournalistes, scientifiques, statisticiens, ingénieurs, graphistes, designers, chercheurs en sciences de l'information, spécialistes du marketing. Pionnier de cette approche innovante, Nathan Yau présente dans cet ouvrage les meilleurs moyens de collecter, d'explorer, d'analyser et de représenter de façon créative de larges ensembles de données.

Book Recherche d une repr  sentation des donn  es efficace pour la fouille des grandes bases de donn  es

Download or read book Recherche d une repr sentation des donn es efficace pour la fouille des grandes bases de donn es written by Marc Boullé and published by . This book was released on 2007 with total page 311 pages. Available in PDF, EPUB and Kindle. Book excerpt: The data preparation step of of the data mining process represents 80% of the problem and is both time consuming and critical for the quality of the modeling. In this thesis, our purpose is to design an evaluation criterion of data representations, in order to automate data preparation. To overcome this problem, we introduce a non parametric family of density estimation models, named data grid models. Each variable is partitioned in intervals or in groups of values according to whether it is numerical or categorical, and the whole data space is partitioned into a grid of cells resulting from the cross-product of the univariate partitions. When then consider density estimation models where the density is assumed constant per data grid cell. Because of their high expressiveness, data grid models are hard to regularize and to optimize. We exploit a model selection technique based on a bayesian approach and obtain an exact analytic criterion for the posterior probability of data grid models. We introduce combinatorial optimization algorithms which leverage the properties of our evaluation criterion and the sparseness of data in large dimension. These algorithms have a guaranteed algorithmic complexity, which is super-linear with the sample size. We evaluate data grid models in numerous tasks of data analysis, for supervised classification, regression, clustering or coclustering. The results demonstrate the validity of the approach, that allows to automatically and efficiently detect fine-grained and reliable information useful for the data preparation step.

Book Evaluation de la qualit   de la repr  sentation en fouille de donn  es

Download or read book Evaluation de la qualit de la repr sentation en fouille de donn es written by Fabrice Muhlenbach and published by . This book was released on 2002 with total page 171 pages. Available in PDF, EPUB and Kindle. Book excerpt: L'extraction de connaissances à partir de données (ECD) cherche à produire de nouvelles connaissances utilisables en tirant parti des grandes bases de données. Avant de procéder à la phase de fouille de données, étapes phare de l'ECD, pour pouvoir opérer un apprentissage automatique, un ensemble de questions et de problèmes se posent : comment avoir a priori une idée de la manière dont les étiquettes de la variable à apprendre peuvent être séparées en fonction des variables prédictives ? comment traiter les bases pour lesquelles nous savons que des étiquettes sont fausses ? comment transformer des variables prédictives continues en variables discrètes en tenant compte globalement des informations de la variable à prédire ? Nous proposons diverses réponses à ces problèmes. Ces solutions exploitent les propriétés d'outils géométriques : les graphes de voisinage. Le voisinage entre des individus projetés dans un espace à p dimensions nous fournit un moyen de caractériser la ressemblance entre les exemples à apprendre. A partir de ceci, nous élaborons un test statistique basé sur le poids des arêtes qu'il faut retirer dans un graphe de voisinage pour n'avoir que des sous-graphes d'une seul étiquette, ce qui nous informe de la séparabilité a priori des classes. Nous prolongeons ces réflexions dans le cadre de la détection d'individus dont l'étiquette est douteuse : nous proposons une stratégie de suppression et de réétiquetage d'exemples douteux dans l'échantillon d'apprentissage afin d'augmenter la qualité des modèles prédictifs exploitant cet échantillon de données. Ces travaux sont étendus au cas particulier où la variable à prédire est numérique : nous présentons un test de structure pour la prédiction d'une telle variable. Enfin, nous présenton une méthode de discrétisation supervisée polythétique qui repose sur les graphes de voisinage et montrons ses performances en l'employant avec une méthode d'apprentissage supervisé que nous avons développée.

Book Visualizing Data

    Book Details:
  • Author : Ben Fry
  • Publisher : "O'Reilly Media, Inc."
  • Release : 2008
  • ISBN : 0596519303
  • Pages : 384 pages

Download or read book Visualizing Data written by Ben Fry and published by "O'Reilly Media, Inc.". This book was released on 2008 with total page 384 pages. Available in PDF, EPUB and Kindle. Book excerpt: Provides information on the methods of visualizing data on the Web, along with example projects and code.

Book Sequence Data Mining

    Book Details:
  • Author : Guozhu Dong
  • Publisher : Springer Science & Business Media
  • Release : 2007-10-31
  • ISBN : 0387699376
  • Pages : 160 pages

Download or read book Sequence Data Mining written by Guozhu Dong and published by Springer Science & Business Media. This book was released on 2007-10-31 with total page 160 pages. Available in PDF, EPUB and Kindle. Book excerpt: Understanding sequence data, and the ability to utilize this hidden knowledge, will create a significant impact on many aspects of our society. Examples of sequence data include DNA, protein, customer purchase history, web surfing history, and more. This book provides thorough coverage of the existing results on sequence data mining as well as pattern types and associated pattern mining methods. It offers balanced coverage on data mining and sequence data analysis, allowing readers to access the state-of-the-art results in one place.

Book Quality Measures in Data Mining

Download or read book Quality Measures in Data Mining written by Fabrice Guillet and published by Springer Science & Business Media. This book was released on 2007-01-08 with total page 319 pages. Available in PDF, EPUB and Kindle. Book excerpt: This book presents recent advances in quality measures in data mining.

Book Concept Lattices and Their Applications

Download or read book Concept Lattices and Their Applications written by Sadok Ben Yahia and published by Springer. This book was released on 2008-03-13 with total page 292 pages. Available in PDF, EPUB and Kindle. Book excerpt: This book constitutes the refereed proceedings of the Fourth International Conference on Concept Lattices and their Applications, CLA 2006, held in Tunis, Tunisia, October 30-November 1, 2006. The 18 revised full papers together with 3 invited contributions presented were carefully reviewed and selected from 41 submissions. The topics include formal concept analysis, foundations of FCA, mathematical structures related to FCA, relationship of FCA to other methods of data analysis, visualization of data in FCA, and applications of FCA.

Book Adaptive Stream Mining

Download or read book Adaptive Stream Mining written by Albert Bifet and published by IOS Press. This book was released on 2010 with total page 224 pages. Available in PDF, EPUB and Kindle. Book excerpt: This book is a significant contribution to the subject of mining time-changing data streams and addresses the design of learning algorithms for this purpose. It introduces new contributions on several different aspects of the problem, identifying research opportunities and increasing the scope for applications. It also includes an in-depth study of stream mining and a theoretical analysis of proposed methods and algorithms. The first section is concerned with the use of an adaptive sliding window algorithm (ADWIN). Since this has rigorous performance guarantees, using it in place of counters or accumulators, it offers the possibility of extending such guarantees to learning and mining algorithms not initially designed for drifting data. Testing with several methods, including Naïve Bayes, clustering, decision trees and ensemble methods, is discussed as well. The second part of the book describes a formal study of connected acyclic graphs, or 'trees', from the point of view of closure-based mining, presenting efficient algorithms for subtree testing and for mining ordered and unordered frequent closed trees. Lastly, a general methodology to identify closed patterns in a data stream is outlined. This is applied to develop an incremental method, a sliding-window based method, and a method that mines closed trees adaptively from data streams. These are used to introduce classification methods for tree data streams.

Book Mining Heterogeneous Information Networks

Download or read book Mining Heterogeneous Information Networks written by Yizhou Sun and published by Morgan & Claypool Publishers. This book was released on 2012 with total page 162 pages. Available in PDF, EPUB and Kindle. Book excerpt: Investigates the principles and methodologies of mining heterogeneous information networks. Departing from many existing network models that view interconnected data as homogeneous graphs or networks, the semi-structured heterogeneous information network model leverages the rich semantics of typed nodes and links in a network and uncovers surprisingly rich knowledge from the network.

Book Aggregated Search

    Book Details:
  • Author : Jaime Arguello
  • Publisher :
  • Release : 2017-03-06
  • ISBN : 9781680832525
  • Pages : 154 pages

Download or read book Aggregated Search written by Jaime Arguello and published by . This book was released on 2017-03-06 with total page 154 pages. Available in PDF, EPUB and Kindle. Book excerpt: A comprehensive summary of the research in aggregated search. It also surveys different evaluation methodologies for aggregated search and discusses prior user studies aimed at better understanding how users behave with aggregated search interfaces. It concludes by reviewing different advanced topics in aggregated search.

Book Knowledge Discovery from Data Streams

Download or read book Knowledge Discovery from Data Streams written by Joao Gama and published by CRC Press. This book was released on 2010-05-25 with total page 256 pages. Available in PDF, EPUB and Kindle. Book excerpt: Since the beginning of the Internet age and the increased use of ubiquitous computing devices, the large volume and continuous flow of distributed data have imposed new constraints on the design of learning algorithms. Exploring how to extract knowledge structures from evolving and time-changing data, Knowledge Discovery from Data Streams presents

Book Predicting Structured Data

    Book Details:
  • Author : Neural Information Processing Systems Foundation
  • Publisher : MIT Press
  • Release : 2007
  • ISBN : 0262026171
  • Pages : 361 pages

Download or read book Predicting Structured Data written by Neural Information Processing Systems Foundation and published by MIT Press. This book was released on 2007 with total page 361 pages. Available in PDF, EPUB and Kindle. Book excerpt: State-of-the-art algorithms and theory in a novel domain of machine learning, prediction when the output has structure.

Book Synchronized Phasor Measurements and Their Applications

Download or read book Synchronized Phasor Measurements and Their Applications written by A.G. Phadke and published by Springer Science & Business Media. This book was released on 2008-08-15 with total page 249 pages. Available in PDF, EPUB and Kindle. Book excerpt: This book provides an account of the field of synchronized Phasor Measurement technology, its beginning, its technology and its principal applications. It covers wide Area Measurements (WAM) and their applications. The measurements are done using GPS systems and eventually will replace the existing technology. The authors created the field about twenty years ago and most of the installations planned or now in existence around the world are based on their work.

Book Max Weber and Karl Marx

Download or read book Max Weber and Karl Marx written by Karl Lowith and published by Routledge. This book was released on 2002-11-01 with total page 201 pages. Available in PDF, EPUB and Kindle. Book excerpt: First Published in 2004. Lowith's study of Max Weber and Karl Marx is a key text in modem interpretations of the theme of alienation in Marxist theory and rationalisation in Weber's sociology. It remains the best short student introduction to the differences and comparisons between these essential thinkers. This new edition includes a Preface by Professor Bryan S. Turner which demonstrates the relevance of the book for contemporary sociology.

Book Get Out the Vote

    Book Details:
  • Author : Donald P. Green
  • Publisher : Brookings Institution Press
  • Release : 2008-09-01
  • ISBN : 081573266X
  • Pages : 239 pages

Download or read book Get Out the Vote written by Donald P. Green and published by Brookings Institution Press. This book was released on 2008-09-01 with total page 239 pages. Available in PDF, EPUB and Kindle. Book excerpt: The first edition of Get Out the Vote! broke ground by introducing a new scientific approach to the challenge of voter mobilization and profoundly influenced how campaigns operate. In this expanded and updated edition, the authors incorporate data from more than one hundred new studies, which shed new light on the cost-effectiveness and efficiency of various campaign tactics, including door-to-door canvassing, e-mail, direct mail, and telephone calls. Two new chapters focus on the effectiveness of mass media campaigns and events such as candidate forums and Election Day festivals. Available in time for the core of the 2008 presidential campaign, this practical guide on voter mobilization is sure to be an important resource for consultants, candidates, and grassroots organizations. Praise for the first edition: "Donald P. Green and Alan S. Gerber have studied turnout for years. Their findings, based on dozens of controlled experiments done as part of actual campaigns, are summarized in a slim and readable new book called Get Out the Vote!, which is bound to become a bible for politicians and activists of all stripes." —Alan B. Kreuger, in the New York Times "Get Out the Vote! shatters conventional wisdom about GOTV." —Hal Malchow in Campaigns & Elections "Green and Gerber's recent book represents important innovations in the study of turnout."—Political Science Review "Green and Gerber have provided a valuable resource for grassroots campaigns across the spectrum."—National Journal