EBookClubs

Read Books & Download eBooks Full Online

EBookClubs

Read Books & Download eBooks Full Online

Book   tude des m  thodes de la recherche d information et de l indexation sur les documents   lectroniques

Download or read book tude des m thodes de la recherche d information et de l indexation sur les documents lectroniques written by Majed Sanan and published by . This book was released on 2008 with total page 129 pages. Available in PDF, EPUB and Kindle. Book excerpt: Cette thèse s'inscrit dans le cadre général de la recherche d'information, et plus précisément dans les méthodes et approches d'indexation des documents. Nous avons étudié, identifié et expliqué les limitations et les problèmes de la recherche d'information, en langue arabe, lors de l'usage des moteurs de recherche demeurant "standards" basés sur le principe de comparaison des mots clés le "keyword matching" ( Google, Yahoo, et Idrisi). Nous avons effectué une série d'expériences sur des documents juridiques arabes extraits du journal officiel libanais. Nous avons adopté les techniques de calcul des taux de rappel et de précision comme critères de comparaison afin d'identifier les limitations de cette méthode. Ces expérimentations ont bien confirmé que les spécificités de la langue arabe rendent la méthode de "keyword matching" insatisfaisante. Puis nous avons utilisé une méthode d'indexation purement statistique qui est la méthode N-gramme. Nous avons développé un logiciel en VB.Net qui permet d'utiliser les différentes formules de similarité et d'indexation et de les appliquer sur le corpus de test (Base de données). La méthode de représentation N-Gramme que nous avons utilisée, est basée sur le mot et les caractères (2,3 et 4) et ensuite on a comparé les résultats dans le but de savoir les valeurs optimales. Le choix optimal que nous avons trouvé était pour N égale à trois caractères. D'autre part nous avons étudié la performance d'une classification supervisée et non supervisée des documents arabes en utilisant la méthode N-gramme. Nous avons trouvé que cette méthode n'a pas donné de bons résultats. L'apport principal de cette thèse est l'exploitation des méthodes qui nous aident à accéder au contenu arabe en général et spécifiquement sur le web. Suite à l'insuffisance des méthodes d'indexation utilisées actuelles par les moteurs de recherche, il nous a paru que l'indexation qui utilise des méthodes statistiques ou distributionnelles et qui sont indépendantes de la langue, est meilleure que l'approche de "keyword matching". Mais pour une meilleure performance il s'avère indispensable d'adopter une approche linguistique qui utilise un thésaurus ou une ontologie de la langue. Nous nous orientons vers une approche mixte intégrant à la fois des caractéristiques linguistiques et structurelles des documents.

Book Analyse et repr  sentation documentaires

Download or read book Analyse et repr sentation documentaires written by Michèle Hudon and published by PUQ. This book was released on 2013-08-21T00:00:00-04:00 with total page 298 pages. Available in PDF, EPUB and Kindle. Book excerpt: Ce manuel, le seul en langue française à proposer une approche de nature pratique plutôt que théorique sur le sujet, présente une introduction à l’analyse et à la représentation documentaires. Réalisé à l’intention des futurs spécialistes de l’analyse et de la représentation de l’information et des documents, en formation dans les programmes d’études collégiales et universitaires, il est axé sur les opérations ­d’analyse, les langages utilisés pour représenter les sujets, les politiques et les normes, le contrôle de qualité et leurs incidences sur la recherche d’information et de documents. On y évoque d’abord les besoins et les comportements des usagers des systèmes d’information contemporains. Sont décrites ensuite les opérations d’indexation, de classification et de rédaction de résumés qui facilitent le repérage et l’accès aux documents pertinents aux besoins de l’usager. Pour chaque sujet traité, l’ouvrage mentionne les objectifs à atteindre, la séquence des opérations à réaliser ainsi que les outils à développer, à tenir à jour et à utiliser. Afin de favoriser la compréhension des étudiants, il contient un glossaire des termes spécialisés et un index des sujets traités. De nombreux tableaux, figures et exemples qui pourront servir de base de discussion et d’apprentissage sont également inclus.

Book Le Traitement   lectronique du document

Download or read book Le Traitement lectronique du document written by Jean-Claude Le Moal and published by FeniXX. This book was released on 1993-12-31T23:00:00+01:00 with total page 224 pages. Available in PDF, EPUB and Kindle. Book excerpt: Sous l’influence grandissante de l’informatique et des télécommunications, le document constitué, fabriqué, distribué a cessé d’être un document papier pour devenir un document électronique : le texte, le son et l’image sont réunis sur un même support, et c’est l’utilisateur final qui choisit le mode de consultation. La chaîne du document s’en trouve entièrement modifiée, remettant en cause là chaque étape le savoir-faire traditionnel. C’est ce traitement électronique du document - création, structuration, analyse, reconnaissance, diffusion, communication par les réseaux, indexation, recherche, traitement propre au document multimédia - qui est l’objet du présent ouvrage. Ce livre est le support d’un cours que l’INRIA organise tous les deux ans pour faire le point sur l’utilisation des nouvelles technologies dans l’information scientifique et technique. Coordonné par Jean-Claude Le Moal, il réunit, en 1994, des contributions d’Abdel Belaïd, Vassilis Christophides, Bernard Hidoine, Pierre Le Loarer, Catherine Lupovici, Luc Ottavj et Vincent Quint. Cet ouvrage s’adresse à tous les professionnels de l’information, de la documentation et de la communication interne et externe, conscients du rôle nouveau qui est le leur dans la chaîne de traitement du document et désireux de mettre à niveau leurs connaissances technologiques.

Book Analyse et repr  sentation documentaires

Download or read book Analyse et repr sentation documentaires written by Michèle Hudon and published by . This book was released on 2013 with total page 297 pages. Available in PDF, EPUB and Kindle. Book excerpt:

Book Recherche d information

    Book Details:
  • Author : Massih-Reza Amini
  • Publisher : Editions Eyrolles
  • Release : 2013-04-18
  • ISBN : 2212191855
  • Pages : 255 pages

Download or read book Recherche d information written by Massih-Reza Amini and published by Editions Eyrolles. This book was released on 2013-04-18 with total page 255 pages. Available in PDF, EPUB and Kindle. Book excerpt: Le premier ouvrage francophone sur les algorithmes qui sous-tendent les technologies de big data et les moteurs de recherche ! Depuis quelques années, de nouveaux modèles et algorithmes sont mis au point pour traiter des données de plus en plus volumineuses et diverses. Cet ouvrage présente les fondements scientifiques des tâches les plus répandues en recherche d'information (RI), tâches également liées au data mining, au décisionnel et plus généralement à l'exploitation de big data. Il propose un exposé cohérent des algorithmes classiques développés dans ce domaine, abordable à des lecteurs qui cherchent à connaître le mécanisme des outils quotidiens d'Internet. Le lecteur approfondira les concepts d'indexation, de compression, de recherche sur le Web, de classification et de catégorisation, et pourra prolonger cette étude avec les exercices corrigés proposés en fin de chapitre. Ce livre s'adresse tant aux chercheurs et ingénieurs qui travaillent dans le domaine de l'accès à l'information et employés de PME qui utilisent en profondeur les outils du webmarketing, qu'aux étudiants de Licence, Master, doctorants ou en écoles d'ingénieurs, qui souhaitent un ouvrage de référence sur la recherche d'information.

Book Mod  lisation  indexation et recherche de documents structur  s

Download or read book Mod lisation indexation et recherche de documents structur s written by Franck Fourel and published by . This book was released on 1998 with total page 299 pages. Available in PDF, EPUB and Kindle. Book excerpt: Les systèmes actuels de recherche de documents électroniques, que ce soit des systèmes de gestion de bases de données ou des systèmes de recherche d'informations, n'exploitent pas suffisament la richesse des documents. Les uns n'analysent pas le contenu du document et se laissent diriger par la structure du document alors que les autres délaissent l'aspect structurel en s'appuyant sur des méthodes trop peu adaptées aux nouvelles caractéristiques de ces documents. Le but de notre travail, situé à l'intersection de ces deux types de systèmes, est de réconcilier les différentes modalités d'accès aux documents électroniques et de rendre accessible tout document ou toute partie de documents qui peut résoudre le problème d'informations d'un utilisateur. Notre travail comporte plusieurs phases: la définition de modèles de représentation des documents structurés ainsi que de leurs composantes monomédias et multimédias (texte et image fixe) et la mise en place d'un processus d'indexation structurelle support du processus d'interrogation. Le modèle de représentation des documents structurés s'articule autour de trois relations de structure que nous avons particulièrement identifiées dans les documents textuels : la relation de composition, la relation de séquence et la relation de référence. Elles établissent l'organisation syntaxique des parties des documents, appelées éléments de structure, qui comme nous le montrons, possède une organisation duale, la structure sémantique. Nous exploitons les caractéristiques de cette dernière pour définir des propriétés sur les descripteurs des éléments de structure. Ces propriétés sont formalisées dans la notion de portées des attributs et dans la classification des attributs qui s'en suit. Pour chaque attribut d'un élément de structure, sa portée indique quels sont les autres éléments concernés par l'attribut et par sa valeur. C'est en suivant les relations de structure que nous retrouvons les éléments concernés, puis nous leur assignons un attribut et une valeur dépendante de la valeur de l'attribut de l'élément qui est à la source de l'information. L'application des portées fournit une représentation du document au sein de laquelle les informations, si elles ne sont pas modifiées, sont mieux réparties et pour laquelle la plupart des informations sont explicitées pour chaque élément de structure et sont rendues dépendantes les unes des autres. Le processus d'interrogation utilise ces dépendances pour retrouver le ou les éléments de structure pertinents d'un document. Nous avons validé ce travail par le développement du prototype my Personal Daily News qui permet d'interroger des quotidiens d'informations en mêlant dans les requêtes des critères structurels et des critères de contenu. Nous montrons ainsi que notre approche rend des éléments accessibles et augmente la flexibilité d'interrogation en autorisant une connaissance imparfaite de la structure des documents

Book Contributions    L indexation Et    la Recherche D information Avec L analyse Formelle de Concepts

Download or read book Contributions L indexation Et la Recherche D information Avec L analyse Formelle de Concepts written by Víctor Codocedo-Henríquez and published by . This book was released on 2015 with total page 0 pages. Available in PDF, EPUB and Kindle. Book excerpt: One of the first models ever to be considered as an index for documents using terms as descriptors, was a lattice structure, a couple of decades before the arrival of Formal Concept Analysis (FCA) as a solid theory for data mining and knowledge discovery.While the Information Retrieval (IR) community has shifted to more advanced techniques for document retrieval, like probabilistic and statistic paradigms, the interest of the FCA community on developing techniques that would improve the state-of-the-art in IR while providing relevance feedback and semantic based features, never decayed. In this thesis we present a set of contributions on what we call FCA-based IR systems. We have divided our contributions in two sets, namely retrieval and indexing. For retrieval, we propose a novel technique that exploits semantic relations among descriptors in a document corpus and a new concept lattice navigation strategy (called cousin concepts), enabling us to support classification-based reasoning to provide better results compared with state-of-the-art retrieval techniques. The basic notion in our strategy is supporting query modification using "term replacements'' using the lattice structure and semantic similarity. For indexing, we propose a new model that allows supporting the vector space model of retrieval using concept lattices. One of the main limitations of current FCA-based IR systems is related to the binary nature of the input data required for FCA to generate a concept lattice. We propose the use of pattern structures, an extension of FCA to deal with complex object descriptions, in order to support more advanced retrieval paradigms like the vector space model. In addition, we propose an advanced model for heterogeneous indexing through which we can combine the vector space model and the Boolean retrieval model. The main advantage of this approach is the ability of supporting indexing of convex regions in an arbitrary vectorial space built from a document collection. Finally, we move forward to a mining model associated with document indexing, namely exhaustive bicluster enumeration using FCA. Biclustering is an emerging data analysis technique in which objects are related by similarity under certain attributes of the description space, instead of the whole description space like in standard clustering. By translating this problem to the framework of FCA, we are able to exploit the robust machinery associated with the computation of concept lattices to provide an algorithm for mining biclusters based on similar values. We show how our technique performs better than current exhaustive enumeration biclustering techniques.

Book Techniques linguistiques d indexation et de recherche documentaires

Download or read book Techniques linguistiques d indexation et de recherche documentaires written by Jean-Luc Cochard and published by . This book was released on 1994 with total page pages. Available in PDF, EPUB and Kindle. Book excerpt:

Book PASCAL

Download or read book PASCAL written by and published by . This book was released on 1994 with total page 964 pages. Available in PDF, EPUB and Kindle. Book excerpt:

Book La repr  sentation des connaissances dans le contexte de la documentation technique

Download or read book La repr sentation des connaissances dans le contexte de la documentation technique written by Virginia Bentes Pinto and published by . This book was released on 1999 with total page 550 pages. Available in PDF, EPUB and Kindle. Book excerpt: CETTE ETUDE A EU POUR BUT DE DEVELOPPER UNE PROPOSITION DE REPRESENTATION DES CONNAISSANCES VEHICULEES DANS LES DOCUMENTS TECHNIQUES. IL S'AGIT DONC D'UNE ETUDE ORIENTEE VERS UNE INDEXATION A PARTIR DES SYNTAGMES SIMPLES ET COMPLEXES ET QUI VISE UNE RECHERCHE D'INFORMATION PLUS EFFICACE. LE BUT PRINCIPAL DE LA RECHERCHE EST DE CREER UN MODELE D'INDEXATION POUR LES MANUELS D'ENTRETIEN ET DE MAINTENANCE UTILISATEUR EXTERNE (MEMUE). POUR CELA NOUS AVONS CONSTRUIT UN SCHEMA DE TACHES (ST) QUI EST DEFINI COMME ETANT DES MACRO-STRUCTURES TEXTUELLES CONSTITUEES PAR DES BLOCS D'INFORMATION CONCERNANT LA REPRESENTATION D'UN ENSEMBLE DE SITUATIONS VEHICULEES DANS DES DOCUMENTS TECHNIQUES. IL S'AGIT D'UNE CONSTRUCTION CIRCONSTANCIELLE QUI PREND EN COMPTE, D'UNE PART, LES SITUATIONS DE DEFAILLANCE DES APPAREILS COMPLEXES ET LA DESCRIPTION DES ACTIONS ET/OU OPERATIONS A REALISER AINSI QUE LES PRE-REQUIS POUR ARRIVER A L'ABOUTISSEMENT D'UN BUT SPECIFIQUE ATTENDU IMPLICITEMENT DANS CE DOCUMENT. IL EST DONC, CONSTITUE PAR DES TACHES SIMPLES ET COMPLEXES. LES BASES THEORIQUES DU ST SONT LES SCHEMAS D'ACTIONS PROPOSES PAR GALLO & ROUAULT [1992] ET QUI PRENNENT EN COMPTE LES TYPOLOGIES DE PROCES: LES ETATS ET LES PROCESSUS. POUR LA VALIDATION DU MODELE NOUS AVONS MENE UNE EXPERIMENTATION SUR LES MEMUE CONCERNANT LES APPAREILS HOSPITALIERS COMPLEXES DU CENTRE HOSPITALIER UNIVERSITAIRE DE GRENOBLE (CHU) ET AUSSI AUPRES DES TECHNICIENS DE MAINTENANCE DE CET HOPITAL. AU COURS DE CETTE EXPERIMENTATION NOUS AVONS CONSTATE QU'UNE INDEXATION VISANT DES RECHERCHES D'INFORMATIONS PLUS EFFICACES DOIT ETRE FAITE EN PRENANT EN COMPTE DES SYNTAGMES ET QUE CES SYNTAGMES AMENENT A UN PROCES: SOIT A UN ETAT SOIT A UN PROCESSUS. A LA SUITE DE CELA, NOUS POUVONS AFFIRMER QUE LES RESULTATS ONT CONFIRME NOS HYPOTHESES A SAVOIR QUE L'INDEXATION DES DOCUMENTS TECHNIQUES NE PEUT ETRE FAITE DE LA MEME FACON QUE CELLE DES DOCUMENTS TRADITIONNELS DU TYPE LITTERAIRE, HISTORIQUE...

Book Une m  thode d indexation fond  e sur l analyse s  mantique de documents sp  cialis  s

Download or read book Une m thode d indexation fond e sur l analyse s mantique de documents sp cialis s written by Catherine Berrut and published by . This book was released on 1988 with total page 388 pages. Available in PDF, EPUB and Kindle. Book excerpt: Étude et réalisation de l'indexation du système de recherche d'informations rime de façon à permettre une compréhension trè fine de documents spécialisés. Ont été examinées la construction d'un modèle de représentation des connaissances des documents traites, l'analyse des phénomènes linguistiques apparaissant dans ces documents. La mise en œuvre de trois processus linguistiques (morphologie, syntaxe, sémantique) et l'élaboration d'un processus de coopération permettant l'enchainement et l'indépendance de ces trois processus linguistiques. L'architecture du systeme est présentée en détail ainsi que les expérimentations faites sur un corpus médical

Book Capitalisation d exp  riences pour l indexation et la recherche d information dans le domaine de la gestion   lectronique de documents

Download or read book Capitalisation d exp riences pour l indexation et la recherche d information dans le domaine de la gestion lectronique de documents written by Jean-Luc Marini and published by . This book was released on 2010 with total page 213 pages. Available in PDF, EPUB and Kindle. Book excerpt: Dans un environnement économique hautement concurrentiel, l'entreprise qui veut rester compétitive doit sans cesse repenser son organisation, mobiliser ses compétences et revoir sa stratégie. Cela nécessite une plus grande coopération entre les acteurs, un renforcement de la communication ainsi qu'une capitalisation des connaissances et des processus d'action. Cette évolution suppose également la mise en place d'un dispositif de recherche d'information dans une mémoire d'entreprise hétérogène distribuée via le Web ou un Intranet. La constitution de ce patrimoine s'appuie généralement sur différentes sources d'information et nécessite une prise en compte du niveau d'expertise des différents acteurs. Dans ce contexte, la GED (Gestion Electronique de Documents) constitue un composant technologique essentiel de la capitalisation de la connaissance et de l'intelligence collective. Notre démarche consiste donc à modéliser et à concevoir un système de recherche d'information capable de rendre cette mémoire accessible indépendamment des acteurs qui l'ont créée et de manière pertinente par rapport à un contexte d'intérêt donné.

Book La recherche d information dans des bases de documents techniques en texte int  gral

Download or read book La recherche d information dans des bases de documents techniques en texte int gral written by Céline Paganelli and published by . This book was released on 1997 with total page 704 pages. Available in PDF, EPUB and Kindle. Book excerpt: LE TRAVAIL PRESENTE EST CONSACRE A LA RECHERCHE D'INFORMATION EN TEXTE INTEGRAL, ET S'INTERESSE PLUS PARTICULIEREMENT A LA RECHERCHE D'INFORMATION MENEE PAR DES UTILISATEURS EXPERTS DANS DES DOCUMENTS TECHNIQUES VOLUMINEUX. CE TRAVAIL PROPOSE UNE REFLEXION SUR LA CONCEPTION D'UN SYSTEME AUTOMATISE DE RECHERCHE D'INFORMATION DANS UN DOCUMENT TECHNIQUE, ET UTILISE UNE DEMARCHE QUI SE FONDE SUR UNE ETUDE DES BESOINS ET DES ATTENTES DES UTILISATEURS. APRES AVOIR PRESENTE UN ETAT DE L'ART SUR LA RECHERCHE D'INFORMATION TEXTUELLE AUTOMATISEE, L'AUTEUR MONTRE LES SPECIFICITES DE LA RECHERCHE D'INFORMATION EN TEXTE INTEGRAL, ET NOTAMMENT LE FAIT QUE CE TYPE DE RECHERCHE D'INFORMATION POSE UNE PROBLEMATIQUE NOUVELLE PAR RAPPORT A LA RECHERCHE DOCUMENTAIRE CLASSIQUE. DES TRAVAUX EXPERIMENTAUX DE PSYCHOLOGIE COGNITIVE PERMETTENT D'APPREHENDER LES BESOINS ET ATTENTES DES UTILISATEURS EN MATIERE DE RECHERCHE D'INFORMATION DANS LES DOCUMENTS TECHNIQUES. PARALLELEMENT, IL EST ETABLI QUE LES SYSTEMES EXISTANTS NE REPONDENT PAS COMPLETEMENT AUX BESOINS DES UTILISATEURS. L'AUTEUR SUGGERE ALORS QUE LA PRISE EN COMPTE DES CARACTERISTIQUES LINGUISTIQUES DU TEXTE TECHNIQUE PEUT PERMETTRE D'AMELIORER CE TYPE DE RECHERCHE D'INFORMATION. UNE ETUDE COMBINANT LES APPROCHES COGNITIVES ET LINGUISTIQUES MONTRE QUE LE TEXTE TECHNIQUE SE COMPOSE DE DEUX TYPES D'UNITES TEXTUELLES: LES UNES DECRIVANT OU DEFINISSANT DES OBJETS (TYPE OBJET) ET LES AUTRES DECRIVANT DES PROCEDURES PERMETTANT LA REALISATION D'ACTIONS (TYPE ACTION), QUI, EN PLUS D'ETRE VALIDEES PAR UNE EXPERIMENTATION COGNITIVE, PRESENTENT DES INDICES LINGUISTIQUES REPERABLES AUTOMATIQUEMENT. A PARTIR DE L'ETUDE DES BESOINS DES UTILISATEURS ET DE L'ETUDE DES SPECIFICITES LINGUISTIQUES DU TEXTE TECHNIQUE, L'AUTEUR ETABLIT DES PROPOSITIONS POUR LA CONCEPTION D'UN SYSTEME DE RECHERCHE D'INFORMATION DANS LES DOCUMENTS TECHNIQUES VOLUMINEUX.

Book M  thodes d indexation multi terminologique    base de connaissances   application aux documents en sant

Download or read book M thodes d indexation multi terminologique base de connaissances application aux documents en sant written by Wiem Chebil and published by . This book was released on 2016 with total page 175 pages. Available in PDF, EPUB and Kindle. Book excerpt: La grande quantité de données gérée par les systèmes de recherche d'information constituent un véritable enjeu surtout lorsqu'il s'agit de données biomédicales. En effet, la tâche d'indexation des documents ou des requêtes est pénible pour les experts et le remplacement de ces derniers par des approches automatiques est indispensable. Dans le but d'améliorer la performance de la gestion automatique des SRI (Systèmes de recherche d'information) pour qu'elle puisse s'approcher le plus de celle manuelle, nous proposons dans cette thèse des approches d'indexation. Ces derniers visent à minimiser les erreurs d'indexation des documents et des requêtes. En effet, nous avons réalisé d'abord une étude empirique qui vise à évaluer la fonction d'indexation de CISMeF (Catalogue et index des Sites Médicaux de langue Française). Nous nous sommes basés ensuite sur les catégories d'erreurs d'indexation identifiées pour proposer une approche à base de Modèle Vectoriel (MV), qui vise à minimiser les erreurs de désuffixation et à réduire l'information inutile générée par l'appariement partiel (ou approximatif). Ceci en exploitant l'information sémantique et statistique fournie par l'UMLS (Unified Medical Language System). L'approche d'indexation à base de MV propose aussi un nouveau poids des termes d'indexation. Ce poids est à la fois sémantique, statistique et prend en considération la structure du document. Nous avons aussi exploité un réseau bayésien (RB) qui contribue, à travers sa capacité à résoudre l'incertitude et sa capacité à exploiter l'architecture des terminologies, à mieux classer les concepts. De plus, nous avons proposé une approche d'indexation à base d'un réseau possibiliste (RP). Notre contributin principale à travers cette approche est d'améliorer l'estimation de la pertinence des concepts d'indexation en les classant à travers une évaluation double. Cette dernière consiste en deux mesures de possibilité et de nécessité. Nous avons ensuite combiné le RP et le VSM en se basant sur le fait que les avantages de l'un sont différents de ceux des avantages de l'autre et les deux modèles sont complémentaires. De plus, nous avons exploité ke RP pour la première fois pour l'enrichissement des requêtes par de nouveaux concepts qui sont sémantiquement proches de ceux de l'index initial. Cette approche contribue à améliorer le classement des concepts candidats pour l'enrichissement. L'intégration de ces contributions dans un SRI et son évaluation par rapport à ceux existants a mis en évidence l'intérêt des solutions que nous avons proposées dans le but de minimiser les erreurs d'indexation.

Book Reading and Writing Knowledge in Scientific Communities

Download or read book Reading and Writing Knowledge in Scientific Communities written by Gérald Kembellec and published by John Wiley & Sons. This book was released on 2017-07-19 with total page 194 pages. Available in PDF, EPUB and Kindle. Book excerpt: Practices associated with the culture of “scholarly” reading have been developed over many centuries and annotations themselves have become the subject of study, either as additional elements in connection with the original texts or as documents in their own right. The first “scholarly” reading techniques, seen historically from the 12th Century onwards, combine reading and writing in a process known as lettrure, involving both attentive reading and commentary. The Internet has transformed this activity, adding technical layers that relate both to the reading and writing process as well as to the circulation of texts; their potential and effective augmentation, diffusion, and reception. This book examines digitized reading and writing by focusing primarily on the conditions for the co-construction of scientific knowledge and its augmentation. The authors present numerous examples of studies and personal feedback concerning the intellectual process, open critical spaces, collaborative scholarly publishing, methods for the circulation and mediatization of knowledge, as well as the techniques and tools employed.

Book Analyse factorielle des correspondances pour l indexation et la recherche d information dans une grande base de donn  es d images

Download or read book Analyse factorielle des correspondances pour l indexation et la recherche d information dans une grande base de donn es d images written by Nguyen-Khang Pham and published by . This book was released on 2009 with total page 149 pages. Available in PDF, EPUB and Kindle. Book excerpt: Avec le développement du numérique, le nombre d'images stockées dans les bases de données a beaucoup augmenté. L'indexation des images et la recherche d'information dans les bases d'images sont plus compliquées que dans le cas de documents textuels. Des méthodes d'indexation déjà utilisées en analyse de données textuelles sont proposées pour traiter des images. Pour transférer les résultats de l'analyse de données textuelles aux images, il est nécessaire d'utiliser de nouvelles caractéristiques: les mots visuels et on considère les images comme documents. Nous nous intéressons au problème d'indexation et de recherche d'information dans des grandes bases de données d'images à l'aide de méthodes d'analyse de données, comme l'Analyse Factorielle des Correspondances (AFC). Nous proposons d'abord une utilisation astucieuse des indicateurs de l'AFC pour accélérer la recherche après l'avoir adaptée aux images. Nous nous intéressons ensuite au problème du passage à l'échelle de l'AFC. Pour ce faire, nous proposons un algorithme d'AFC incrémentale pour traiter de grands tableaux de données et la parallélisation de cet algorithme sur processeurs graphiques (GPU). Nous développons aussi une version parallèle de notre algorithme de recherche qui utilise des indicateurs de l'AFC sur GPU. Puis, nous associons l'AFC à d'autres méthodes comme la Mesure de Dissimilarité Contextuelle ou les forêts aléatoires pour améliorer la qualité de la recherche. Enfin, nous présentons un environnement de visualisation, CAViz, pour accompagner les traitements précédents.

Book Probabilistic Indexing for Information Search and Retrieval in Large Collections of Handwritten Text Images

Download or read book Probabilistic Indexing for Information Search and Retrieval in Large Collections of Handwritten Text Images written by and published by Springer Nature. This book was released on 2024 with total page 372 pages. Available in PDF, EPUB and Kindle. Book excerpt: This book provides a comprehensive presentation of a recently introduced framework, named "probabilistic indexing" (PrIx), for searching text in large collections of document images and other related applications. It fosters the development of new search engines for effective information retrieval from manuscripts which, however, lack the electronic text (transcripts) that would typically be required for such search and retrieval tasks. The book is structured into 11 chapters and three appendices. The first two chapters briefly outline the necessary fundamentals and state of the art in pattern recognition, statistical decision theory, and handwritten text recognition. Chapter 3 presents approaches for indexing (as opposed to spotting) each region of a handwritten text image which is likely to contain a word. Next, Chapter 4 describes models adopted for handwritten text in images, namely hidden Markov models, convolutional and recurrent neural networks and language models, and provides full details of weighted finite-state transducer (WFST) concepts and methods, needed in further chapters of the book. Chapter 5 explains the set of techniques and algorithms developed to generate image probabilistic indexes which allow for fast search and retrieval of textual information in the indexed images. Chapter 6 then presents experimental evaluations of the proposed framework and algorithms on different traditional benchmark datasets and compares them with other approaches, while Chapter 7 reviews the most popular keyword-spotting approaches. Chapter 8 explains how PrIx can support classical free-text search tools, while Chapter 9 presents new methods that use PrIx not only for searching, but also to deal with text analytics and other related natural language processing and information extraction tasks. Chapter 10 shows how the proposed solutions can be used to effectively index very large collections of handwritten document images, before Chapter 11 eventually summarizes the book and suggests promising lines of future research. The appendices detail the necessary mathematical foundations for the work and presents details of the text image collections and datasets used in the experiments throughout the book. This book is written for researchers and (post-)graduate students in pattern recognition and information retrieval. It will also be of interest to people in areas like history, criminology, or psychology who need technical support to evaluate, understand or decode historical or contemporary handwritten text.