EBookClubs

Read Books & Download eBooks Full Online

EBookClubs

Read Books & Download eBooks Full Online

Book Architectures d apprentissage profond pour la reconnaissance d actions humaines dans des s  quences vid  o RGB D monoculaires

Download or read book Architectures d apprentissage profond pour la reconnaissance d actions humaines dans des s quences vid o RGB D monoculaires written by Huy-Hieu Pham (doctorant en informatique).) and published by . This book was released on 2019 with total page 153 pages. Available in PDF, EPUB and Kindle. Book excerpt: Cette thèse porte sur la reconnaissance d'actions humaines dans des séquences vidéo RGB-D monoculaires. La question principale est, à partir d'une vidéo ou d'une séquence d'images donnée, de savoir comment reconnaître des actions particulières qui se produisent. Cette tâche est importante et est un défi majeur à cause d'un certain nombre de verrous scientifiques induits par la variabilité des conditions d'acquisition, comme l'éclairage, la position, l'orientation et le champ de vue de la caméra, ainsi que par la variabilité de la réalisation des actions, notamment de leur vitesse d'exécution. Pour surmonter certaines de ces difficultés, dans un premier temps, nous examinons et évaluons les techniques les plus récentes pour la reconnaissance d'actions dans des vidéos. Nous proposons ensuite une nouvelle approche basée sur des réseaux de neurones profonds pour la reconnaissance d'actions humaines à partir de séquences de squelettes 3D. Deux questions clés ont été traitées. Tout d'abord, comment représenter la dynamique spatio-temporelle d'une séquence de squelettes pour exploiter efficacement la capacité d'apprentissage des représentations de haut niveau des réseaux de neurones convolutifs (CNNs ou ConvNets). Ensuite, comment concevoir une architecture de CNN capable d'apprendre des caractéristiques spatio-temporelles discriminantes à partir de la représentation proposée dans un objectif de classification. Pour cela, nous introduisons deux nouvelles représentations du mouvement 3D basées sur des squelettes, appelées SPMF (Skeleton Posture-Motion Feature) et Enhanced-SPMF, qui encodent les postures et les mouvements humains extraits des séquences de squelettes sous la forme d'images couleur RGB. Pour les tâches d'apprentissage et de classification, nous proposons différentes architectures de CNNs, qui sont basées sur les modèles Residual Network (ResNet), Inception-ResNet-v2, Densely Connected Convolutional Network (DenseNet) et Efficient Neural Architecture Search (ENAS), pour extraire des caractéristiques robustes de la représentation sous forme d'image que nous proposons et pour les classer. Les résultats expérimentaux sur des bases de données publiques (MSR Action3D, Kinect Activity Recognition Dataset, SBU Kinect Interaction, et NTU-RGB+D) montrent que notre approche surpasse les méthodes de l'état de l'art. Nous proposons également une nouvelle technique pour l'estimation de postures humaines à partir d'une vidéo RGB. Pour cela, le modèle d'apprentissage profond appelé OpenPose est utilisé pour détecter les personnes et extraire leur posture en 2D. Un réseau de neurones profond est ensuite proposé pour apprendre la transformation permettant de reconstruire ces postures en trois dimensions. Les résultats expérimentaux sur la base de données Human3.6M montrent l'efficacité de la méthode proposée. Ces résultats ouvrent des perspectives pour une approche de la reconnaissance d'actions humaines à partir des séquences de squelettes 3D sans utiliser des capteurs de profondeur comme la Kinect. Nous avons également constitué la base CEMEST, une nouvelle base de données RGB-D illustrant des comportements de passagers dans les transports publics. Elle contient 203 vidéos de surveillance collectées dans une station du métro incluant des événements "normaux" et "anormaux". Nous avons obtenu des résultats prometteurs sur cette base en utilisant des techniques d'augmentation de données et de transfert d'apprentissage. Notre approche permet de concevoir des applications basées sur des techniques de l'apprentissage profond pour renforcer la qualité des services de transport en commun.

Book Apprentissage pour la reconnaissance d actions humaines en vid  o

Download or read book Apprentissage pour la reconnaissance d actions humaines en vid o written by Alexander Klaser and published by . This book was released on 2010 with total page 130 pages. Available in PDF, EPUB and Kindle. Book excerpt: Cette thèse s'intéresse à la reconnaissance des actions humaines dans des données vidéo réalistes, tels que les films. À cette fin, nous développons des algorithmes d'extraction de caractéristiques visuelles pour la classification et la localisation d'actions. Dans une première partie, nous étudions des approches basées sur les sacs-de-mots pour la classification d'action. Dans le cas de vidéo réalistes, certains travaux récents qui utilisent le modèle sac-de-mots pour la représentation d'actions ont montré des résultats prometteurs. Par conséquent, nous effectuons une comparaison approfondie des méthodes existantes pour la détection et la description des caractéristiques locales. Ensuite, nous proposons deux nouvelles approches pour la descriptions des caractéristiques locales en vidéo. La première méthode étend le concept d'histogrammes sur les orientations de gradient dans le domaine spatio-temporel. La seconde méthode est basée sur des trajectoires de points d'intérêt détectés spatialement. Les deux descripteurs sont évalués avec une représentation par sac-de-mots et montrent une amélioration par rapport à l'état de l'art pour la classification d'actions. Dans une seconde partie, nous examinons comment la détection de personnes peut contribuer à la reconnaissance d'actions. Tout d'abord, nous développons une approche qui combine la détection de personnes avec une représentation sac-de-mots. La performance est évaluée pour la classification d'actions à plusieurs niveaux d'échelle spatiale. Ensuite, nous explorons la localisation spatio-temporelle des actions humaines dans les films. Nous étendons une approche de suivi de personnes pour des vidéos réalistes. En outre, nous développons une représentation d'actions qui est adaptée aux détections de personnes. Nos expériences suggèrent que la détection de personnes améliore significativement la localisation d'actions. De plus, notre système montre une grande amélioration par rapport à l'état de l'art actuel.

Book Apprentissage pour la reconnaissance d actions humaines en vid  o

Download or read book Apprentissage pour la reconnaissance d actions humaines en vid o written by Alexander Klaser and published by . This book was released on 2010 with total page 0 pages. Available in PDF, EPUB and Kindle. Book excerpt: Cette thèse s'intéresse à la reconnaissance des actions humaines dans des données vidéo réalistes, tels que les films. À cette fin, nous développons des algorithmes d'extraction de caractéristiques visuelles pour la classification et la localisation d'actions. Dans une première partie, nous étudions des approches basées sur les sacs-de-mots pour la classification d'action. Dans le cas de vidéo réalistes, certains travaux récents qui utilisent le modèle sac-de-mots pour la représentation d'actions ont montré des résultats prometteurs. Par conséquent, nous effectuons une comparaison approfondie des méthodes existantes pour la détection et la description des caractéristiques locales. Ensuite, nous proposons deux nouvelles approches pour la descriptions des caractéristiques locales en vidéo. La première méthode étend le concept d'histogrammes sur les orientations de gradient dans le domaine spatio-temporel. La seconde méthode est basée sur des trajectoires de points d'intérêt détectés spatialement. Les deux descripteurs sont évalués avec une représentation par sac-de-mots et montrent une amélioration par rapport à l'état de l'art pour la classification d'actions. Dans une seconde partie, nous examinons comment la détection de personnes peut contribuer à la reconnaissance d'actions. Tout d'abord, nous développons une approche qui combine la détection de personnes avec une représentation sac-de-mots. La performance est évaluée pour la classification d'actions à plusieurs niveaux d'échelle spatiale. Ensuite, nous explorons la localisation spatio-temporelle des actions humaines dans les films. Nous étendons une approche de suivi de personnes pour des vidéos réalistes. En outre, nous développons une représentation d'actions qui est adaptée aux détections de personnes. Nos expériences suggèrent que la détection de personnes améliore significativement la localisation d'actions. De plus, notre système montre une grande amélioration par rapport à l'état de l'art actuel.

Book Reconnaissance d actions humaines dans des vid  os  en particulier lors d interaction avec des objets

Download or read book Reconnaissance d actions humaines dans des vid os en particulier lors d interaction avec des objets written by Camille Maurice and published by . This book was released on 2020 with total page 115 pages. Available in PDF, EPUB and Kindle. Book excerpt: Dans cette thèse nous étudions la reconnaissance d'actions humaines. Typiquement, différentes actions se déroulent dans un même lieu et font intervenir divers objets. Ce problème est difficile en raison de la variété et la ressemblance de certaines actions, de l'encombrement du fond de la scène. De nombreuses approches de vision par ordinateur étudient cette problématique et leur performance est souvent dépendante du paramétrage de certains hyper-paramètres. Par exemple pour les approches d'apprentissage profond nous retrouvons l'initialisation du learning-rate, la taille des mini-lots... Partant de ce constat, nous commençons par une étude comparative des outils d'optimisation des hyper-paramètres de la littérature appliquée à une problématique de vision par ordinateur. Puis nous proposons une première approche bayésienne originale pour la reconnaissance d'actions en ligne qui repose sur des primitives de haut-niveau en 3D : l'observation du squelette humain et les objets environnants. Les nombreux paramètres à régler sont optimisés grâce à l'outil d'optimisation qui émerge de notre étude comparative. Les performances de cette première approche sont comparées à un réseau d'apprentissage profond de l'état de l'art, il en ressort une certaine complémentarité que nous proposons d'exploiter à travers un mécanisme de fusion. Enfin, suite aux récentes avancées dans les réseaux de convolutions à graphes, nous proposons une approche compacte originale et modulaire qui repose sur la construction de graphes spatio-temporels du squelette et des objets. Ces différentes approches sont évaluées et comparées, en performance brute et vis-à-vis des actions sous-représentées sur différents jeux de données publiques qui proposent des séquences d'actions de la vie quotidienne. Nos approches montrent des gains de performance intéressants eu égard à la littérature, notamment vis-à-vis des classes sous représentées dans le jeu de données.

Book Reconnaissance d activit  s humaines    partir de s  quences vid  o

Download or read book Reconnaissance d activit s humaines partir de s quences vid o written by Mouna Selmi and published by . This book was released on 2014 with total page 0 pages. Available in PDF, EPUB and Kindle. Book excerpt: Cette thèse s'inscrit dans le contexte de la reconnaissance des activités à partir de séquences vidéo qui est une des préoccupations majeures dans le domaine de la vision par ordinateur. Les domaines d'application pour ces systèmes de vision sont nombreux notamment la vidéo surveillance, la recherche et l'indexation automatique de vidéos ou encore l'assistance aux personnes âgées. Cette tâche reste problématique étant donnée les grandes variations dans la manière de réaliser les activités, l'apparence de la personne et les variations des conditions d'acquisition des activités. L'objectif principal de ce travail de thèse est de proposer une méthode de reconnaissance efficace par rapport aux différents facteurs de variabilité. Les représentations basées sur les points d'intérêt ont montré leur efficacité dans les travaux d'art; elles ont été généralement couplées avec des méthodes de classification globales vue que ses primitives sont temporellement et spatialement désordonnées. Les travaux les plus récents atteignent des performances élevées en modélisant le contexte spatio-temporel des points d'intérêts par exemple certains travaux encodent le voisinage des points d'intérêt à plusieurs échelles. Nous proposons une méthode de reconnaissance des activités qui modélise explicitement l'aspect séquentiel des activités tout en exploitant la robustesse des points d'intérêts dans les conditions réelles. Nous commençons par l'extractivité des points d'intérêt dont a montré leur robustesse par rapport à l'identité de la personne par une étude tensorielle. Ces primitives sont ensuite représentées en tant qu'une séquence de sac de mots (BOW) locaux: la séquence vidéo est segmentée temporellement en utilisant la technique de fenêtre glissante et chacun des segments ainsi obtenu est représenté par BOW des points d'intérêt lui appartenant. Le premier niveau de notre système de classification séquentiel hybride consiste à appliquer les séparateurs à vaste marge (SVM) en tant que classifieur de bas niveau afin de convertir les BOWs locaux en des vecteurs de probabilités des classes d'activité. Les séquences de vecteurs de probabilité ainsi obtenues sot utilisées comme l'entrées de classifieur séquentiel conditionnel champ aléatoire caché (HCRF). Ce dernier permet de classifier d'une manière discriminante les séries temporelles tout en modélisant leurs structures internes via les états cachés. Nous avons évalué notre approche sur des bases publiques ayant des caractéristiques diverses. Les résultats atteints semblent être intéressant par rapport à celles des travaux de l'état de l'art. De plus, nous avons montré que l'utilisation de classifieur de bas niveau permet d'améliorer la performance de système de reconnaissance vue que le classifieur séquentiel HCRF traite directement des informations sémantiques des BOWs locaux, à savoir la probabilité de chacune des activités relativement au segment en question. De plus, les vecteurs de probabilités ont une dimension faible ce qui contribue à éviter le problème de sur apprentissage qui peut intervenir si la dimension de vecteur de caractéristique est plus importante que le nombre des données; ce qui le cas lorsqu'on utilise les BOWs qui sont généralement de dimension élevée. L'estimation les paramètres du HCRF dans un espace de dimension réduite permet aussi de réduire le temps d'entrainement.

Book A Formal Framework for Representation and Recognition of Human Activities

Download or read book A Formal Framework for Representation and Recognition of Human Activities written by Suphot Chunwiphat and published by . This book was released on 2008 with total page 148 pages. Available in PDF, EPUB and Kindle. Book excerpt: Cette thèse concerne la représentation et la reconnaissance automatique d'activités humaines. Nous étudions d'abord un modèle de représentation du contexte basé sur les réseaux de Pétri. Afin de prendre en charge la nature imprécise de la description des activités humaines, nous étendons le modèle aux réseaux de Pétri flous. Nous proposons ensuite un modèle hiérarchique de fusion pour la reconnaissance des activités. Ce modèle s'appuie sur les concepts de mesure floue et d'intégrale floue. Nous fusionnons les indices produits par les réseaux de Pétri flous afin de produire pour chaque activité modélisée son degré de ressemblance par rapport une scène extraite d'une séquence d'images vidéo. Notre modèle de représentation et de reconnaissance d'activités s'appuie sur la notion de rôle, qui est une interprétation construite à partir des données bas niveau produites par les opérateurs d'analyse d'image. Nous avons comparé deux approches (réseau de neurones et SVM) pour l'apprentissage automatique de cette fonction de rôle.

Book Reconnaissance D actions Humaines Dans Des Vid  os Utilisant Une Repr  sentation Locale

Download or read book Reconnaissance D actions Humaines Dans Des Vid os Utilisant Une Repr sentation Locale written by Michal Koperski and published by . This book was released on 2017 with total page 0 pages. Available in PDF, EPUB and Kindle. Book excerpt: This thesis targets recognition of human actions in videos. This problem can be defined as the ability to name the action that occurs in the video. Due to the complexity of human actions such as appearance and motion pattern variations, many open questions keep action recognition far from being solved. Current state-of-the-art methods achieved satisfactory results based only on local features. To handle complexity of actions we propose 2 methods which model spatio-temporal relationship between features: (1) model a pairwise relationship between features with Brownian Covariance, (2) model spatial-layout of features w.r.t. person bounding box. Our methods are generic and can improve both hand-crafted and deep-learning based methods. Another question is whether 3D information can improve action recognition. Many methods use 3D information only to obtain body joints. We show that 3D information can be used not only for joints detection. We propose a novel descriptor which introduces 3D trajectories computed on RGB-D information. In the evaluation, we focus on daily living actions -- performed by people in daily self-care routine. Recognition of such actions is important for patient monitoring and assistive robots systems. To evaluate our methods we created a large-scale dataset, which consists of 160~hours of video footage of 20~seniors. We have annotated 35 action classes. The actions are performed in un-acted way, thus we introduce real-world challenges, absent in many public datasets. We also evaluated our methods on public datasets: CAD60, CAD120, MSRDailyActivity3D. THe experiments show that our methods improve state-of-the-art results.

Book Reconnaissance robuste d activit  s humaines par vision

Download or read book Reconnaissance robuste d activit s humaines par vision written by Geoffrey Vaquette and published by . This book was released on 2018 with total page 0 pages. Available in PDF, EPUB and Kindle. Book excerpt: Cette thèse porte sur la segmentation supervisée d'un flux vidéo en fragments correspondant à des activités de la vie quotidienne. En différenciant geste, action et activité, cette thèse s'intéresse aux activités à haut niveau sémantique telles que "Cuisiner" ou "Prendre son repas" par opposition à des actions comme "Découper un aliment". Pour cela, elle s'appuie sur l'algorithme DOHT (Deeply Optimized Hough Transform), une méthode de l'état de l'art utilisant un paradigme de vote (par transformée de Hough). Dans un premier temps, nous adaptons l'algorithme DOHT pour fusionner les informations en provenance de différents capteurs à trois niveaux différents de l'algorithme. Nous analysons l'effet de ces trois niveaux de fusion et montrons son efficacité par une évaluation sur une base de données composée d'actions de la vie quotidienne. Ensuite, une étude des jeux de données existant est menée. Constatant le manque de vidéos adaptées à la segmentation et classification (détection) d'activités à haut niveau sémantique, une nouvelle base de données est proposée. Enregistrée dans un environnement réaliste et dans des conditions au plus proche de l'application finale, elle contient des vidéos longues et non découpées adaptées à un contexte de détection. Dans un dernier temps, nous proposons une approche hiérarchique à partir d'algorithmes DOHT pour reconnaître les activités à haut niveau sémantique. Cette approche à deux niveaux décompose le problème en une détection non-supervisée d'actions pour ensuite détecter les activités désirées.

Book Reconnaissance Rapide Et Pr  cise D actions Humaines    Partir de Cam  ras RGB D

Download or read book Reconnaissance Rapide Et Pr cise D actions Humaines Partir de Cam ras RGB D written by Enjie Ghorbel and published by . This book was released on 2017 with total page 131 pages. Available in PDF, EPUB and Kindle. Book excerpt: The recent availability of RGB-D cameras has renewed the interest of researchers in the topic of human action recognition. More precisely, several action recognition methods have been proposed based on the novel modalities provided by these cameras, namely, depth maps and skeleton sequences. These approaches have been mainly evaluated in terms of recognition accuracy. This thesis aims to study the issue of fast action recognition from RGB-D cameras. It focuses on proposing an action recognition method realizing a trade-off between accuracy and latency for the purpose of applying it in real-time scenarios. As a first step, we propose a comparative study of recent RGB-D based action recognition methods using the two cited criteria: accuracy of recognition and rapidity of execution. Then, oriented by the conclusions stated thanks to this comparative study, we introduce a novel, fast and accurate human action descriptor called Kinematic Spline Curves (KSC).This latter is based on the cubic spline interpolation of kinematic values. Moreover, fast spatialand temporal normalization are proposed in order to overcome anthropometric variability, orientation variation and rate variability. The experiments carried out on four different benchmarks show the effectiveness of this approach in terms of execution time and accuracy. As a second step, another descriptor is introduced, called Hierarchical Kinematic Covariance(HKC). This latter is proposed in order to solve the issue of fast online action recognition. Since this descriptor does not belong to a Euclidean space, but is an element of the space of Symmetric Positive semi-definite (SPsD) matrices, we adapt kernel classification methods by the introduction of a novel distance called Modified Log-Euclidean, which is inspiredfrom Log-Euclidean distance. This extension allows us to use suitable classifiers to the feature space SPsD of matrices. The experiments prove the efficiency of our method, not only in terms of rapidity of calculation and accuracy, but also in terms of observational latency. These conclusions show that this approach combined with an action segmentation method could be appropriate to online recognition, and consequently, opens up new prospects for future works.

Book Reconnaissance des actions humaines    partir d une s  quence vid  o

Download or read book Reconnaissance des actions humaines partir d une s quence vid o written by Redha Touati and published by . This book was released on 2013 with total page pages. Available in PDF, EPUB and Kindle. Book excerpt: Le travail mené dans le cadre de ce projet de maîtrise vise à présenter un nouveau système de reconnaissance d'actions humaines à partir d'une séquence d'images vidéo. Le système utilise en entrée une séquence vidéo prise par une caméra statique. Une méthode de segmentation binaire est d'abord effectuée, grâce à un algorithme d'apprentissage, afin de détecter les différentes personnes de l'arrière-plan. Afin de reconnaitre une action, le système exploite ensuite un ensemble de prototypes générés, par une technique de réduction de dimensionnalité MDS, à partir de deux points de vue différents dans la séquence d'images. Cette étape de réduction de dimensionnalité, selon deux points de vue différents, permet de modéliser chaque action de la base d'apprentissage par un ensemble de prototypes (censé être relativement similaire pour chaque classe) représentés dans un espace de faible dimension non linéaire. Les prototypes extraits selon les deux points de vue sont amenés à un classifieur K-ppv qui permet de reconnaitre l'action qui se déroule dans la séquence vidéo. Les expérimentations de ce système sur la base d'actions humaines de Wiezmann procurent des résultats assez intéressants comparés à d'autres méthodes plus complexes. Ces expériences montrent d'une part, la sensibilité du système pour chaque point de vue et son efficacité à reconnaitre les différentes actions, avec un taux de reconnaissance variable mais satisfaisant, ainsi que les résultats obtenus par la fusion de ces deux points de vue, qui permet l'obtention de taux de reconnaissance très performant.

Book Apprentissage neuronal de caract  ristiques spatio temporelles pour la classification automatique de s  quences vid  o

Download or read book Apprentissage neuronal de caract ristiques spatio temporelles pour la classification automatique de s quences vid o written by Moez Baccouche and published by . This book was released on 2014 with total page 0 pages. Available in PDF, EPUB and Kindle. Book excerpt: Cette thèse s'intéresse à la problématique de la classification automatique des séquences vidéo. L'idée est de se démarquer de la méthodologie dominante qui se base sur l'utilisation de caractéristiques conçues manuellement, et de proposer des modèles qui soient les plus génériques possibles et indépendants du domaine. Ceci est fait en automatisant la phase d'extraction des caractéristiques, qui sont dans notre cas générées par apprentissage à partir d'exemples, sans aucune connaissance a priori. Nous nous appuyons pour ce faire sur des travaux existants sur les modèles neuronaux pour la reconnaissance d'objets dans les images fixes, et nous étudions leur extension au cas de la vidéo. Plus concrètement, nous proposons deux modèles d'apprentissage des caractéristiques spatio-temporelles pour la classification vidéo : (i) Un modèle d'apprentissage supervisé profond, qui peut être vu comme une extension des modèles ConvNets au cas de la vidéo, et (ii) Un modèle d'apprentissage non supervisé, qui se base sur un schéma d'auto-encodage, et sur une représentation parcimonieuse sur-complète des données. Outre les originalités liées à chacune de ces deux approches, une contribution supplémentaire de cette thèse est une étude comparative entre plusieurs modèles de classification de séquences parmi les plus populaires de l'état de l'art. Cette étude a été réalisée en se basant sur des caractéristiques manuelles adaptées à la problématique de la reconnaissance d'actions dans les vidéos de football. Ceci a permis d'identifier le modèle de classification le plus performant (un réseau de neurone récurrent bidirectionnel à longue mémoire à court-terme -BLSTM-), et de justifier son utilisation pour le reste des expérimentations. Enfin, afin de valider la généricité des deux modèles proposés, ceux-ci ont été évalués sur deux problématiques différentes, à savoir la reconnaissance d'actions humaines (sur la base KTH), et la reconnaissance d'expressions faciales (sur la base GEMEP-FERA). L'étude des résultats a permis de valider les approches, et de montrer qu'elles obtiennent des performances parmi les meilleures de l'état de l'art (avec 95,83% de bonne reconnaissance pour la base KTH, et 87,57% pour la base GEMEP-FERA).

Book Reconnaissance de gestes et d actions de la main  combinant vision par ordinateur et technologies de r  alit   augment  e

Download or read book Reconnaissance de gestes et d actions de la main combinant vision par ordinateur et technologies de r alit augment e written by Théo Voillemin and published by . This book was released on 2021 with total page 0 pages. Available in PDF, EPUB and Kindle. Book excerpt: Les gestes de la main constituent le médium de communication non verbal le plus naturel et intuitif pour utiliser un ordinateur, et les efforts de recherche relatifs en ont récemment stimulé l'intérêt. De sucroît, l'analyse et l'interprétation du comportement humain à partir de signaux visuels est l'un des domaines les plus animés et recherchés de la vision par ordinateur. Afin de contribuer à ce champ de recherche, notre travail s'articule autour de la technologie de l'apprentissage automatique, plus particulièrement autour de l'apprentissage profond. Depuis peu, les réseaux de neurones profonds ont récemment prouvé leur remarquable efficacité dans de nombreux domaines de recherche et ont ainsi permis aux chercheurs de faire de considérables avancées en terme d'efficacité et de robustesse pour résoudre le problème de reconnaissance de gestes et d'actions de la main.Le principal objectif de cette thèse est de proposer un système d'assistance à l'utilisateur durant des activités orientées vers des objectifs précis, par exemple médical avec un assistant d'opérations ou d'auto-rééducation, ou encore dans l'industrie automobile avec un système d'assistance avancée pour la conduite, le tout sous la forme la plus intuitive et discrète possible. Ainsi, ce système observera les mains de l'utilisateur pour générer des commentaires contextuels en rapport avec le système de reconnaissance de gestes intégré. Cette thèse combine donc des techniques des domaines de recherche de la vision par ordinateur, avec la reconnaissance de gestes et les objets manipulés par l'utilisateur, et de réalité augmentée pour proposer un outil d'intervention et de correction. Pour cela, ces travaux explorent la récente architecture de réseau neuronal nommée Capsule Network qui n'a encore jamais été utilisée dans un problème de reconnaissance de gestes malgré la proposition de résultats prometteurs dans d'autres domaines. Une base de donnée extraite à l'aide du casque de réalité augmentée Microsoft HoloLens pour le problème de reconnaissance d'actions orientée vers l'apprentissage du piano et à des fins purement applicatives est aussi proposée, ainsi que des expérimentations pour prouver qu'il est possible d'entraîner une méthode dessus ainsi que pour continuer à démontrer l'efficacité de notre architecture neuronale.

Book M  canismes D attention Spatio temporels Pour la Reconnaissance D activit

Download or read book M canismes D attention Spatio temporels Pour la Reconnaissance D activit written by Srijan Das and published by . This book was released on 2020 with total page 0 pages. Available in PDF, EPUB and Kindle. Book excerpt: This thesis targets recognition of human actions in videos. Action recognition is a complicated task in the field of computer vision due to its high complex challenges. With the emergence of deep learning and large scale datasets from internet sources, substantial improvements have been made in video understanding. For instance, state-of-the-art 3D convolutional networks like I3D pre-trained on huge datasets like Kinetics have successfully boosted the recognition of actions from internet videos. But, these networks with rigid kernels applied across the whole space-time volume cannot address the challenges exhibited by Activities of Daily Living (ADL). We are particularly interested in discriminative video representation for ADL. Besides the challenges in generic videos, ADL exhibits - (i) fine-grained actions with short and subtle motion like pouring grain and pouring water, (ii) actions with similar visual patterns differing in motion patterns like rubbing hands and clapping, and finally (iii) long complex actions like cooking. In order to address these challenges, we have made three key contributions. The first contribution includes - a multi-modal fusion strategy to take the benefits of multiple modalities into account for classifying actions. However the question remains, how to combine multiple modalities in an end-to-end manner? How can we make use of the 3D information to guide the current state-of-the-art RGB networks for action classification? To this end, we propose articulated pose driven attention mechanisms for action classification. We propose, three variants of spatio-temporal attention mechanisms exploiting RGB and 3D pose modalities to address the aforementioned challenges (i) and (ii) for short actions. Our third main contribution is a Temporal Model on top of our attention based model. The video representation retaining dense temporal information enables the temporal model to model long complex actions which is crucial for ADL.We have evaluated our first contribution on three small-scale public datasets: CAD-60, CAD-120 and MSRDailyActivity3D. On the other hand, we have evaluated our remaining two contributions on four public datasets: a large scale human activity dataset: NTU-RGB+D 120, its subset NTU-RGB+D 60, a real-world challenging human activity dataset: Toyota Smarthome and a small scale human-object interaction dataset Northwestern UCLA. Our experiments show that the methods proposed in this thesis outperform the state-of-the-art results.

Book Apprentissage et reconnaissance qualitative d actions dans des s  quences vid  o

Download or read book Apprentissage et reconnaissance qualitative d actions dans des s quences vid o written by Jean-Christophe Baillie and published by . This book was released on 2001 with total page 174 pages. Available in PDF, EPUB and Kindle. Book excerpt:

Book Combinaison de CNN et LSTM pour la reconnaissance d activit  s dans un environnement intelligent avec radars Ultra Wideband

Download or read book Combinaison de CNN et LSTM pour la reconnaissance d activit s dans un environnement intelligent avec radars Ultra Wideband written by Alexandre Beaulieu and published by . This book was released on 2021 with total page pages. Available in PDF, EPUB and Kindle. Book excerpt: Dans les dernières années, la population mondiale a souffert d'un vieillissement. Cette tendance vise à croître dans les prochaines années. Un des problèmes qui en découle est que le nombre de personnes nécessitant du soutien au quotidien devrait également croître avec le vieillissement de la population. Les habitats intelligents offrent une alternative intéressante pouvant soulager une partie de ce problème. Les habitats intelligents contiennent une panoplie de capteurs qui, combinés à l'intelligence artificielle, ont le potentiel de supporter leurs occupants dans leur quotidien. Au centre de cette solution technologique se trouve la reconnaissance d'activités. La reconnaissance d'activités est un problème complexe visant à identifier quelle activité est effectuée par une personne. La complexité de ce problème découle de la nature des activités à identifier, des capteurs disponibles et de l'impact de ces derniers sur la vie privée. Parmi les capteurs exploitables pour la reconnaissance d'activités, les radars Ultra-Wideband (UWB) ont généré beaucoup d'intérêt dans les dernières années, car ils offrent un compromis intéressant entre précision et protection de la vie privée. Les travaux couverts par ce mémoire visent à atteindre un meilleur taux de reconnaissance d'activités de la vie quotidienne que les travaux précédents en combinant réseaux de neurones et radar UWB. Pour ce faire, deux approches ont été testées. Dans un premier temps, la combinaison de système experts et de réseau de neurones est explorée. Ensuite, un nouveau modèle d'apprentissage profond combinant différentes architectures (Long Short-Term Memory (LSTM) et réseau de neurones convolutif (CNN)) est développé pour faire la reconnaissance d'activités. Ce modèle a comme avantage de fusionner des données provenant de différentes sources et exploite des données prétraitées minimalement. Ce modèle, appelé Tuned EfficientNetB0 avec LSTM, offre une amélioration de 18,63 % du taux de reconnaissance par rapport aux réseaux de neurones développés dans des travaux antérieurs exploitant le même jeu de données. Finalement, un nouveau jeu de données a été construit et utilisé pour identifier la source des limitations de la reconnaissance d'activité dans le contexte actuel. In the last few years, the world population has gotten older. This trend is expected to continue in the future. One of the problems related to this phenomenon is the increasing number of persons requiring assistance in their everyday life. The number of person requiring assistance is expected to rise along with the aging population. Smart homes are becoming a more and more compelling alternative to direct human supervision. Smart homes are equipped with sensors that, coupled with artificial intelligence, can support their occupants whenever needed. At the heart of this technological solution lies the problem of activity recognition. Activity Recognition is a complex problem, due to the variable nature of activities recognized, the variety of sensors available and their respective impact on privacy. Among the variety of sensors exploitable for activity recognition, Ultra-Wideband (UWB) radars have raised a lot of interest due to their precision and lower impact on privacy. Hence, the work presented in this thesis aims at acheiving higher accuracy than previous works for activity of daily living using UWB and neural networks. To do so, two approaches were investigated. Firstly, a solution combining a neural network with an Expert System was developed. The second approach consisted in the development of a new neural network combining Long Short-Term Memory (LSTM) layers and Convolutionnal Neural Network (CNN) layers for the task of activity recognition. This model has the advantage of fusing data sources and requires only a minimalist preprocessing of the UWB radar data. This model, called Tuned EfficientNetB0 with LSTM, showed an improvement of 18.63 % in accuracy over a neural network developed in previous works on the same dataset. Finally, a new dataset was created to investigate the cause of limitations in the recognition of some activities.

Book Critical Technologies Plan

Download or read book Critical Technologies Plan written by and published by . This book was released on 1989 with total page 160 pages. Available in PDF, EPUB and Kindle. Book excerpt:

Book Fundamentals of Human Computer Interaction

Download or read book Fundamentals of Human Computer Interaction written by Andrew F. Monk and published by Academic Press. This book was released on 2014-06-28 with total page 312 pages. Available in PDF, EPUB and Kindle. Book excerpt: Fundamentals of Human-Computer Interaction aims to sensitize the systems designer to the problems faced by the user of an interactive system. The book grew out of a course entitled ""The User Interface: Human Factors for Computer-based Systems"" which has been run annually at the University of York since 1981. This course has been attended primarily by systems managers from the computer industry. The book is organized into three parts. Part One focuses on the user as processor of information with studies on visual perception; extracting information from printed and electronically presented text; and human memory. Part Two on the use of behavioral data includes studies on how and when to collect behavioral data; and statistical evaluation of behavioral data. Part Three deals with user interfaces. The chapters in this section cover topics such as work station design, user interface design, and speech communication. It is hoped that this book will be read by systems engineers and managers concerned with the design of interactive systems as well as graduate and undergraduate computer science students. The book is also suitable as a tutorial text for certain courses for students of Psychology and Ergonomics.