Glossaire des réseaux de neurones peu profonds

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

ADALINE: Acronyme pour un neurone linéaire : ADAptive LINear Element (élément linéaire adaptatif).
adaptation: Méthode d'apprentissage qui s'effectue avec une séquence spécifique d’entrées et calcule la sortie, l’erreur et l’ajustement du réseau pour chaque vecteur d’entrée de la séquence selon leur ordre dans la séquence.
filtre adaptatif: Réseau contenant des retards et dont les poids sont ajustés après chaque nouveau vecteur présenté en entrée. Le réseau s’adapte aux éventuelles modifications des propriétés du signal d’entrée si la situation se présente. Ce type de filtre est utilisé dans les communications téléphoniques longue distance afin d’annuler l’écho.
taux d’apprentissage adaptatif: Le taux d’apprentissage est ajusté par rapport à un algorithme pendant la phase d'apprentissage afin de réduire la durée de l'apprentissage.
architecture: Description du nombre de couches d’un réseau de neurones, de la fonction de transfert de chaque couche, du nombre de neurones par couche et des connexions entre couches.
règle d’apprentissage de la rétropropagation: Règle d’apprentissage selon laquelle les poids et les biais sont ajustés par des vecteurs d’erreur dérivée (delta) rétropropagés sur le réseau. La rétropropagation est généralement appliquée aux réseaux multicouches feedforward. Cette règle est parfois nommée règle delta généralisée.
recherche par backtracking: Opération de recherche linéaire qui commence par un multiplicateur de pas de 1, puis retourne en arrière jusqu’à revenir à une réduction de performances acceptable.
batch ou lot: Matrice de vecteurs d’entrée (ou cible) appliqués simultanément au réseau. Les modifications apportées aux biais et aux poids du réseau ne sont appliquées qu'une seule fois pour l’ensemble des vecteurs de la matrice d’entrée. (Le terme batch ou lot est remplacé par l’expression plus descriptive « vecteurs simultanés ».)
batching: Processus de présentation d’un ensemble de vecteurs d’entrée pour le calcul simultané d’une matrice de vecteurs de sortie et/ou de nouveaux biais et poids.
Framework bayésien: Suppose que les poids et les biais du réseau sont des variables aléatoires avec des distributions spécifiées.
Algorithme BFGS quasi-Newton: Variation de l’algorithme d’optimisation de Newton, dans laquelle une approximation de la matrice hessienne est obtenue à partir de gradients calculés à chaque itération de l’algorithme.
biais: Paramètre neuronal qui est additionné avec les entrées pondérées d'un neurone et transmis par la fonction de transfert du neurone afin de générer la sortie du neurone.
vecteur biais: Vecteur colonne des valeurs de biais pour une couche de neurones.
Recherche de Brent: Recherche linéaire hybride associant la méthode du nombre d'or et l'interpolation quadratique.
réseau en cascade: Réseau en couches dans lequel chaque couche reçoit uniquement des entrées des couches précédentes.
Recherche de Charalambous: Recherche linéaire hybride qui associe une interpolation cubique avec un type de sectionnement.
classification: Association d’un vecteur d’entrée à un vecteur cible particulier.
couche compétitive: Couche de neurones dans laquelle seul le neurone avec une entrée nette maximale a une sortie de 1 et tous les autres neurones ont une sortie de 0. Les neurones se disputent le droit de répondre à un vecteur d’entrée donné.
apprentissage compétitif: Apprentissage non supervisé d’une couche compétitive avec la règle instar ou règle de Kohonen. Les différents neurones apprennent à devenir des détecteurs de caractéristiques. Après l'apprentissage, la couche classe les vecteurs d’entrée parmi ses neurones.
fonction de transfert concurrentielle: Accepte un vecteur d’entrée nette pour une couche et renvoie 0 en sortie pour tous les neurones sauf pour le gagnant, le neurone associé à l'élément le plus positif de l’entrée nette n.
vecteurs d’entrée concurrents: Nom donné à une matrice de vecteurs d’entrée qui sont présentés simultanément au réseau. Tous les vecteurs de la matrice sont utilisés pour apporter un seul ensemble de modifications aux poids et aux biais.
algorithme du gradient conjugué: Dans les algorithmes du gradient conjugué, une recherche est réalisée le long de directions conjuguées, ce qui produit généralement une convergence plus rapide qu’une recherche le long des directions de descente les plus fortes.
connexion: Une liaison unidirectionnelle entre des neurones dans un réseau.
force de la connexion: Force de la liaison entre deux neurones dans un réseau. La force, souvent nommée poids ou pondération, détermine l’effet d’un neurone sur un autre.
cycle: Processus comprenant la présentation unique d’un vecteur d’entrée et le calcul de la sortie ainsi que des nouveaux biais et poids.
neurone mort: Neurone de la couche compétitive qui n’a jamais gagné une compétition pendant l’apprentissage et n’est donc pas devenu un détecteur de caractéristiques utile. Les neurones morts ne répondent à aucun des vecteurs d’apprentissage.
frontière de décision: Ligne déterminée par les vecteurs de poids et biais pour laquelle l’entrée nette n est zéro.
règle delta: Consultez règle d’apprentissage de Widrow-Hoff.
vecteur delta: Le vecteur delta pour une couche est la dérivée de l'erreur de sortie d’un réseau par rapport au vecteur d’entrée nette de ce réseau.
distance: Distance entre des neurones, calculée à partir de leurs positions avec une fonction distance.
fonction distance: Une manière particulière de calculer la distance, telle que la distance euclidienne entre deux vecteurs.
arrêt précoce: Technique basée sur la division des données en trois sous-ensembles. Le premier sous-ensemble est l’ensemble d’apprentissage, utilisé pour calculer le gradient et mettre à jour les poids et les biais du réseau. Le deuxième sous-ensemble est l’ensemble de validation. Lorsque l’erreur de validation augmente pour un nombre d’itérations spécifié, l'apprentissage est arrêté et les poids et biais correspond au minimum d'erreur de validation sont renvoyés. Le troisième sous-ensemble est l’ensemble de test. Il permet de vérifier le design du réseau.
epoch: Processus comprenant la présentation de l’ensemble des vecteurs (entrée et/ou cible) d’apprentissage à un réseau et le calcul des nouveaux poids et biais. Notez que les vecteurs d’apprentissage peuvent être présentés un par un ou tous ensemble en batch.
erreur de saut: Augmentation soudaine de la somme des erreurs au carré (SSE, Sum Squared Error) d’un réseau pendant l’apprentissage. Elle est souvent due à un taux d’apprentissage trop élevé.
taux d'erreur: Paramètre d’apprentissage utilisé avec les paramètres de taux d’apprentissage adaptatif et de momentum dans les réseaux de rétropropagation.
vecteur d'erreur: Différence entre le vecteur de sortie d’un réseau en réponse à un vecteur d’entrée et un vecteur de sortie cible associé.
réseau feedback: Réseau avec des connexions allant de la sortie d’une couche à son entrée. La connexion feedback peut être directe ou passer par plusieurs couches.
réseau feedforward: Réseau en couches dans lequel chaque couche reçoit uniquement des entrées des couches précédentes.
Méthode de Fletcher-Reeves: Méthode de calcul d’un ensemble de directions conjuguées. Ces directions servent de directions de recherche dans le cadre de la procédure d’optimisation du gradient conjugué.
approximation de fonction: Tâche réalisée par un réseau entraîné à répondre aux entrées avec une approximation d’une fonction souhaitée.
généralisation: Attribut d’un réseau dont la sortie pour un nouveau vecteur d’entrée a tendance à être proche des sorties pour des vecteurs d’entrée similaires dans son ensemble d’apprentissage.
réseau de régression généralisée: Estime une fonction continue avec une précision arbitraire à partir d'un nombre suffisant de neurones cachés.
minimum global: Valeur la plus basse d’une fonction sur l’ensemble de la plage de ses paramètres d’entrée. Les méthodes de descente en gradient ajustent les poids et les biais afin de trouver le minimum global de l'erreur pour un réseau.
recherche du nombre d'or: Recherche linéaire ne nécessitant pas le calcul de la pente. L’intervalle contenant le minimum des performances est subdivisé à chaque itération de la recherche et une des subdivisions est éliminée à chaque itération.
Descente de gradient: Processus qui consiste à apporter des modifications aux poids et aux biais ; ces modifications sont proportionnelles aux dérivées de l’erreur réseau par rapport à ces poids et biais. Cela permet de réduire l’erreur réseau.
fonction de transfert à seuil: Fonction de transfert qui mappe les entrées supérieures ou égales à 0 à 1 et toutes les autres valeurs à 0.
Règle d’apprentissage de Hebb: Historiquement la première règle d’apprentissage proposée pour les neurones. Les poids sont ajustés proportionnellement au produit des sorties des neurones avant et après pondération.
couche cachée: Couche d’un réseau qui n’est pas connectée à la sortie du réseau (par exemple la première couche d’un réseau feedforward à deux couches).
neurone central: Neurone au centre d’un voisinage.
recherche hybride bissection-cubique: Recherche linéaire associant l’interpolation cubique à la bissection.
initialisation: Processus consistant à réinitialiser les valeurs des poids et des biais d’origine du réseau.
couche d’entrée: Couche de neurones recevant des entrées directement depuis l’extérieur du réseau.
espace d’entrée: Plage de l’ensemble des vecteurs d’entrée possibles.
vecteur d’entrée: Vecteur présenté à l'entrée du réseau.
vecteur de poids d’entrée: Vecteur ligne des poids allant à un neurone.
poids d’entrée: Pondérations reliant les entrées du réseau aux couches.
Matrice jacobienne: Contient les dérivées premières de la fonction d'erreur du réseau par rapport aux poids et aux biais.
Règle d’apprentissage de Kohonen: Règle d’apprentissage qui entraîne les vecteurs de poids d’un neurone donné à adopter les valeurs du vecteur d’entrée actuel.
couche: Groupe de neurones avec des connexions vers les mêmes entrées et envoyant des sorties vers les mêmes destinations.
Diagramme des couches: Figure qui présente l’architecture du réseau avec les couches et les matrices de poids qui les connectent. La fonction de transfert de chaque couche est indiquée par un symbole. Les tailles des matrices de poids, de biais, d’entrée et de sortie sont affichées. Les neurones individuels et leurs connexions ne sont pas représentés.
poids des couches: Poids qui relient les couches entre elles. Ces poids doivent avoir des retards non nuls s'ils forment une connexion récurrente (une boucle).
apprentissage: Processus selon lequel les poids et les biais sont ajustés afin d’obtenir un comportement souhaité du réseau.
taux d’apprentissage: Paramètre d’apprentissage qui contrôle l'amplitude de modifications des biais et des poids pendant l’apprentissage.
règle d’apprentissage: Méthode de dérivation des modifications suivantes qui pourraient être apportées à un réseau ou une procédure pour modifier les poids et les biais d’un réseau.
Levenberg-Marquardt: Algorithme qui entraîne un réseau de neurones 10 à 100 fois plus vite que la méthode habituelle de la descente de gradient en rétropropagation. Il calcule toujours la matrice hessienne approximative, dont les dimensions sont de n par n.
fonction de recherche de ligne: Procédure de recherche le long d’une direction (ligne) donnée afin de repérer le minimum de performances du réseau.
fonction de transfert linéaire: Une fonction de transfert qui produit son entrée comme sa sortie.
distance en liaisons: Nombre de liaisons, ou étapes, à réaliser pour aller jusqu'au neurone considéré.
minimum local: Minimum d’une fonction sur une plage limitée de valeurs d’entrée. Un minimum local n’est pas nécessairement le minimum global.
fonction de transfert log-sigmoïde: Fonction d'activation de la forme illustrée ci-dessous qui mappe l’entrée sur l’intervalle (0,1). (La fonction de la toolbox est logsig.)
$f (n) = \frac{1}{1 + e^{- n}}$
Distance de Manhattan: La distance de Manhattan entre deux vecteurs x et y est calculée de la manière suivante
D = sum(abs(x-y))
augmentation maximale des performances: Augmentation maximale admissible des performances en une itération de l’algorithme d’apprentissage à taux variable.
taille maximale des étapes: Taille maximale des étapes admissible pendant une recherche linéaire. L’amplitude du vecteur de poids ne peut pas augmenter de plus que cette taille d'étape maximale en une itération de l’algorithme d’apprentissage.
fonction d’erreur quadratique moyenne: Fonction qui calcule l’erreur quadratique moyenne entre les sorties du réseau a et les sorties de la cible t.
momentum: Technique souvent utilisée pour réduire la probabilité qu’un réseau de rétropropagation soit pris dans un minimum peu profond.
constante de momentum: Paramètre d’apprentissage qui contrôle la façon dont la variable momentum est utilisée.
paramètre mu: Valeur initiale pour le µ scalaire.
voisinage: Groupe de neurones à une distance définie par rapport à un neurone donné. Le voisinage est spécifié par les indices des neurones qui se trouvent sur un rayon d autour du neurone gagnant i* :
Ni(d) = {j,d_ij ≤ d}
vecteur d’entrée nette: Combinaison, sur une couche, de tous les vecteurs d’entrée pondérés de la couche avec son biais.
neurone: Élément de traitement de base d’un réseau de neurones. Il comprend les poids et biais, une jonction de sommation et une fonction de transfert de sortie. Les neurones artificiels, tels que ceux qui sont simulés et entraînés avec cette toolbox, sont des abstractions de neurones biologiques.
diagramme des neurones: Figure qui présente l’architecture du réseau avec les neurones et les pondérations qui les connectent. La fonction de transfert de chaque neurone est indiquée par un symbole.
phase de tri: Période de l’apprentissage pendant laquelle les poids des neurones sont supposés se classer dans l’espace d’entrée selon les positions des neurones associés.
couche de sortie: Couche dont la sortie est transmise au monde en dehors du réseau.
vecteur de sortie: Sortie d’un réseau de neurones. Chaque élément du vecteur de sortie est la sortie d’un neurone.
vecteur des poids de sortie: Vecteur colonne des poids provenant d’un neurone ou d’une entrée. (Consultez également règle d’apprentissage outstar.)
règle d’apprentissage outstar: Règle d’apprentissage qui entraîne un vecteur de poids de sortie (ou d’entrée) d’un neurone donné à adopter les valeurs du vecteur de sortie actuel de la couche après pondération. Les modifications des poids sont proportionnelles à la sortie du neurone.
surajustement (overfitting): Cas dans lequel l’erreur sur l’ensemble d’apprentissage est réduite à une très faible valeur, mais lorsque de nouvelles données sont présentées au réseau, l’erreur est importante.
passage: Traversée de l'ensemble du réseau utilisant l'ensemble des vecteurs d’entrée et cible d'un apprentissage.
pattern (forme): Un vecteur.
association de patterns (formes): Tâche réalisée par un réseau entraîné à répondre à chaque vecteur d’entrée présenté avec le bon vecteur de sortie.
reconnaissance de formes: Tâche réalisée par un réseau entraîné qui permet d'obtenir une réponse lors de la présentation d’un vecteur d’entrée proche d’un vecteur appris. Le réseau « reconnaît » l’entrée comme l’un des vecteurs cible d’origine.
perceptron: Réseau à couche unique avec une fonction de transfert à seuil. Ce réseau est souvent entraîné avec la règle d’apprentissage du perceptron.
règle d’apprentissage du perceptron: Règle d’apprentissage pour les réseaux à seuil à couche unique. Elle offre une garantie de fonctionnement parfait du réseau en un temps limité, à condition que le réseau le permette.
performance: Comportement d’un réseau.
fonction de performance: Généralement l’erreur quadratique moyenne des sorties du réseau. Toutefois, la toolbox tient également compte d’autres fonctions de performance. Saisissez help nnperformance pour afficher une liste de fonctions de performance.
Méthode de Polak-Ribière: Méthode de calcul d’un ensemble de directions conjuguées. Ces directions servent de directions de recherche dans le cadre de la procédure d’optimisation du gradient conjugué.
fonction de transfert linéaire positive: Fonction de transfert qui produit une sortie de zéro pour les entrées négatives et une sortie égale à l’entrée pour les entrées positives.
post-traitement: Convertit de nouveau les sorties normalisées dans les unités utilisées pour les cibles d’origine.
Redémarrages Powell-Beale: Méthode de calcul d’un ensemble de directions conjuguées. Ces directions servent de directions de recherche dans le cadre de la procédure d’optimisation du gradient conjugué. Cette procédure réinitialise également régulièrement la direction de recherche sur la valeur négative du gradient.
prétraitement: Transformation des données d’entrée ou cible avant leur présentation au réseau de neurones.
analyse en composantes principales: Orthogonaliser les composantes des vecteurs d’entrée du réseau. Cette procédure permet également de réduire la dimension des vecteurs d’entrée en éliminant les composantes redondantes.
algorithme quasi-Newton: Catégorie d’algorithme d’optimisation basée sur de la méthode de Newton. Une matrice hessienne approximative est calculée à partir des gradients à chaque itération de l’algorithme.
réseau radial de base: Réseau de neurone qui peut être conçus directement en plaçant les éléments de réponses spéciales là où ils seront le plus efficaces.
fonction de transfert à base radiale: La fonction de transfert pour un neurone à base radiale est
$r a d b a s (n) = e^{- n^{2}}$
régularisation: Modification de la fonction de performance, qui est normalement choisie pour être la somme des carrés des erreurs du réseau sur le jeu d’apprentissage, en ajoutant une fraction des carrés des poids du réseau.
rétropropagation résiliente: Algorithme d’apprentissage qui élimine l’effet nuisible d’une pente faible aux extrémités des fonctions de transfert d'activation sigmoïde.
fonction de transfert linéaire de saturation: Fonction qui est linéaire sur l’intervalle (-1,+1) et sature en dehors de cet intervalle à -1 ou +1. (La fonction de la toolbox est satlin.)
algorithme du gradient conjugué à l’échelle: Évite la recherche linéaire fastidieuse de l’algorithme du gradient conjugué standard.
vecteurs d’entrée séquentiels: Ensemble de vecteurs à présenter l'un après l'autre à un réseau. Les poids et les biais du réseau sont ajustés à la présentation de chaque vecteur d’entrée.
paramètre sigma: Détermine le changement de pondération pour le calcul de la matrice hessienne approximative dans l’algorithme du gradient conjugué à l’échelle.
sigmoïde: Fonction en S monotonique qui mappe les nombres dans l’intervalle (-∞,∞) sur un intervalle fini tel que (-1,+1) ou (0,1).
simulation: Prend l’entrée réseau p et l’objet réseau net, et renvoie les sorties réseau a.
constante de diffusion: Distance à laquelle un vecteur d’entrée doit être du vecteur de poids d’un neurone pour produire une sortie de 0,5.
fonction d'activation: Fonction à augmentation monotonique qui prend des valeurs d’entrée entre -∞ et +∞ et renvoie des valeurs dans un intervalle fini.
règle d’apprentissage star: Règle d’apprentissage qui entraîne le vecteur de poids d’un neurone à adopter les valeurs du vecteur d’entrée actuel. Les modifications des poids sont proportionnelles à la sortie du neurone.
somme des erreurs au carré: Somme des différences au carré entre les cibles du réseau et les sorties réelles pour un vecteur d’entrée donné ou un ensemble de vecteurs.
apprentissage supervisé: Processus d’apprentissage dans lequel les modifications des biais et poids d’un réseau sont dues à l’intervention de tout enseignant externe. L’enseignant propose généralement des cibles de sortie.
fonction de transfert à seuil symétrique: Transfert qui mappe les entrées supérieures ou égales à 0 sur +1 et toutes les autres valeurs sur -1.
fonction de transfert linéaire à saturation symétrique: Produit l’entrée comme sa sortie tant que l’entrée est sur une plage comprise entre -1 et 1. En dehors de cette plage, la sortie est respectivement de -1 et +1.
fonction de transfert tan-sigmoïde: Fonction d'activation de la forme illustrée ci-dessous qui mappe l’entrée sur l’intervalle (-1,1). (La fonction de la toolbox est tansig.)
$f (n) = \frac{1}{1 + e^{- n}}$
ligne de retard (TDL): Ensemble séquentiel de retards avec des sorties disponibles à chaque sortie de retard.
vecteur cible: Vecteur de sortie souhaité pour un vecteur d’entrée donné.
vecteurs de test: Ensemble de vecteurs d’entrée (pas utilisé directement dans l’apprentissage) utilisé pour tester le réseau entraîné.
fonctions de topologie: Manières d’organiser les neurones dans une topologie de grille, de boîte, hexagonale ou aléatoire.
apprentissage: Procédure selon laquelle un réseau est ajusté pour réaliser une tâche particulière. Généralement considérée comme une tâche hors ligne, par opposition à un ajustement réalisé pendant chaque intervalle de temps, comme dans l'apprentissage adaptatif.
vecteur d’apprentissage: Vecteur d’entrée et/ou cible utilisé pour entraîner un réseau.
fonction de transfert: Fonction qui mappe la sortie nette d’un neurone (ou d’une couche) n sur sa sortie réelle.
phase d’ajustement: Période de l’apprentissage SOFM pendant laquelle les poids sont supposés se répartir de manière assez homogène sur l’espace d’entrée tout en conservant leur ordre topologique indiqué pendant la phase de tri.
système sous-déterminé: Système qui a plus de variables que de contraintes.
apprentissage non supervisé: Processus d’apprentissage dans lequel les modifications des biais et des poids d’un réseau ne sont pas dues à l’intervention d'un enseignant externe. Généralement, les modifications dépendent des vecteurs d’entrée et de sortie actuels du réseau et des poids et biais précédents.
mettre à jour: Apporter une modification aux poids et aux biais. La mise à jour peut être réalisée après la présentation d’un vecteur d’entrée unique ou après l’accumulation de modifications sur plusieurs vecteurs d’entrée.
vecteurs de validation: Ensemble de vecteurs d’entrée (pas utilisé directement dans l’apprentissage) employé pour suivre la progression de l’apprentissage et empêcher un surajustement du réseau.
fonction de pondération: Les fonctions de pondération appliquent des poids à une entrée afin d’obtenir des entrées pondérées, comme indiqué par une fonction donnée.
matrice de poids: Matrice contenant les forces de connexion des entrées d’une couche à ses neurones. L’élément w_i,jd’une matrice de poids W désigne la force de la connexion de l’entrée j au neurone i.
vecteur d’entrée pondéré: Résultat de l’application d’un poids à l’entrée d’une couche, qu’il s’agisse d’une entrée du réseau ou de la sortie d’une autre couche.
Règle d’apprentissage de Widrow-Hoff: Règle d’apprentissage permettant d’entraîner des réseaux linéaires à couche unique. Cette règle précède la règle de rétropropagation. Elle est parfois nommée règle delta.