Method Article
Des algorithmes d’apprentissage automatique ont été entraînés à utiliser des modèles d’activité cérébrale pour « décoder » les stimuli présentés aux humains. Ici, nous démontrons que la même technique peut décoder du contenu vidéo naturaliste à partir du cerveau de deux chiens domestiques. Nous constatons que les décodeurs basés sur les actions dans les vidéos ont été efficaces chez les chiens.
Les progrès récents utilisant l’apprentissage automatique et l’imagerie par résonance magnétique fonctionnelle (IRMf) pour décoder les stimuli visuels du cortex humain et non humain ont permis de mieux comprendre la nature de la perception. Cependant, cette approche n’a pas encore été appliquée de manière substantielle à d’autres animaux que les primates, ce qui soulève des questions sur la nature de ces représentations dans le règne animal. Ici, nous avons utilisé l’IRMf éveillée chez deux chiens domestiques et deux humains, obtenue pendant que chacun regardait des vidéos naturalistes spécialement créées pour les chiens. Nous avons ensuite entraîné un réseau neuronal (Ivis) à classer le contenu vidéo à partir d’un total de 90 minutes d’activité cérébrale enregistrée de chacun. Nous avons testé à la fois un classificateur basé sur les objets, qui tente de discriminer des catégories telles que chien, humain et voiture, et un classificateur basé sur l’action, qui tente de discriminer des catégories telles que manger, renifler et parler. Par rapport aux deux sujets humains, pour lesquels les deux types de classificateurs ont fonctionné bien au-dessus du hasard, seuls les classificateurs basés sur l’action ont réussi à décoder le contenu vidéo des chiens. Ces résultats démontrent la première application connue de l’apprentissage automatique pour décoder des vidéos naturalistes du cerveau d’un carnivore et suggèrent que la vision du monde à vue d’un chien peut être très différente de la nôtre.
Le cerveau des humains, comme celui d’autres primates, démontre la fragmentation du flux visuel en voies dorsales et ventrales avec des fonctions distinctes et bien connues - le « quoi » et le « où » des objets1. Cette dichotomie quoi/où a été une heuristique utile pendant des décennies, mais sa base anatomique est maintenant connue pour être beaucoup plus complexe, de nombreux chercheurs privilégiant une parcellation basée sur la reconnaissance plutôt que l’action (« quoi » vs « comment »)2,3,4,5. De plus, alors que notre compréhension de l’organisation du système visuel des primates continue d’être affinée et débattue, beaucoup de choses restent inconnues sur la façon dont le cerveau d’autres espèces de mammifères représente l’information visuelle. Cette lacune est en partie le résultat de l’accent historique mis sur une poignée d’espèces dans les neurosciences visuelles. Cependant, de nouvelles approches de l’imagerie cérébrale ouvrent la possibilité d’étudier de manière non invasive les systèmes visuels d’un plus large éventail d’animaux, ce qui pourrait fournir de nouvelles connaissances sur l’organisation du système nerveux des mammifères.
Les chiens (Canis lupus familiaris) offrent une riche opportunité d’étudier la représentation des stimuli visuels chez une espèce éloignée des primates sur le plan de l’évolution, car ils peuvent être le seul animal qui peut être entraîné à participer en coopération à l’IRM sans avoir besoin de sédation ou de contention 6,7,8. En raison de leur coévolution avec les humains au cours des 15 000 dernières années, les chiens habitent également nos environnements et sont exposés à de nombreux stimuli auxquels les humains sont confrontés quotidiennement, y compris les écrans vidéo, qui sont la façon préférée de présenter les stimuli dans un scanner IRM. Même ainsi, les chiens peuvent traiter ces stimuli environnementaux communs d’une manière très différente de celle des humains, ce qui soulève la question de l’organisation de leur cortex visuel. Des différences fondamentales, telles que l’absence de fovéa ou le fait d’être dichromate, peuvent avoir des conséquences importantes en aval non seulement pour la perception visuelle de bas niveau, mais aussi pour la représentation visuelle de haut niveau. Plusieurs études d’IRMf chez le chien ont démontré l’existence de régions de traitement du visage et de l’objet qui semblent suivre l’architecture générale du flux dorsal/ventral observée chez les primates, bien qu’il ne soit pas clair si les chiens ont des régions de traitement du visage en soi ou si ces régions sont sélectives pour la morphologie de la tête (par exemple, chien vs humain)9. 10,11,12,13. Quoi qu’il en soit, le cerveau d’un chien, étant plus petit que celui de la plupart des primates, serait moins modulaire14, de sorte qu’il pourrait y avoir plus de mélange de types d’informations dans les flux ou même privilégier certains types d’informations, comme les actions. Il a été suggéré, par exemple, que le mouvement pourrait être une caractéristique plus saillante dans la perception visuelle canine que la texture ou la couleur15. De plus, comme les chiens n’ont pas de mains, l’un des principaux moyens par lesquels nous interagissons avec le monde, leur traitement visuel, en particulier des objets, peut être très différent de celui des primates. Dans le même ordre d’idées, nous avons récemment trouvé des preuves que l’interaction avec les objets par la bouche par rapport à la patte entraînait une plus grande activation dans les régions sélectives d’objets dans le cerveau du chien16.
Bien que les chiens soient habitués aux écrans vidéo dans leur environnement domestique, cela ne signifie pas qu’ils sont habitués à regarder des images dans un cadre expérimental de la même manière qu’un humain. L’utilisation de stimuli plus naturalistes peut aider à résoudre certaines de ces questions. Au cours de la dernière décennie, les algorithmes d’apprentissage automatique ont connu un succès considérable dans le décodage des stimuli visuels naturalistes de l’activité cérébrale humaine. Les premiers succès se sont concentrés sur l’adaptation de modèles classiques et bloqués pour utiliser l’activité cérébrale à la fois pour classer les types de stimuli qu’un individu voyait, ainsi que les réseaux cérébraux qui encodaient ces représentations 17,18,19. Au fur et à mesure que des algorithmes plus puissants ont été développés, en particulier des réseaux neuronaux, des stimuli plus complexes ont pu être décodés, y compris des vidéos naturalistes20,21. Ces classificateurs, qui sont généralement entraînés sur les réponses neuronales à ces vidéos, se généralisent à de nouveaux stimuli, ce qui leur permet d’identifier ce qu’un sujet particulier observait au moment de la réponse IRMf. Par exemple, certains types d’actions dans les films peuvent être décodés avec précision à partir du cerveau humain, comme sauter et tourner, tandis que d’autres (par exemple, glisser) ne le peuvent pas. De même, bien que de nombreux types d’objets puissent être décodés à partir des réponses IRMf, les catégories générales semblent plus difficiles. Le décodage cérébral ne se limite pas aux humains, fournissant un outil puissant pour comprendre comment l’information est organisée dans le cerveau d’autres espèces. Des expériences analogues d’IRMf avec des primates non humains ont trouvé des représentations distinctes dans le lobe temporal pour les dimensions de l’animation et de la facicité/corps, ce qui est parallèle à celui des humains23.
Comme première étape vers la compréhension des représentations des stimuli visuels naturalistes par les chiens, l’IRMf éveillée a été utilisée chez deux chiens domestiques très adeptes de l’IRM pour mesurer les réponses corticales à des vidéos adaptées aux chiens. Dans cette étude, des vidéos naturalistes ont été utilisées en raison de leur validité écologique potentiellement plus grande pour un chien et en raison de leur succès démontré avec des réseaux neuronaux qui associent le contenu vidéo au mouvement du chien24. Au cours de trois séances distinctes, 90 minutes de données d’IRMf ont été obtenues à partir des réponses de chaque chien à 256 clips vidéo uniques. À titre de comparaison, la même procédure a été réalisée sur deux volontaires humains. Ensuite, à l’aide d’un réseau neuronal, nous avons entraîné et testé des classificateurs pour discriminer soit des « objets » (par exemple, un humain, un chien, une voiture), soit des « actions » (par exemple, parler, manger, renifler) en utilisant un nombre variable de classes. Les objectifs de cette étude étaient doubles : 1) déterminer si les stimuli vidéo naturalistes pouvaient être décodés à partir du cortex du chien ; et 2) si c’est le cas, fournir un premier aperçu pour savoir si l’organisation était similaire à celle des humains.
L’étude sur les chiens a été approuvée par l’IACUC de l’Université Emory (PROTO201700572), et tous les propriétaires ont donné leur consentement écrit pour la participation de leur chien à l’étude. Les procédures d’étude sur l’homme ont été approuvées par l’IRB de l’Université Emory, et tous les participants ont fourni un consentement écrit avant le balayage (IRB00069592).
1. Les participants
2. Les stimuli
3. Conception expérimentale
4. Imagerie
5. Étiquettes de relance
6. Prétraitement de l’IRMf
7. Analyses
Les mesures les plus courantes pour évaluer les performances d’un modèle dans les analyses de machine learning sont la précision, l’exactitude, la mémorisation et le score F1. La précision est le pourcentage global de prédictions du modèle qui sont correctes, compte tenu des données réelles. La précision est le pourcentage de prédictions positives du modèle qui sont réellement positives (c’est-à-dire le taux de vrais positifs), tandis que le rappel est le pourcentage de vrais positifs dans les données d’origine que le modèle est capable de prédire avec succès. Le score F1 est la moyenne pondérée de la précision et de la mémorisation et agit comme une mesure alternative de la précision qui est plus robuste au déséquilibre de classe. Cependant, l’Ivis diffère des autres algorithmes d’apprentissage automatique couramment utilisés en ce que sa sortie n’est pas binaire. Étant donné une entrée particulière de voxels cérébraux, chaque élément de sortie représente les probabilités correspondant à chacune des classes. L’exactitude de calcul, la précision, le rappel et la valeur F1 de ces sorties nécessitait de les binariser de manière à ce que le gagnant rafle tout, où la classe avec la probabilité la plus élevée était considérée comme celle prédite pour ce volume. Cette approche a éliminé des renseignements importants sur le classement de ces probabilités qui étaient pertinents pour évaluer la qualité du modèle. Ainsi, bien que nous ayons continué à calculer ces métriques traditionnelles, nous avons utilisé le score LRAP (Label Ranking Average Precision) comme métrique principale pour calculer la précision du modèle sur l’ensemble de test. Cette mesure mesure essentiellement dans quelle mesure le classificateur a attribué des probabilités plus élevées aux vraies étiquettes37.
À des degrés divers, le classificateur de réseaux neuronaux a été couronné de succès tant pour les humains que pour les chiens. Pour les humains, l’algorithme a été capable de classer à la fois les objets et les actions, avec des modèles à trois classes pour les deux atteignant une précision moyenne de 70 %. Le score LRAP a été utilisé comme mesure principale pour calculer la précision du modèle sur l’ensemble de test ; Cette mesure mesure la mesure dans laquelle le classificateur a attribué des probabilités plus élevées aux vraies étiquettes37. Pour les deux humains, les scores médians du LRAP étaient supérieurs au 99e centile d’un ensemble d’étiquettes permutées au hasard pour tous les modèles testés (tableau 1 ; Figure 2). Pour les chiens, seul le modèle d’action avait un rang centile médian du LRAP significativement supérieur au hasard chez les deux participants (tableau 1 ; p = 0,13 pour les objets et p < 0,001 pour les actions ; score moyen LRAP du modèle d’action à trois classes pour les chiens = 78e centile). Ces résultats étaient vrais pour tous les sujets individuellement, ainsi que lorsqu’ils étaient regroupés par espèce.
Compte tenu du succès du classifieur, nous nous sommes entraînés et testés avec des classes supplémentaires pour déterminer les limites du modèle. Cela comprenait le calcul de matrices de dissimilitude pour l’ensemble des 52 classes potentielles d’intérêt à l’aide de l’algorithme de clustering hiérarchique du package Python scipy, qui regroupait les classes en fonction de la similitude de la réponse cérébrale d’un individu à chacune, telle que définie par corrélation par paire. Parmi les autres modèles testés, le modèle avec le classement médian le plus élevé du percentile LRAP chez les deux chiens comportait cinq classes : les classes originales « parler », « manger » et « renifler », ainsi que deux nouvelles classes, « caresser » et « jouer » (figure 2). Ce modèle avait un rang centile médian du PALT significativement supérieur à celui prédit par hasard pour tous les participants (tableau 1 ; p < 0,001 pour les chiens et les humains ; score LRAP moyen du modèle d’action à cinq classes pour les chiens = 81e centile).
Lorsqu’ils ont été rétrocartographiés à leurs atlas cérébraux respectifs, les scores d’importance des caractéristiques des voxels ont révélé un certain nombre de groupes de voxels informatifs dans les cortex occipital, pariétal et temporal des chiens et des humains (Figure 3). Chez l’homme, les modèles basés sur les objets et basés sur l’action ont révélé un motif plus focal que chez les chiens et dans les régions généralement associées à la reconnaissance des objets, bien qu’avec de légères différences dans la localisation spatiale des voxels basés sur les objets et des voxels basés sur l’action.
Nous avons vérifié que ces différences d’espèces n’étaient pas le résultat du mouvement corrélé à la tâche des chiens se déplaçant davantage vers certains types de vidéos que d’autres (par exemple, des vidéos autres que des chiens, par exemple, des voitures). Nous avons calculé la norme euclidienne des six paramètres de mouvement et ajusté un modèle linéaire à effets mixtes à l’aide du package R lme4, avec la classe comme effet fixe et le nombre de course comme effet aléatoire pour chaque chien. Pour chacun des modèles finaux, nous n’avons trouvé aucun effet significatif du type de classe sur le mouvement pour Daisy (F(2, 2252) = 0,83, p = 0,44 pour l’action et F(4, 1235) = 1,87, p = 0,11 pour l’action) ou Bhubo (F(2, 2231) = 1,71, p = 0,18 pour l’action et F(4, 1221) = 0,94, p = 0,45 pour l’action).
Figure 1 : Vidéos naturalistes et présentation en IRM. (A) Exemples d’images de clips vidéo montrés aux participants. (B) Bhubo, un Boxer-mix de 4 ans, regardant des vidéos tout en subissant une IRMf éveillée. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 2 : Performance du modèle chez le chien et l’homme. La distribution des scores LRAP, présentés sous forme de classements centiles de leurs distributions nulles, sur 100 itérations d’entraînement et de test de l’algorithme d’apprentissage automatique Ivis pour un modèle basé sur l’objet à trois classes, un modèle basé sur l’action à trois classes et un modèle basé sur l’action à cinq classes, où les modèles ont tenté de classer les réponses BOLD à des stimuli vidéo naturalistes obtenus via IRMf éveillée chez le chien et l’homme. Les scores sont agrégés par espèce. Un score LRAP avec un classement centile très élevé indique qu’il est très peu probable que le modèle atteigne ce score LRAP par hasard. Un modèle dont les performances ne sont pas meilleures que celles du hasard aurait un classement centile médian du score LRAP de ~50. Les lignes pointillées représentent le classement centile médian du score du PALL pour chaque espèce sur les 100 passages. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 3 : Régions importantes pour la discrimination des modèles d’action à trois classes et à cinq classes. (A) Participants humains et (B) chiens. Les voxels ont été classés en fonction de leur importance de caractéristique à l’aide d’un classificateur de forêt aléatoire, moyenné sur toutes les itérations des modèles. Les 5 % supérieurs des voxels (c’est-à-dire ceux utilisés pour entraîner les modèles) sont présentés ici, agrégés par espèces et transformés en espace de groupe à des fins de visualisation (atlas : humains34 et chiens35). Les étiquettes montrent des régions du cerveau du chien avec des scores d’importance de caractéristique élevés, basés sur ceux identifiés par Johnson et al.35. Abréviation : SSM = gyrus suprasylvien. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Type de modèle | Précision de l’entraînement | Précision des tests | F1 Score | Précision | Rappeler | Percentile médian du score LRAP | |
Humain 1 | Objet (3 classes) | 0.98 | 0.69 | 0.48 | 0.52 | 0.49 | >99 |
Action (3 classes) | 0.98 | 0.72 | 0.51 | 0.54 | 0.54 | >99 | |
Action (5 classes) | 0.97 | 0.51 | 0.28 | 0.37 | 0.27 | >99 | |
Humain 2 | Objet (3 classes) | 0.98 | 0.68 | 0.45 | 0.5 | 0.47 | >99 |
Action (3 classes) | 0.98 | 0.69 | 0.46 | 0.5 | 0.48 | >99 | |
Action (5 classes) | 0.97 | 0.53 | 0.3 | 0.4 | 0.27 | >99 | |
Bhubo | Objet (3 classes) | 0.99 | 0.61 | 0.38 | 0.41 | 0.39 | 57 |
Action (3 classes) | 0.98 | 0.63 | 0.38 | 0.4 | 0.4 | 87 | |
Action (5 classes) | 0.99 | 0.45 | 0.16 | 0.29 | 0.13 | 88 | |
Pâquerette | Objet (3 classes) | 1 | 0.61 | 0.38 | 0.43 | 0.39 | 43 |
Action (3 classes) | 0.97 | 0.62 | 0.35 | 0.38 | 0.35 | 60 | |
Action (5 classes) | 0.99 | 0.44 | 0.16 | 0.27 | 0.13 | 76 |
Tableau 1 : Métriques agrégées de l’algorithme d’apprentissage automatique Ivis sur 100 itérations d’entraînement et de tests sur les réponses BOLD à des stimuli vidéo naturalistes obtenus via l’IRMf éveillée chez les chiens et les humains. Les modèles d’objets avaient trois classes cibles (« chien », « humain », « voiture »), et les modèles d’action avaient trois ou cinq classes (trois classes : « parler », « manger », « renifler » ; cinq classes : « parler », « manger », « renifler », « caresser », « jouer »). Les valeurs nettement supérieures au hasard sont indiquées en gras.
Tableau supplémentaire 1 : Étiquettes de classe. Veuillez cliquer ici pour télécharger ce fichier.
Vidéo supplémentaire 1 : Exemple de clip vidéo. Veuillez cliquer ici pour télécharger ce fichier.
Les résultats de cette étude démontrent que les vidéos naturalistes induisent des représentations dans le cerveau des chiens qui sont suffisamment stables au cours de plusieurs séances d’imagerie pour pouvoir être décodées avec l’IRMf similaires aux résultats obtenus chez les humains et les singes20,23. Alors que des études antérieures d’IRMf du système visuel canin ont présenté des stimuli dépouillés, tels qu’un visage ou un objet sur un fond neutre, les résultats démontrent ici que les vidéos naturalistes, avec plusieurs personnes et objets interagissant les uns avec les autres, induisent des modèles d’activation dans le cortex canin qui peuvent être décodés avec une fiabilité approchant celle observée dans le cortex humain. Cette approche ouvre de nouvelles pistes d’investigation sur l’organisation du système visuel du chien.
Bien que le domaine de l’IRMf canine se soit rapidement développé, à ce jour, ces expériences se sont appuyées sur des stimuli relativement pauvres, tels que des images de personnes ou d’objets sur des fonds neutres 10,12,13. De plus, bien que ces expériences aient commencé à identifier des régions cérébrales analogues à la surface du visage fusiforme des primates (FFA), impliquée dans le traitement du visage, et au cortex occipital latéral (LOC), pour le traitement des objets, il reste un désaccord sur la nature de ces représentations, par exemple si les chiens ont des zones faciales en soi répondant à des caractéristiques saillantes similaires à celles des primates ou s’ils ont des représentations distinctes pour les chiens et les humains ou les visages et les têtes. par exemple 9,13. Les chiens, bien sûr, ne sont pas des primates, et nous ne savons pas comment ils interprètent ces stimuli artificiels séparés de leurs contextes multisensoriels habituels avec des sons et des odeurs. Certaines preuves suggèrent que les chiens ne traitent pas les images d’objets comme des représentations de choses réelles12. Bien qu’il ne soit pas possible de créer une véritable expérience multisensorielle dans le scanner, l’utilisation de vidéos naturalistes peut atténuer une partie de l’artificialité en fournissant des stimuli dynamiques qui correspondent plus étroitement au monde réel, du moins à un chien. Pour les mêmes raisons, l’utilisation de stimuli naturalistes dans la recherche sur l’IRMf humaine a gagné en popularité, démontrant, par exemple, que des séquences d’événements dans un film sont représentées dans le cortex sur plusieurs échelles de temps et que les films sont efficaces pour induire une activation émotionnelle fiable38. En tant que tel, alors que les vidéos naturalistes restent des stimuli relativement pauvres, leur succès en neurosciences humaines soulève la question de savoir si des résultats similaires peuvent être obtenus chez les chiens.
Nos résultats montrent qu’un classificateur de réseau neuronal a réussi à décoder certains types de contenu naturaliste à partir de cerveaux de chiens. Ce succès est un exploit impressionnant compte tenu de la complexité des stimuli. Il est important de noter que, comme le classificateur a été testé sur des clips vidéo invisibles, le modèle de décodage a détecté de grandes catégories identifiables à travers les clips plutôt que des propriétés spécifiques à des scènes individuelles. Il convient de noter qu’il existe plusieurs mesures permettant de quantifier les performances d’un classificateur d’apprentissage automatique (tableau 1). Comme les vidéos naturalistes, de par leur nature, n’auront pas les mêmes occurrences de toutes les classes, nous avons adopté une approche prudente en construisant une distribution nulle à partir de la permutation aléatoire d’étiquettes et en évaluant la signification référencée à celle-ci. Ensuite, nous avons constaté que le succès des modèles de chiens était statistiquement significatif, atteignant des scores de 75e à 90e centile, mais seulement lorsque les vidéos étaient codées en fonction des actions présentes, telles que jouer ou parler.
Les séries de tests, contrairement aux séries d’entraînement, n’étaient pas équilibrées entre les classes. Ne représentant que 20 % des données, le sous-échantillonnage pour la plus petite taille de classe aurait donné lieu à des échantillons de très petite taille pour chaque classe, de sorte que les statistiques calculées n’auraient pas été fiables. Pour éviter la possibilité d’une précision accrue due à ce déséquilibre, la distribution nulle du LRAP a été calculée en permutant aléatoirement l’ordre des classes 1 000 fois pour chaque itération du modèle. Cette distribution nulle servait de référence pour la performance probable du modèle par hasard. Ensuite, le véritable LRAP a ensuite été converti en un rang centile dans cette distribution nulle. Un classement centile très élevé, par exemple 95 %, indiquerait qu’un score aussi élevé n’est apparu que 5 % du temps dans 1 000 permutations aléatoires. Un tel modèle pourrait donc être considéré comme performant bien au-dessus du hasard. Pour déterminer si ces classements centiles sont significativement supérieurs à ceux attendus par le hasard, c’est-à-dire le 50e centile, statistiquement, le classement centile médian du LRAP sur les 100 itérations de chaque modèle a été calculé et un test de rang signé de Wilcoxon sur un échantillon a été effectué.
Bien que l’objectif principal soit de développer un décodeur de stimuli visuels naturalistes pour les chiens, les comparaisons avec les humains sont inévitables. Ici, nous notons deux différences majeures : pour chaque type de classificateur, les modèles humains ont obtenu de meilleurs résultats que les modèles canins ; Et les modèles humains ont obtenu de bons résultats pour les modèles basés sur l’objet et l’action, tandis que les modèles canins ont fonctionné uniquement pour les modèles basés sur l’action. Les performances supérieures des modèles humains pourraient être dues à plusieurs facteurs. Les cerveaux humains sont environ 10 fois plus grands que les cerveaux de chiens, il y a donc plus de voxels à partir desquels choisir de construire un classificateur. Pour mettre les modèles sur un pied d’égalité, il faut utiliser le même nombre de voxels, mais cela peut être dans un sens absolu ou relatif. Bien que le modèle final ait été basé sur les 5 % supérieurs des voxels informatifs dans chaque cerveau (une mesure relative), des résultats similaires ont été obtenus en utilisant un nombre fixe de voxels. Ainsi, il semble plus probable que les différences de performance soient liées à la façon dont les humains et les chiens perçoivent les stimuli vidéo. Comme indiqué ci-dessus, alors que les chiens et les humains sont tous deux multisensoriels dans leur perception, les stimuli peuvent être plus appauvris pour un chien qu’un humain. Les repères de taille, par exemple, peuvent être perdus, tout semblant être une version jouet du monde réel. Il existe des preuves que les chiens classent les objets en fonction de leur taille et de leur texture avant leur forme, ce qui est presque l’opposé des humains39. De plus, l’odeur, qui n’est pas prise en compte ici, est probablement une source d’information importante pour la discrimination d’objets chez les chiens, en particulier dans l’identification des congénères ou des humains 40,41,42. Cependant, même en l’absence de repères de taille ou d’odeur, dans l’environnement inhabituel de l’IRM, le fait que le classificateur ait fonctionné indique qu’il y avait encore des informations pertinentes pour les chiens qui pouvaient être récupérées de leur cerveau. Avec seulement deux chiens et deux humains, les différences d’espèces pourraient également être dues à des différences individuelles. Les deux chiens, cependant, représentaient les meilleurs des chiens entraînés à l’IRM et excellaient à rester immobiles tout en regardant des vidéos. Alors qu’une plus grande taille d’échantillon permettrait certainement d’établir des distinctions plus fiables entre les espèces, le petit nombre de chiens capables de faire de l’IRMf éveillés et qui regarderont des vidéos pendant des périodes assez longues limitera toujours la généralisabilité à tous les chiens. Bien qu’il soit possible que des races spécialisées, comme les lévriers, aient des réponses cérébrales visuelles plus fines, nous pensons que le tempérament et l’entraînement individuels sont plus susceptibles d’être les principaux déterminants de ce qui est récupérable du cerveau d’un chien.
Ces différences d’espèces soulèvent la question de savoir à quel aspect des vidéos les chiens prêtaient attention. Une approche pour répondre à cette question repose sur des stimuli vidéo plus simples. Ensuite, en utilisant des images isolées d’humains, de chiens et de voitures, à la fois individuellement et ensemble sur des arrière-plans neutres, nous pourrions être en mesure d’inverser les dimensions saillantes d’un chien. Cependant, cela est à la fois inefficace sur le plan méthodologique et appauvrit davantage les stimuli du monde réel. La question de l’attention peut être résolue par l’approche de décodage seule, en effet, en utilisant les performances du modèle pour déterminer ce qui est pris en charge43. Dans le même ordre d’idées, les résultats suggèrent que, alors que les humains s’occupaient à la fois des acteurs et des actions, les chiens étaient plus concentrés sur les actions elles-mêmes. Cela pourrait être dû à des différences dans les caractéristiques de mouvement de bas niveau, telles que la fréquence des mouvements lorsque les individus jouent ou mangent, ou cela pourrait être dû à une représentation catégorique de ces activités à un niveau supérieur. La distribution de voxels informatifs dans tout le cortex du chien suggère que ces représentations ne sont pas seulement des caractéristiques de bas niveau qui seraient autrement confinées aux régions visuelles. Une étude plus approfondie utilisant une plus grande variété de stimuli vidéo peut éclairer le rôle du mouvement dans la discrimination des catégories par les chiens.
En résumé, cette étude a démontré la faisabilité de récupérer des informations visuelles naturalistes du cortex canin à l’aide de l’IRMf de la même manière que pour le cortex humain. Cette démonstration montre que, même en l’absence de son ou d’odeurs, les dimensions saillantes de scènes complexes sont encodées par des chiens qui regardent des vidéos et que ces dimensions peuvent être récupérées de leur cerveau. Deuxièmement, sur la base du petit nombre de chiens qui peuvent effectuer ce type de tâche, l’information peut être plus largement distribuée dans le cortex que ce que l’on observe généralement chez les humains, et les types d’actions semblent être plus facilement récupérés que l’identité des acteurs ou des objets. Ces résultats ouvrent une nouvelle façon d’examiner comment les chiens perçoivent les environnements qu’ils partagent avec les humains, y compris les écrans vidéo, et suggèrent de riches pistes pour l’exploration future de la façon dont eux-mêmes et d’autres animaux non primates « voient » le monde.
Aucun.
Nous remercions Kate Revill, Raveena Chhibber et Jon King pour leurs idées utiles dans le développement de cette analyse, Mark Spivak pour son aide au recrutement et à la formation de chiens pour l’IRM, et Phyllis Guo pour son aide dans la création et l’étiquetage des vidéos. Nous remercions également nos propriétaires de chiens dévoués, Rebecca Beasley (Daisy) et Ashwin Sakhardande (Bhubo). Les études sur l’homme ont été financées par une subvention du National Eye Institute (subvention R01 EY029724 à D.D.D.).
Name | Company | Catalog Number | Comments |
3 T MRI Scanner | Siemens | Trio | |
Audio recordings of scanner noise | homemade | none | |
Camera gimbal | Hohem | iSteady PRO 3 | |
Dog-appropriate videos | homemade | none | |
fMRI processing software | AFNI | 20.3.01 | |
Mock scanner components | homemade | none | Mock head coil and scanner tube |
Neural net software | Ivis | 1.7.1 | |
Optical flow software | OpenCV | 4.2.0.34 | |
Projection system for scanner | homemade | none | |
Trophy Cam HD | Bushnell | 119874 | |
Video camera | GoPro | HERO7 | |
Visualization software | ITK-SNAP | 3.6.0 | |
Windows Video Editor | Microsoft | Windows 11 version |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon