Représentations équivariantes pour Ham moléculaire

Représentations équivariantes pour Ham moléculaire
Représentations équivariantes pour Ham moléculaire

image : Un hamiltonien de base minimale pour le benzène rempli de nombres aléatoires (à gauche) et prédit par un modèle adapté à la symétrie après apprentissage sur la cible aléatoire (à droite). Les deux premiers états propres des hamiltoniens prédits dans les cases à droite.
voir Suite

Crédit : @EPFL, MIchele Ceriotti

Dans les domaines de la chimie et des matériaux, les programmes d’apprentissage automatique les plus réussis et les plus largement utilisés introduits au cours de la dernière décennie visent à modéliser les énergies moléculaires ou les potentiels interatomiques. En conséquence, les représentations utilisées pour cartographier les configurations atomiques en vecteurs de descripteurs ou de caractéristiques utilisées comme entrées de modèle reflètent les propriétés fondamentales du potentiel interatomique telles que l’invariance à la permutation entre atomes identiques, la rotation rigide ou l’inversion de la structure moléculaire. Ils reflètent également les notions de localité et de myopie – l’idée que le potentiel, les propriétés électroniques locales, dépendent de manière significative du potentiel externe effectif uniquement aux points proches – de nombreux composants de l’énergie interatomique.

Cette focalisation, en particulier sur la localité et la myopie, a conduit à l’utilisation de caractéristiques centrées sur l’atome qui décrivent la disposition des voisins autour d’un atome spécifique. De telles représentations centrées sur l’atome ont été utilisées pour construire des modèles de propriétés telles que les protections chimiques RMN, qui sont associées à un centre atomique individuel i, mais aussi pour exprimer des propriétés globales telles que l’énergie moléculaire en tant que somme de contributions centrées sur l’atome.

Plus récemment, le besoin de construire des modèles basés sur les données pour les propriétés atomiques telles que les moments dipolaires et les polarisabilités, qui ont des structures plus compliquées, a conduit à la généralisation des modèles invariants de symétrie. Bien que cela entraîne un comportement équivariant en ce qui concerne les rotations et l’inversion, les représentations sont généralement encore utilisées avec des cadres centrés sur l’atome. Ceci est problématique car plusieurs propriétés, telles que les couplages J en RMN, qui décrivent l’interaction magnétique entre les spins nucléaires, ou les éléments matriciels d’un hamiltonien électronique efficace à une particule lorsqu’ils sont écrits dans une base orbitale atomique, sont intrinsèquement associés à plusieurs centres atomiques.

Des méthodes semi-empiriques améliorées pourraient alors être obtenues grâce à la construction de modèles basés sur les données qui correspondent plus étroitement aux calculs de structure électronique explicites. Un Ĥ appris par machine pourrait, par exemple, permettre aux chercheurs d’accéder à des observables tels que des excitations optiques, ou pourrait être utilisé comme entrée dans une famille émergente de modèles ML qui prédisent les propriétés moléculaires à l’aide d’éléments matriciels calculés par des calculs explicites de structure électronique ou correspondant valeurs propres. Les approches ML existantes qui tentent de prédire l’hamiltonien moléculaire le font par le biais d’une modification ad hoc des caractéristiques centrées sur l’atome ou en concevant des caractéristiques de paires : elles n’incluent pas explicitement les symétries de rotation et s’appuient plutôt sur l’augmentation des données pour les incorporer dans le modèle.

Cherchant à fournir une base mathématique plus solide au problème de la prédiction de ce type de propriétés, les chercheurs Michele Ceriotti, Jigyasa Nigam et Michael Willatt, tous du Laboratoire de science informatique et de modélisation (COSMO) de l’EPFL, ont introduit un centre N symétrisé représentation qui fournit un cadre naturel et totalement équivariant pour l’apprentissage des propriétés associées à N atomes.

La combinaison de l’indice atomique et de l’équivariance géométrique nécessite de séparer les entrées de la matrice hamiltonienne en blocs avec un comportement de symétrie bien défini, mais conduit à des modèles plus simples avec moins de configurations de référence suffisantes pour obtenir des prédictions robustes et précises de . Notamment, le modèle tient compte à la fois des symétries générales qui sont explicitement intégrées, mais également de celles associées à des symétries de groupes de points spécifiques, lorsqu’elles sont présentes. C’est-à-dire que le modèle est construit pour incorporer la théorie orbitale moléculaire des manuels.

Après avoir démontré ces propriétés fondamentales sur des exemples simples en examinant le rôle de la base orbitale sur les performances du modèle, les chercheurs ont ensuite comparé la méthode à des problèmes de complexité croissante. Ils ont constaté que l’approche donne une excellente précision pour un ensemble de données homogène de H déformé2Molécules O, avec une régression linéaire atteignant une précision comparable aux modèles d’apprentissage en profondeur non adaptés à la symétrie, mais avec seulement une fraction de la taille de l’ensemble d’apprentissage. Les travaux sur des systèmes plus complexes tels que l’éthanol ou un ensemble de données de petites molécules organiques ont clairement montré que concentrer l’exercice ML sur la partie la plus pertinente des états d’énergie électronique, c’est-à-dire sans tenir compte des états vides à haute énergie, est au moins aussi important. que les détails de l’approche ML. Une façon de le faire, explorée dans leur travail, consiste à introduire un hamiltonien projeté adapté à la symétrie, une matrice plus petite qui ne reproduit que la valence et les états propres inoccupés de basse altitude tout en conservant toutes les autres symétries géométriques.

Les chercheurs concluent que les représentations équivariantes adaptées à la symétrie, à la permutation des atomes et à la rotation sont compétitives avec les modèles d’apprentissage en profondeur de pointe malgré l’utilisation de la régression linéaire ou par noyau uniquement et conviennent à la description des quantités associées à plusieurs centres atomiques. . Les représentations du centre N pourraient également être facilement appliquées à la phase condensée. La prochaine étape, en termes de construction de descripteurs entièrement équivariants d’amas atomiques à N centres, consistera à introduire des termes d’ordre corporel supérieur soit explicitement, soit par le biais de modèles non linéaires plus sophistiqués.

« La construction générale que nous présentons ici fournit un cadre facilement extensible pour ce faire, ainsi que pour s’attaquer à la modélisation d’intégrales à 3 centres et de quantités N plus élevées, mettant l’ensemble complet des ingrédients des calculs de chimie quantique à la portée de des schémas d’apprentissage automatique équivariants », ont déclaré les chercheurs.


Méthode de recherche

Simulation/modélisation informatique

Sujet de recherche

N’est pas applicable

Le titre de l’article

Représentations équivariantes pour les hamiltoniens moléculaires et les propriétés à l’échelle atomique à centre N

Date de publication de l’article

4-Jan-2022

Déclaration de COI

Les auteurs n’ont aucun conflit d’intérêt à déclarer.

 
For Latest Updates Follow us on Google News
 

PREV De nouvelles preuves de l’arrière-plan des ondes gravitationnelles imprégnant tout l’espace-temps
NEXT Comment le télescope Webb nous montrera des planètes comme jamais auparavant
----