Mï¿½moire de Maitrise MIME 1998-2000

Introduction

Qui veut des ordinateurs toujours plus rapides ? Tout le monde. Tout le monde espï¿½re aussi que les programmes fonctionneront encore plus vite ï¿½ chaque gï¿½nï¿½ration, en ignorant volontairement ou non la premiï¿½re loi d'Amdahl. Alors que la capacitï¿½ des disques durs et la taille et la vitesse des microprocesseurs augmentent sans montrer de signes de faiblesse, les composants pï¿½riphï¿½riques comme les contrï¿½leurs de bus ne peuvent pas suivre cette ï¿½volution pour de nombreuses raisons, principalement ï¿½conomiques et techniques.

En tentant d'optimiser un programme de gaz sur rï¿½seaux, thï¿½oriquement trï¿½s simple ï¿½ mettre en oeuvre, ce projet se heurte ï¿½ de nombreuses limitations. Les recherches ont ï¿½tï¿½ longues, plusieurs hypothï¿½ses ont ï¿½tï¿½ vï¿½rifiï¿½es alors que certains rï¿½sultats sont inattendus. Toutefois, la qualitï¿½ du code reste un facteur essentiel pour les performances d'un programme car il montre la capacitï¿½ du programmeur ï¿½ comprendre le problï¿½me et ï¿½ le formuler de maniï¿½re ï¿½ ce que l'ordinateur montre toute sa puissance, quelle qu'elle soit.

Ce projet trouve naturellement sa place dans la formation du dï¿½partement MIME car il aborde de nombreux sujets thï¿½oriques et pratiques trï¿½s importants :

Il traite de sujets algorithmiques peu connus (comme le strip mining et la programmation des ï¿½quations boolï¿½ennes).
Il exploite toutes les donnï¿½es disponibles concernant les microprocesseurs superscalaires et leur fonctionnement efficace.
Il passe en revue les caractï¿½ristiques "environnementales" d'un programme (programmation de l'OS et des pï¿½riphï¿½riques).
Il tente de faire un pont entre la thï¿½orie (physique statistique) et la pratique (architecture et programmation des ordinateurs).

Les prochaines parties sont organisï¿½es ainsi :

La premiï¿½re partie prï¿½sente le sujet dans son environnement d'utilisation, il ressitue son contexte informatique et ses enjeux.
La partie II donne quelques explications sur les gaz sur rï¿½seaux, la thï¿½orie de la mï¿½canique des fluides et rappelle les aspects pertinents pour la suite du mï¿½moire.
La partie III prï¿½sente les travaux antï¿½rieurs ï¿½ ce mï¿½moire, afin d'expliquer les raisons et les axes du processus d'optimisation.
La partie IV prï¿½sente et analyse la rï¿½alisation du programme et les rï¿½sultats pratiques.
La partie V tente de dï¿½terminer la limite supï¿½rieure de la puissance d'une architecture dï¿½diï¿½e en analysant des implï¿½mentations existantes aussi bien qu'imaginaires.

Ce mï¿½moire est complï¿½tï¿½ par quatre annexes.

L'annexe A contient tous les sources nï¿½cessaires pour construire le programme expï¿½rimental.
L'annexe B est une reproduction de l'article paru dans Pascalissime et qui montre une implï¿½mentation simple et claire mais peu efficace et passablement erronï¿½e d'un programme de simulation FHP.
L'annexe C est le "journal de bord" qui ï¿½tait mis ï¿½ jour lors des parties les plus critiques de la programmation : les dï¿½tails, les erreurs, les remarques et de nombreux morceaux de code y sont conservï¿½s afin de ne pas polluer le code de remarques inutiles.
L'annexe D est une collection de codes de calcul FHP qui permet de s'apercevoir des dï¿½fauts et qualitï¿½s dont il faut tenir compte dans un programme de ce type.

Ce mï¿½moire peut ï¿½tre lu de diffï¿½rentes maniï¿½res mais il ne peut et ne pourra pas ï¿½tre exhaustif. Les personnes dï¿½sirant programmer des gaz sur rï¿½seaux en 2D y trouveront des expï¿½riences et du savoir-faire qui leur fera gagner beaucoup de temps lors de la programmation. Cependant le lectorat visï¿½ est plus large et certains sauteront des chapitres alors que d'autres rï¿½clameront plus d'informations sur certains dï¿½tails. Ce qui se voulait ï¿½tre une sorte de manuel pour reconstruire le programme n'est plus qu'une esquisse des lignes directrices du projet. Les annexes sont fournies pour donner des dï¿½tails et le corps du mï¿½moire ï¿½claire un peu sur leur fonction, tout en essayant de rester cohï¿½rent et didactique. Un manuel complet aurait finalement ï¿½tï¿½ impossible. Espï¿½rons que suffisamment de dï¿½tails utiles auront filtrï¿½ pour permettre aux personnes intï¿½ressï¿½es de reproduire ou amï¿½liorer les techniques dï¿½crites, ou ï¿½ dï¿½faut d'ï¿½tre sensibilisï¿½s par certains points.

Bonne lecture.

Partie I : Spï¿½cificitï¿½s du Calcul Intensif

approche ï¿½pistï¿½mologico-socio-ï¿½conomico-culturelle

I.1 : Les nouveaux dï¿½fis du calcul intensif :

Dans la suite de ce mï¿½moire, la notion de calcul intensif sera constamment sous-entendue et utilisï¿½e dans un sens restreint et particulier. Puisqu'aujourd'hui les ordinateurs de bureau ont la puissance des ordinateurs les plus puissants il y a 25 ans, les efforts ï¿½ effectuer sont de l'ordre du qualitatif et non plus du quantitatif. Les nouveaux dï¿½fis du calcul intensif ne sont plus de crï¿½er des ordinateurs plus puissants mais de mieux les utiliser. Les ordinateurs actuels sont comme de la matiï¿½re premiï¿½re qu'il faut exploiter aprï¿½s la prospection (le travail de recherche) menï¿½e pas les pionniers et les laboratoires de recherche.

Ce mï¿½moire explore un axe d'exploitation des ordinateurs de bureau. Leurs caractï¿½ristiques ne font pas d'eux des "supercalculateurs" ce qui rend leur programmation encore plus complexe. Il explore le calcul intensif sous deux angles ï¿½ la fois : technique et thï¿½orique. L'architecture et la programmation des ordinateurs, en mï¿½me temps que l'ï¿½tude du modï¿½le physique calculï¿½, permettent de faire converger tous les paramï¿½tres permettant d'obtenir un progamme efficace dans la pratique aussi bien que sur le plan thï¿½orique.

I.2 : Les images rï¿½alistes :

De nos jours, il n'existe pas de programme informatique ou de modï¿½le physique qui puisse explicitement simuler "le monde rï¿½el". Les logiciels utilisï¿½s en Image de Synthï¿½se ou la Rï¿½alitï¿½ Virtuelle ne font que des approximations visuellement proches de ce qui se passe en rï¿½alitï¿½, mais seuls les modï¿½les les plus simples sont maitrisï¿½s actuellement.

Lorsqu'on les conï¿½oit, les programmes de simulation nous posent tous le mï¿½me problï¿½me : "Qu'est-ce que la rï¿½alitï¿½ ?". Pour effectuer une simulation, il faut bien comprendre ce que l'on fait et ce que l'on simule. Et pourtant, bien que ce soient des sujets quotidiens et banals, aucun logiciel ne peut simuler explicitement de maniï¿½re satisfaisante les choses suivantes :

allumer un feu de bois ou de gaz

mettre une casserole sur ce feu

remplir la casserole d'eau

faire bouillir l'eau

faire cuire un aliment

Les images de synthï¿½se tentent de reproduire les rï¿½sultats ou les effets de ces phï¿½nomï¿½nes, ce qui permet de reconnaitre les images "photorï¿½alistes" grï¿½ce ï¿½ leurs nombreux artifacts, malgrï¿½ la complexitï¿½ croissante des logiciels disponibles. Ils ne simulent pas la rï¿½alitï¿½, ils ne font que reproduire un effet visuel plus ou moins similaire.

Tous les phï¿½nomï¿½nes de la liste prï¿½cï¿½dente ont lieu des milliards de fois par jour sur Terre sans que l'on soit capable de les simuler sur ordinateur, avec tous les phï¿½nomï¿½nes qui en dï¿½coulent comme la fumï¿½e ou la condensation de l'eau sur les murs adjacents. Mï¿½me une salle de bain embuï¿½e ou la rosï¿½e du matin semblent ï¿½trangï¿½res aux recherches scientifiques. Les cas ï¿½tudiï¿½s jusqu'ï¿½ maintenant sont limitï¿½s ï¿½ des modï¿½les simples et sont calculï¿½s pendant des jours ou des semaines sur des ordinateurs accessibles ï¿½ peu des personnes. Dans un sens, c'est comprï¿½hensible si l'on considï¿½re que le calcul automatique est relativement rï¿½cent pour l'humanitï¿½, qui est elle-mï¿½me rï¿½cente par rapport ï¿½ l'Univers. Toutefois, si l'on considï¿½re la banalitï¿½ des phï¿½nomï¿½nes et le nombre de chercheurs travaillant dans ce domaine, le manque de rï¿½sultats probants est ï¿½tonnant.

I.3 : A propos de l'"optimisation" :

Le terme d'"optimisation" mï¿½rite qu'on s'y attarde car il fait partie du titre du mï¿½moire et son utilisation en informatique ï¿½chappe au contrï¿½le de l'Acadï¿½mie Franï¿½aise. La suite de cette partie expliquera plus en dï¿½tail la philosophie de travail mais commenï¿½ons par regarder un exemple dans une discipline similaire : les mathï¿½matiques.

Un exemple bien connu d'optimisation concerne le calcul des dï¿½cimales du nombre Pi : l'optimisation dans ce domaine consiste ï¿½ calculer un maximum de dï¿½cimales avec un minimum de travail. Les liens entre les mathï¿½matiques et l'informatique sont trï¿½s forts, en particulier au niveau de la thï¿½orie des nombres. L'algorithme de Newton-Raphson, utilisï¿½ dans les microprocesseurs, illustre ce propos : il permet de calculer une division ou une racine carrï¿½e en effectuant moins d'opï¿½rations qu'avec une technique "simple" mais plus facile ï¿½ comprendre.

L'ouvrage de Jean-Christophe Culioli [22] (comme d'autres livres du mï¿½me rayon) prï¿½sente d'autres exemples de mathï¿½matiques appliquï¿½es au contrï¿½le de processus ou ï¿½ l'ï¿½valuation de fonctions mathï¿½matiques complexes. En prï¿½face, l'auteur y explicite trï¿½s bien certaines notions qui rejoignent l'objet de ce chapitre : le processus d'optimisation a pour but d'amï¿½liorer un ou des critï¿½res, qualitatifs ou quantitatifs, en fonction de certaines contraintes dynamiques ou statiques. L'auteur insiste sur le rapport ï¿½troit entre la modï¿½lisation et l'optimisation car ils permettent d'amï¿½liorer le systï¿½me et de mieux le connaï¿½tre. Nous serons constamment confrontï¿½s ï¿½ ces problï¿½mes dans la suite de ce mï¿½moire.

Reprenons l'exemple de la mï¿½thode de Newton-Raphson : elle est basï¿½e sur la mï¿½thode itï¿½rative dite de Newton. Une meilleure comprï¿½hension de son fonctionnement et l'apport de connaissances externes permettent d'effectuer moins d'opï¿½rations pour obtenir un rï¿½sultat similaire et de transformer l'algorithme itï¿½ratif en une suite linï¿½aire d'instructions. Dans ce cas, le critï¿½re d'optimisation est la diminution du nombre d'instructions, ce qui passe ici par l'utilisation d'un algorithme en O(log n) au lieu de O(n). D'autres problï¿½mes requiï¿½rent d'autres critï¿½res comme une meilleure stabilitï¿½ numï¿½rique ou une meilleure sensibilitï¿½ ï¿½ certains signaux (pour le filtrage d'un signal par exemple) mais le domaine qui nous intï¿½resse le plus est la vitesse pure. Le travail consiste alors ï¿½ analyser l'algorithme de calcul ainsi que l'ordinateur qui calculera. Le programme doit faire le pont le plus direct possible entre ces deux contraintes fixes. Les moyens sont nombreux et toutes les astuces sont explorï¿½es.

Il arrive pourtant un jour oï¿½ toutes les "ficelles" sont ï¿½puisï¿½es : malgrï¿½ tous les efforts imaginables, il n'est plus possible de faire mieux. Il devient alors tentant d'estimer que le programme est "optimal" et d'arrï¿½ter les efforts si le temps presse. Cependant il ne faut jamais oublier que "le programme le plus rapide n'existe pas" [7] et on peut toujours gagner un cycle quelque part. Bien qu'on puisse dire ï¿½ un moment donnï¿½ avoir atteint un rapport performance/dï¿½veloppement acceptable, il existe une infinitï¿½ de problï¿½mes indï¿½cidables et de plateformes, il est donc impossible d'affirmer qu'un programme est parfait. L'optimisation est une discipline de recherche qui vise ï¿½ lever, pas ï¿½ pas, certains obstacles dans la rï¿½solution de problï¿½mes prï¿½cis. Nous allons voir que mï¿½me en rï¿½duisant la complexitï¿½ initiale du problï¿½me, ce processus fait appel ï¿½ de nombreux domaines ï¿½ cause de leurs ï¿½troites relations. Une fois sorti du domaine purement thï¿½orique et mathï¿½matique, le problï¿½me impose des choix pratiques difficiles.

I.4 : La montï¿½e des "PC" :

La puissance relative des ordinateurs de bureau actuels leur permet de se mesurer ï¿½ des stations de travail beaucoup plus chï¿½res. Les benchmarks SpecInt et SpecFP comptent dans leur groupe de tï¿½te des processeurs Intel qui sont vendus en masse un an plus tard ï¿½ un prix abordable. La montï¿½e des PC n'est plus un phï¿½nomï¿½ne anodin et a fait apparaitre le terme "Killer Micro" [4]. L'informatique personnelle a explosï¿½ au dï¿½but des annï¿½es 80 et a dï¿½mocratisï¿½ l'accï¿½s ï¿½ l'informatique telle qu'on la connait aujourd'hui. Plus important encore, le marchï¿½ "grand public" a permis de faire baisser le prix des appareils et a rendu rentables les investissements lourds dans les appareils de production. La loi de Moore peut donc continuer ï¿½ se vï¿½rifier grï¿½ce aux dï¿½bouchï¿½s du marchï¿½ du grand public.

L'ordinateur "au rabais", peu puissant mais avec un rapport performance/prix trï¿½s avantageux, a eu des consï¿½quences trï¿½s importantes sur le marchï¿½ des "superordinateurs" utilisï¿½s dans les domaines scientifiques et industriels. Ces derniers sont caractï¿½risï¿½s par un coï¿½t d'achat et d'exploitation trï¿½s important, un systï¿½me de traitement par lot (non interactif), des systï¿½mes de programmation et de dï¿½veloppement propriï¿½taires et limitï¿½s, qu'il faut apprendre et maitriser afin de profiter au maximum du temps CPU qui est allouï¿½ ï¿½ l'utilisateur. Ces systï¿½mes ont des puissances de crï¿½te trï¿½s ï¿½levï¿½es grï¿½ce, entre autre, ï¿½ :
- une architecture dï¿½diï¿½e et axï¿½e sur la performance,
- des compilateurs sophistiquï¿½s,
- une grande extensibilitï¿½ (par ajout d'unitï¿½s de calcul ou de mï¿½moire),
- des techniques ï¿½mergentes ou peu rï¿½pandues (arsï¿½niure de gallium ou phosphure d'indium,
- sans oublier leur emploi gï¿½nï¿½reux (bus trï¿½s large, duplication d'unitï¿½s, parallï¿½lisme agressif).
La "mort" des superordinateurs se situe ï¿½ la fin de la guerre froide, lorsque les budgets de dï¿½veloppement d'armes nuclï¿½aires et de l'espionnage sont devenus moins justifiï¿½s. Ces domaines de "niche" qui ï¿½taient la chasse gardï¿½e des certains constructeurs (IBM, Connexion Machine et bien sï¿½r Cray) sont devenus encore plus concurrentiels et critiquï¿½s. Bien que les "superordinateurs" soient toujours l'objet de fantasmes chez les programmeurs et les physiciens qui ont besoin d'exï¿½cuter toujours plus d'opï¿½rations par seconde, les responsables des budgets ont pris de plus en plus au sï¿½rieux l'utilisation d'ordinateurs "grand public" tellement moins chers. L'ordinateur connu le plus puissant actuellement (l'IBM "Blue Pacific" de l"Accelerated Strategic Computing Initiative (ASCI)") est construit avec des puces similaires ï¿½ celles que l'on peut trouver dans un Apple Macintosh.

Vue en "fisheye" de Blue Pacific en septembre 1998 : 1464 noeuds de 4 processeurs POWER, 3.9 TeraFlops, 2.6 TB de SDRAM et 75TB de RAID.

Il y a encore 20 ans, chaque nouvelle architecture nï¿½cessitait la conception d'un nouveau systï¿½me de dï¿½veloppement, de nouvelles techniques, d'un nouveau coeur de processeur. Aujourd'hui, cette approche ne reprï¿½sente plus qu'une petite partie du marchï¿½ et les centres de calcul sont ï¿½quipï¿½s de "fermes" d'ordinateurs ï¿½ base de processeurs Alpha, Power, Sparc, Mips ou Intel dont le coï¿½t de dï¿½veloppement a ï¿½tï¿½ amorti et validï¿½ par le marchï¿½ du grand public. Ce n'est donc plus seulement la performance qui est l'enjeu de l'industrie : le prix total est devenu un critï¿½re dï¿½terminant.

Nous savons aujourd'hui qu'il est possible de fabriquer des ordinateurs arbitrairement puissants et leur prix est proportionnel ï¿½ leur taille. L'autre enjeu est de tirer le maximum de performance des puces du commerce : nous allons voir que c'est difficile mï¿½me lorsqu'on ne tient pas compte des problï¿½mes de parallï¿½lisme.

I.5 : Les PC ne permettent pas de soutenir la performance de crï¿½te :

"La performance a un prix", c'est une rï¿½gle fondamentale dans l'architecture des ordinateurs comme dans tout autre domaine. Pour les PC, ou tout autre appareil de grande consommation, le prix a ï¿½tï¿½ rï¿½duit en diminuant certains paramï¿½tres clï¿½s de la performance. Il n'est donc pas possible de comparer deux ordinateurs seulement par leur vitesse d'horloge et les benchmarks les plus divers ont vu le jour pour tenter l'impossible : "mesurer" la performance d'un ordinateur.

Dans ce mï¿½moire, nous ï¿½tudions un type de programme trï¿½s particulier mais qui met en lumiï¿½re de nombreux points caractï¿½ristiques des architectures utilisï¿½es dont :

la vitesse de dï¿½codage des instructions

les rï¿½gles de "groupage" des instructions (pour les architectures superscalaires)

la flexibilitï¿½ du jeu d'instructions

le temps d'accï¿½s ï¿½ la mï¿½moire centrale

la bande passante de/vers la mï¿½moire centrale

En rï¿½gle gï¿½nï¿½rale, un ordinateur personnel (peu cher) diffï¿½re d'un ordinateur "professionel" par le dï¿½sï¿½quilibre des diffï¿½rents paramï¿½tres. Par exemple, les processeurs les plus rapides aujourd'hui sont cadencï¿½s ï¿½ plus de 500 MHz alors que la mï¿½moire centrale (celle qui influence le plus les algorithmes que nous allons ï¿½tudier ici) reste limitï¿½e ï¿½ 133MHz au mieux. Nous souffrons du fossï¿½ grandissant entre la vitesse "offchip" et "onchip" : les vitesses d'horloge sont plus rapides ï¿½ l'intï¿½rieur d'une puce qu'en dehors pour des raisons purement physiques. Un ordinateur "professionnel" compensera cette diffï¿½rence par un plus grand nombre de broches sur le boï¿½tier du processeur et augmentera la largeur des bus : 128 bits au lieu de 64 par exemple. Un ordinateur "personnel" diminuera le prix au dï¿½triment de la performance en diminuant le nombre de broches et en compensant par une mï¿½moire cache par exemple.

Dans le cas des ordinateurs PC x86 que nous utilisons ici, le fossï¿½ est ï¿½largi par le jeu d'instruction qui est ï¿½ la fois inadaptï¿½ et mal utilisï¿½. Les processeurs de PC sont conï¿½us selon des rï¿½gles statistiques et non pratiques, en analysant l'utilisation des ressources par du code gï¿½nï¿½rï¿½ par des compilateurs pour des applications de bureautique. Ce type d'architecture n'est pas adaptï¿½ au contexte du calcul intensif oï¿½ chaque unitï¿½ d'exï¿½cution est utilisï¿½e ï¿½ chaque cycle. Les processeurs Intel ainsi que les plateformes qu'ils font fonctionner (carte mï¿½re, application et systï¿½me d'exploitation) sous-utilisent la performance thï¿½orique que la vitesse d'horloge laisse supposer.

Dans le tableau suivant, Paul Hsieh a comparï¿½ les techniques de codage de haut niveau d'"hier" et d'"aujourd'hui", afin d'illustrer le changement radical des mï¿½thodes, des moyens, des enjeux et des rï¿½sultats au cours des 20 derniï¿½res annï¿½es.

Avant :
a) x = y % 32;
b) x = y * 8;
c) x = y / w + z / w;
d) if( a==b && c==d && e==f ) {...}
e) if( (x & 1) || (x & 4) ) {...}
f) if( x>=0 && x<8 &&
    y>=0 && y<8 ) {...}
g) if( (x==1) || (x==2) ||
    (x==4) || (x==8) || ... )
h) #define abs(x) \
(((x)>0)?(x):-(x))

i) int a[3][3][3];
int b[3][3][3];
...

j) for(i=0;i<3;i++)
     for(j=0;j<3;j++)
       for(k=0;k<3;k++)
         b[i][j][k] = a[i][j][k];
k) for(i=0;i<3;i++)
    for(j=0;j<3;j++)
      for(k=0;k<3;k++)
        a[i][j][k] = 0;
l) for(x=0;x<100;x++) {
     printf("%d\n",(int)(sqrt(x)));
   }

m) c:\>tc myprog.c
n) user% cc myprog.c
o) Utiliser l'algorithme de quicksort.
p) Utiliser l'algorithme de tracï¿½ de lignes de Bresenham.
q) Demander les conseils des collï¿½gues.
r) Ignorer les suggestions des autres.
s) Coder, coder, coder, coder ...

Aprï¿½s :
a) x = y & 31;
b) x = y << 3;
c) x = (y + z) / w;
d) if( ((a-b)|(c-d)|(e-f))==0 ) {...}
e) if( x & 5 ) {...}
f) if( ((unsigned)(x|y))<8 ) {...}

g) if( x&(x-1)==0 && x!=0 )

h) static long abs(long x) {
long y;
    y = x>>31;
    return (x^y)-y;
}
i) typedef struct {
        int element[3][3][3];
} Three3DType;
Three3DType a,b;
...
j) b = a;

k) memset(a,0,sizeof(a));

l) for(tx=1,sx=0,x=0;x<100;x++) {
    if( tx<=x ) {
      tx+=2*sx+3;
      sx++;
    }
    printf("%d\n",sx);
  }
m) c:\>wcc386 /5r/otexan myprog.c
n) user% gcc -O3 myprog.c
o) Utiliser le merge sort ou le radix sort.
p) Utiliser l'algorithme de tracï¿½ de lignes DDA en virgule fixe.
q) Chercher des exemples par USENET/WEB/FTP.
r) Ecouter les suggestions mais ï¿½tre sceptique.
s) Penser, coder, penser, coder ...

Certaines astuces semblent ï¿½videntes, ou sont expliquï¿½es dans les cours de M. Greussay. D'autres le sont beaucoup moins et elles existent car les compilateurs actuels ne peuvent effectuer eux-mï¿½mes de telles modifications, au risque de ne plus se conformer aux normes ANSI (s'ils ï¿½taient dï¿½ja compatibles avant). Dans ce cas, rien ne remplace une analyse humaine, globale et attentive du code, par un ou des programmeurs expï¿½rimentï¿½s.

La multiplication des rï¿½gles contraignant le codage rend les ordinateurs actuels de plus en plus difficiles ï¿½ programmer en pratique. Bien qu'une partie de la littï¿½rature actuelle se penche sur le problï¿½me, ce n'est pourtant pas la prï¿½occupation principale de la plupart des programmeurs qui utilisent de plus en plus les langages orientï¿½s objets, qui permettent de programmer de trï¿½s lourdes applications en cachant les dï¿½tails au programmeur, mais montrant leur lenteur ï¿½ l'utilisateur.

Or le propos de ce mï¿½moire n'est pas de programmer un navigateur Web, un OS ou une application "middleware" mais une application compacte qui fait peu de choses et le plus rapidement possible.

I.6 : La convergence des algorithmes, des plateformes et des modï¿½les :

Tout exercice de programmation peut ï¿½tre considï¿½rï¿½ comme l'application d'algorithmes simples ("d'ï¿½cole") qui sont utilisï¿½s comme briques de base et adaptï¿½s ï¿½ chaque cas particulier. La programmation est donc un acte d'expertise, d'analyse et d'adaptation, visant ï¿½ transcrire un modï¿½le thï¿½orique vers un programme (une suite d'instruction) le plus adaptï¿½ ï¿½ la plateforme utilisï¿½e.

Dans le cas d'un modï¿½le physique programmï¿½ sur un ordinateur "adaptï¿½", cet exercice est relativement facile : la mï¿½moire est abondante et rapide, les calculs sont (parfois) prï¿½cis et trï¿½s rapides. Dans le cas qui nous concerne, l'exercice est beaucoup plus difficile : la mï¿½moire est rapide ou spacieuse (du fait des niveaux de mï¿½moire cache) et les calculs sont effectuï¿½s selon des rï¿½gles complexes (afin de diminuer la taille du microprocesseur). L'analyse doit ï¿½tre beaucoup plus complï¿½te, ï¿½ la mesure de la complexitï¿½ de la plateforme, et le modï¿½le physique doit ï¿½tre mieux compris afin de bï¿½nï¿½ficier de ses caractï¿½ristiques particuliï¿½res.

Le but d'un calcul change selon le contexte : un code de "recherche" ou "dï¿½veloppement" sert ï¿½ dï¿½montrer la validitï¿½ d'un modï¿½le, afin de prouver que la thï¿½orie sous-jacente est correcte, alors qu'un code de "production" utilise ce modï¿½le (une fois qu'il est validï¿½) pour l'utiliser dans un cas utile et pratique. Dans le premier cas, la vitesse n'est pas le critï¿½re recherchï¿½ : le chercheur tente de dï¿½terminer les paramï¿½tres permettant de reconstituer des conditions idï¿½ales pour reproduire des cas connus. Dans le deuxiï¿½me cas, le modï¿½le est considï¿½rï¿½ valide et l'utilisateur doit contrï¿½ler tous les paramï¿½tres permettant d'appliquer les cas connus ï¿½ des situations pratiques nouvelles. La vitesse d'exï¿½cution du programme devient alors importante : gagner dix pourcents de vitesse de calcul permet de gagner deux heures sur un calcul qui durerait une journï¿½e.

Le type de programme que nous considï¿½rons ici utilise ce qu'on pourrait appeler des algorithmes de "deuxiï¿½me gï¿½nï¿½ration" qui effectuent les opï¿½rations du modï¿½le de maniï¿½re parfois diffï¿½rente d'un programme "simple" ou de "dï¿½veloppement". Lorsque le modï¿½le original est maitrisï¿½, il doit ï¿½tre revu depuis le dï¿½but afin d'ï¿½tre analysï¿½ sous des angles diffï¿½rents et bï¿½nï¿½ficier des particularitï¿½s architecturales de la plateforme choisie. Nous nous trouvons ici dans un monde oï¿½ la thï¿½orie n'a plus de relation directe avec l'implï¿½mentation du modï¿½le, nous cherchons ï¿½ concilier l'exactitude des premiers programmes avec la vitesse permise par l'ordinateur.

I.7 : La mentalitï¿½ de l'optimisation :

Le travail prï¿½sentï¿½ ici ne trouve que partiellement son origine dans le domaine scientifique. En effet, la plupart des utilisateurs de codes de calcul intensif considï¿½rent ceux-cis comme des "boites noires" dont ils tournent les boutons pour obtenir les rï¿½sultats dï¿½sirï¿½s.

Les raisons d'optimiser du code sont pourtant nombreuses et dï¿½passent la simple course ï¿½ la vitesse, ce qui nous conduit aux ï¿½tudes sur l'organisation des ordinateurs. Cela permet d'explorer la plateforme, de dï¿½couvrir des caractï¿½ristiques utiles, de mettre au point des techniques de programmation et de mettre notre patience ï¿½ l'ï¿½preuve. Cela permet aussi de rentabiliser l'inverstissement de l'achat de la plateforme en exploitant au maximum ses caractï¿½ristiques particuliï¿½res.

Ces motivations sont plus caractï¿½ristiques de la culture de l'informatique personnelle que professionelle : les demo-makers par exemple passent beaucoup de temps ï¿½ analyser les manuels des ordinateurs pour imaginer des effets graphiques inï¿½dits et gagner des concours. Un exemple similaire est la programmation des jeux vidï¿½os : les codeurs doivent faire face ï¿½ de nombreux impï¿½ratifs de portabilitï¿½, de vitesse et de flexibilitï¿½ qui les forcent ï¿½ chercher constamment de nouvelles techniques. Une des contraintes les plus importantes est la faible puissance des ordinateurs qui obligeait, jusqu'aux annï¿½es 90, les programmeurs ï¿½ coder les parties importantes de leurs applications en langage assembleur.

Dans le monde des ordinateurs personnels, la famille x86 est toute puissante malgrï¿½ ses nombreux dï¿½fauts : le prix sur le marchï¿½ de masse et l'acceptation par le public ne sont pas directement liï¿½s aux qualitï¿½s de l'architecture. La portabilitï¿½ est donc peu importante car les caractï¿½ristiques fondamentales ne changent pas d'une machine ï¿½ l'autre, contrairement au monde UNIX oï¿½ la programmation en langage de haut niveau (principalement C) est nï¿½cessaire. Il est donc plus naturel de "soigner son code" sur un PC que sur une station de travail, en accï¿½dant directement ï¿½ la carte vidï¿½o ou aux pï¿½riphï¿½riques par exemple.

Un des spï¿½cialistes de l'optimisation des programmes est Michael Abrash dont le livre [7] a inspirï¿½ certaines phases du travail prï¿½sentï¿½ ici. En particulier, il dï¿½montre qu'il y a parfois des moyens trï¿½s efficaces de coder un modï¿½le (par exemple, le Jeu de la Vie qui a ï¿½tï¿½ accï¿½lï¿½rï¿½ d'un facteur 300) si l'on prend la peine de se prï¿½occuper de ce que font le modï¿½le, l'ordinateur et le programme. D'autres auteurs comme Knuth ou Paul Hsieh, ont prouvï¿½ par de nombreux exemples que la maniï¿½re la plus rapide n'est pas forcï¿½ment la plus ï¿½vidente : un algorithme complexe peut ï¿½tre plus efficace qu'un algorithme simple si le calcul ne convient pas ï¿½ l'architecture de la machine. En particulier, il faut partir d'un algorithme efficace, traitï¿½ sous l'angle des ressources disponibles sur la plateforme.

Dans le type d'optimisation qui nous concerne ici, le temps a une importance particuliï¿½re, diffï¿½rente des autres projets : tous les moyens disponibles doivent ï¿½tre mis en oeuvre pour aboutir. Bien que le code final soit d'une grande complexitï¿½, il n'est pas conï¿½u pour les besoins du grand public ou pour ï¿½tre rentable (immï¿½diatement). Le plus gros effort est fourni lors de la programmation afin que l'exï¿½cution soit la plus rapide possible. Cela va ï¿½ l'encontre des procï¿½dï¿½s de codage "classiques" qui privilï¿½gient avant tout la portabilitï¿½, la facilitï¿½, la maintenance (surtout pour le mauvais code) et le temps de mise sur le marchï¿½. Dans notre cas, le temps d'exï¿½cution est plus important que le temps de programmation. Ce point de vue est valide ici puisque le sujet est relativement simple et bornï¿½ : il est rï¿½duit ï¿½ un coeur de calcul, entourï¿½ de plusieurs "algorithmes annexes", sans toute la lourdeur de la gestion d'une interface complexe avec l'utilisateur, avec d'autres ordinateurs ou avec des logiciels complexes. Le sujet est donc rï¿½duit au "coeur de calcul" entourï¿½ d'une interface simple (ï¿½cran, clavier et souris sous MS-DOS) sur une plateforme connue et maitrisï¿½e, calculant un modï¿½le simple (FHP3) numï¿½riquement stable.

I.8 : Importance de l'interactivitï¿½ :

Nï¿½anmoins, pour que l'efficacitï¿½ du programme soit utile, un minimum d'interactivitï¿½ avec l'utilisateur est nï¿½cessaire, ce qui ajoute une composante importante dans l'analyse du programme. La nï¿½cessitï¿½ de garder le contrï¿½le de l'ordinateur, donc de pouvoir intervenir sur le calcul et ses paramï¿½tres ï¿½ tout moment, modifie considï¿½rablement la structure du programme lorsque l'on compare une version "interactive" avec une version "prototype" utilisï¿½e uniquement par le dï¿½veloppeur en interne. Il faut d'abord pouvoir prendre en charge le plus de complexitï¿½ possible pour l'utilisateur, qui n'est pas sensï¿½ s'occuper de la technique sous-jacente. Au contraire, l'utilisateur recherche des donnï¿½es pertinentes qui seraient susceptibles de lui faire comprendre un phï¿½nomï¿½ne. Le programme est donc graphiquement intensif car l'image est ce qui parle le plus et le plus vite. En cela, il rejoint les applications de jeu qui doivent gï¿½rer un "monde virtuel" en fonction des actions de l'utilisateur.

En rendant le programme interactif, l'utilisateur peut accï¿½lï¿½rer ses cycles d'ï¿½tude, par exemple en interrompant un calcul qu'il dï¿½couvre inutile lors de son exï¿½cution. Cela compte autant que l'accï¿½lï¿½ration du programme lui-mï¿½me et justifie certaines complexitï¿½s du code.

Dans la majoritï¿½ des cas, les scientifiques sont peu prï¿½occupï¿½s par l'interactivitï¿½ de leurs programmes car ils se penchent plus sur les aspects thï¿½oriques que les cï¿½tï¿½s pratiques. Les ordinateurs permettent dï¿½jï¿½ de diminuer leur charge de calcul et de se concentrer sur l'essentiel. Le code de calcul est donc vu par ses utilisateurs comme une sorte de "boite noire" qui effectue son travail de maniï¿½re "atomique" et crache son rï¿½sultat lorsque le calcul est terminï¿½. Le "workflow" classique peut ï¿½tre schï¿½matisï¿½ ainsi :

1) Expression du problï¿½me
2) Formalisation et modï¿½lisation du phï¿½nomï¿½ne
3) Simulation (calcul)
4) Dï¿½pouillage du rï¿½sultat
5) Comparaison du modï¿½le et du rï¿½sultat
6) retour en 2) si la comparaison n'est pas satisfaisante.

Dans certains cas, le calcul peut durer une journï¿½e ou une semaine, le dï¿½pouillage peut durer encore plus longtemps. Le programme de calcul est rarement interactif, les donnï¿½es gï¿½nï¿½rï¿½es en sortie peuvent occuper des centaines de mï¿½gaoctets et leur dï¿½pouillage est impossible sans outil adaptï¿½. L'analyse des rï¿½sultats peut aussi faire apparaitre des calculs inutiles qu'il aurait ï¿½tï¿½ ï¿½conomique de ne pas stocker en mï¿½moire de masse. Enfin, lorsqu'une nouvelle itï¿½ration est nï¿½cessaire, il faut souvent effectuer les calculs depuis le dï¿½but mï¿½me si un ajustement minime a ï¿½tï¿½ effectuï¿½.

En rendant le calcul transparent ï¿½ l'utilisateur, les inconvï¿½nients ci-dessus sont ï¿½vitï¿½s :

seules les donnï¿½es estimï¿½es intï¿½ressantes par l'utilisateur sont sauvegardï¿½es, ce qui rï¿½duit l'espace mï¿½moire nï¿½cessaire,

une grande partie du dï¿½pouillage s'effectue lors du calcul mï¿½me, ce qui permet de gagner beaucoup de temps,

l'utilisateur peut modifier les paramï¿½tres du calcul au milieu de celui-ci, ï¿½vitant ainsi de tout recalculer depuis le dï¿½but.

I.9 : Petit rï¿½sumï¿½ :

L'ï¿½tude qui fait l'objet de ce mï¿½moire a plusieurs caractï¿½ristiques et contraintes :

Domaine d'ï¿½tude restreint, complexitï¿½ initiale limitï¿½e et maitrisï¿½e (ou du moins le croit-on).

Utilisation d'une plateforme informatique rï¿½pandue et ï¿½conomique.

Programmation "intelligente", ï¿½laborï¿½e et soignï¿½e, privilï¿½giant tant que possible la vitesse d'exï¿½cution aux dï¿½pends de la portabilitï¿½, de la vitesse de dï¿½veloppement et de la maintenabilitï¿½.

Travail de recherche sur l'adequation des algorithmes avec la plateforme pour accï¿½lï¿½rer au maximum l'exï¿½cution, transformant complï¿½tement le modï¿½le initial pour cadrer au plus prï¿½s avec la machine.

Interactivitï¿½ avec l'utilisateur, disponibilitï¿½ des rï¿½sultats et utilisation du potentiel du modï¿½le utilisï¿½.

Ces critï¿½res expliquent pourquoi ce projet ne ressemble pas ï¿½ des projets classiques : l'unique paramï¿½tre intï¿½ressant ï¿½tant la vitesse, de nombreux problï¿½mes ï¿½tant prï¿½cedemment rï¿½solus de maniï¿½re thï¿½oriques ou conceptuels, le dï¿½fi ï¿½ relever est la gestion de la complexitï¿½ croissante du projet.

Partie II : Prï¿½sentation des Gaz sur Rï¿½seaux

II.1 : Introduction :

Cette partie ne peut pas et n'a pas la prï¿½tention d'ï¿½tre exhaustive : le sujet est trop vaste pour pouvoir envisager d'en faire le tour complet. Il n'est pas non plus possible ici d'expliquer (encore et encore) ce que sont les LGA : d'autres articles ou livres le font trï¿½s bien. Le lecteur novice et pressï¿½ peut consulter l'annexe B, les explications les plus claires en franï¿½ais sont donnï¿½es en [18], [14] et [27]. Ce mï¿½moire discute de la programmation d'un modï¿½le physique, nous allons donc nous concentrer sur les notions essentielles qui permettent de comprendre les choix de conception.

II.2 : Nomenclature :

Le terme de "gaz sur rï¿½seau", ou "lattice gas automata" en anglais (LGA) n'a pas fait l'objet d'une ï¿½tude par l'Acadï¿½mie Franï¿½aise et la premiï¿½re question est de savoir s'il faut mettre "rï¿½seau" au pluriel. La rï¿½ponse la plus satisfaisante consiste ï¿½ considï¿½rer le rï¿½seau comme un mï¿½dium, un "ether" virtuel et digital sur lequel prennent vie des phï¿½nomï¿½nes, grï¿½ce au support physique de l'ordinateur. Un "gaz sur rï¿½seau" dï¿½signe donc un gaz particulier (par exemple "FHP-3") alors que l'expression "les gaz sur rï¿½seaux" dï¿½signe un ensemble de gaz aux propriï¿½tï¿½s diffï¿½rentes (par exemple l'ensemble des LGA en deux dimensions).

On peut aussi trouver dans la littï¿½rature diverses dï¿½nominations pour dï¿½signer un ou des gaz sur rï¿½seaux : "LGA", "LG" pour "Lattice Gas", "LGCA" pour "Lattice Gas Cellular Automata", GR ou GSR pour "gaz sur rï¿½seau(x)"... Les nombreuses variantes des modï¿½les apportent encore d'autres noms ou acronymes.

II.3 : Gï¿½nï¿½se :

L'existence des LGA est liï¿½e ï¿½ plusieurs courants d'idï¿½es ou techniques. D'abord, les LGA sont une simplification extrï¿½me des lois et des programmes de "Dynamique Molï¿½culaire" oï¿½ chaque particule (atomes ou molï¿½cules) d'une matiï¿½re est simulï¿½e avec sa vitesse, sa masse, sa direction, avec autant de valeurs en virgule flottante pour chaque grandeur et dans chaque dimension. Ainsi, contrairement aux mï¿½thodes d'ï¿½lï¿½ments finis, les particules sont simulï¿½es afin de laisser ressortir leur comportement individuel, au lieu de les enfermer dans des moyennes et des interpolations. Les Gaz sur Rï¿½seaux se situent entre le monde de la dynamique molï¿½culaire ("MD") d'une part et les techniques volumiques classiques (Euler ou Navier-Stokes par exemple) d'autre part, car ils apportent la capacitï¿½ de simuler de plus grands phï¿½nomï¿½nes qu'avec de la MD classique. Ils peuvent faire ï¿½merger des comportements de plus grande ï¿½chelle, accessibles seulement par les techniques d'ï¿½lï¿½ments finis mais avec un niveau de dï¿½tail supï¿½rieur.

L'autre facteur dï¿½terminant pour l'existence des LGA est la dï¿½mocratisation des ordinateurs. Il suffit en fait de peu de ressources pour commencer ï¿½ expï¿½rimenter sur ce type de "mï¿½dium". C'est cette dï¿½pendance technologique qui explique en partie l'historique de la mï¿½thode : tout comme pour les Automates Cellulaires classiques, les premiï¿½res expï¿½riences ont ï¿½tï¿½ rï¿½alisï¿½es ï¿½ la fin des annï¿½es 60 (Kadanoff & Swift, 1968) et le premier modï¿½le intensï¿½ment ï¿½tudiï¿½ (HPP) date officiellement de 1973. Le domaine a ensuite explosï¿½ au dï¿½but des annï¿½es 80 grï¿½ce ï¿½ des ressources informatiques rï¿½pandues et l'intï¿½rï¿½t du public. Les LGA ont des liens de parentï¿½ trï¿½s forts avec d'autres modï¿½les comme les Automates Cellulaires classiques ou le modï¿½le d'Ising, utilisï¿½s en thermodynamique ou pour ï¿½tudier les sï¿½parations de phases sans hydrodynamique. Le modï¿½le HPP reprï¿½sente une convergence naturelle de toutes ces influences et a crï¿½ï¿½ un nouveau domaine hybride et fascinant.

II.4 : Un premier modï¿½le : HPP

Les LGA sont issus de recherches de mï¿½canique statistique, un des objectifs ï¿½tant de simplifier les lourds calculs de dynamique molï¿½culaire pour en extraire les composantes fondamentales. Des modï¿½les ï¿½ vï¿½locitï¿½ finie, ï¿½ temps fini puis des simplifications de plus en plus radicales (binarisation et discrï¿½tisation totale) ont donnï¿½ le jour en 1973 au modï¿½le dit "HPP" [37] (initiales de Jean Hardy, Olivier de Pazzy et Yves Pomeau). Ce modï¿½le n'est pas utilisable en pratique mais sa comprï¿½hension est importante pour des raisons historiques et techniques car il n'est pas possible de faire plus simple (en deux dimensions). Il cristalise donc tous les dï¿½fauts et toutes les caractï¿½ristiques que l'on retrouve dans les modï¿½les plus ï¿½voluï¿½s et son ï¿½tude permet de gï¿½nï¿½raliser des techniques aux autres modï¿½les. Par exemple, les ï¿½quations de collision ou la complexitï¿½ algorithmique (comme dans [31]) sont ï¿½tudiï¿½es d'abord sur HPP avant d'ï¿½tre adaptï¿½es aux autres modï¿½les. HPP ressemble ï¿½ un Automate Cellulaire ï¿½ voisinage de Von Neumann (carrï¿½) simple, synchrone et homogï¿½ne. Il diffï¿½re d'un Automate Cellulaire classique car chaque cellule ne possï¿½de pas d'ï¿½tat interne : comme notï¿½ prï¿½cï¿½demment, le gaz sur rï¿½seau est un "mï¿½dium" sur lequel transitent des particules boolï¿½ennes qui s'entrechoquent aux intersections du grillage. Les cellules sont ici appelï¿½es "noeuds" et sont le siï¿½ge des collision. Comme le tapis d'un billard sur lequel roulent les boules, les particules se dï¿½placent sans friction sur cet "ether" informatique.

Les frictions que l'on veut faire apparaitre sont du type hydrodynamique (par exemple la viscositï¿½) et concernent les interactions entre particules. Les interactions avec le mï¿½dium servent ï¿½ dï¿½terminer les "conditions aux limites" (les parois ou les objets qui agissent sur le fluide). Les collisions entre les particules dï¿½terminent le comportement du fluide et avec HPP il n'y a pas beaucoup de choix : les rï¿½gles de conservation sont strictes et il n'y a pas beaucoup de degrï¿½s de libertï¿½. Ainsi :

Toute collision doit conserver le nombre de particules : il y a autant de particules qui entrent dans le noeud (affï¿½rentes) que de particules sortantes. Le contraire ne serait pas logique.
Toute collision doit conserver l'impulsion gï¿½nï¿½rale des particules : en "clair", la somme vectorielle des vecteurs mouvements de toutes les particules entrantes doit ï¿½tre identique ï¿½ la somme vectorielle des vecteurs mouvements de toutes les particules sortantes. Nous aurons l'occasion de revenir plus en dï¿½tail sur ce sujet bientï¿½t.
Il n'y a que 2^4 (16) configurations possibles pour chaque site. Les seuls quatre voisins limitent le nombre de combinaisons intï¿½ressantes.

Pour simplifier, les collisions n'ont qu'un seul cas particulier : le "choc frontal". Toute autre configuration est "transparente" et laisse les particules voyager librement. Le travail du programme de simulation HPP consiste ï¿½ faire voyager les particules d'un site ï¿½ l'autre et de vï¿½rifier ï¿½ chaque fois si un choc frontal a lieu. Puisque toutes les quantitï¿½s sont binaires, la complexitï¿½ algorithmique est considï¿½rablement simplifiï¿½e par rapport ï¿½ un programme de Dynamique Molï¿½culaire classique, oï¿½ les collisions peuvent se produire ï¿½ tout moment. De plus, on ï¿½conomise tous les tests de collisions comme tous les types de calculs en virgule flottante (potentiellement instables). Pourtant, mï¿½me avec HPP, des phï¿½nomï¿½nes hydrodynamiques (plus ou moins rï¿½alistes) peuvent apparaitre malgrï¿½ la simplification extrï¿½me : le comportement ï¿½ l'ï¿½chelle macroscopique ne dï¿½pend pas des propriï¿½tï¿½s microscopiques (par exemple, les mï¿½mes lois permettent d'ï¿½tudier les ï¿½coulements d'air et d'eau). Les collisions des particules dans les Gaz sur Rï¿½seaux jouent un rï¿½le crucial dans l'ï¿½mergence des phï¿½nomï¿½nes macroscopiques.

Parmi toutes les combinaisons possibles, le choc frontal est la seule qui permette de rï¿½organiser les particules affï¿½rentes tout en respectant les lois de conservation ï¿½noncï¿½es prï¿½cï¿½demment.

Description d'une collision frontale. La conservation de masse et du nombre de particules est simple puisque les particules ont la mï¿½me masse et le nombre de particules affï¿½rentes est identique au nombre de particules sortantes (deux dans ce cas). L'ï¿½nergie du systï¿½me est donc conservï¿½e. La conservation de l'impulsion (vecteur mouvement) est un peu plus dï¿½licate ï¿½ montrer, le dessin ci-dessous rï¿½sume l'idï¿½e.

Description des vecteurs mouvements d'une collision frontale.

L'impulsion est la somme des vecteurs mouvements des particules. Le cas de la collision frontale avec HPP se rï¿½sume ï¿½ additionner deux vecteurs (unitaires) de direction opposï¿½e, ce qui donne un vecteur nul. L'impulsion d'autres configuration donnera d'autres vecteurs mais le choc frontal est la seule configuration oï¿½ toutes les grandeurs ï¿½noncï¿½es sont conservï¿½es et oï¿½ l'on puisse avoir une autre configuration en sortie. Ce type d'ï¿½change de configuration est la base de l'ï¿½mergence de phï¿½nomï¿½nes d'hydrodynamique ï¿½ l'ï¿½chelle macroscopique et sera raffinï¿½ plus tard.

II.5 : Caractï¿½ristiques du modï¿½le HPP :

Le choc frontal reprï¿½sente 12,5% du champ de collision (2 combinaisons sur 16) et se produit ï¿½ une densitï¿½ de 0.5 (2 particules sur 4). Par rapport aux modï¿½les rï¿½cents, le premier rapport montre une faible efficacitï¿½ (faible rapport de nombre de Reynolds par site) mais HPP est inutilisï¿½ surtout parcequ'il a quatre "invariants" qui sont nuisibles dans la plupart des cas. Les "invariants" sont des quantitï¿½s conservï¿½es dans le modï¿½le et qui ne correspondent pas au comportement d'un fluide rï¿½el.

tempï¿½rature : HPP est un modï¿½le oï¿½ toutes les particules ont la mï¿½me vitesse. Or la vitesse des particules (dans l'air par exemple) est fonction de leur tempï¿½rature (et vice versa). Avec HPP la masse de toutes les particules est identiques, donc leur ï¿½nergie cinï¿½tique ne change pas. Il n'est pas possible de simuler des transferts de chaleur ou tout phï¿½nomï¿½ne oï¿½ la tempï¿½rature change : tout le fluide simulï¿½ est ï¿½ une tempï¿½rature uniforme, homogï¿½ne. Cela simplifie l'ï¿½tude des ï¿½quations caractï¿½ristiques mais interdit d'explorer les pans les plus passionnants de la mï¿½canique des fluides et de la thermodynamique.
invariance de paritï¿½ linï¿½aire (dï¿½solï¿½ pour le nï¿½ologisme) : un phï¿½nomï¿½ne curieux de non-rï¿½partition homogï¿½ne est implicitement portï¿½ par HPP. Il n'est pas possible de diffuser uniformï¿½ment une masse de particules dans un fluide, bien que la diffusion ne fasse pas apparaitre d'onde carrï¿½e prononcï¿½e. Cela est dï¿½ au fait que la collision frontale, seule permise par le modï¿½le, ne traite qu'un nombre pair de particules par lignes. Pour poser le problï¿½me simplement, on peut considï¿½rer que la paritï¿½ du nombre de particules sur une ligne ne change pas. L'effet indï¿½sirable n'est sensible qu'avec des gï¿½omï¿½tries trï¿½s petites mais reste gï¿½nant car il est conservï¿½ dans les ï¿½quations ï¿½ grande ï¿½chelle.
anisotropisme : tout phï¿½nomï¿½ne ne se produira pas de la mï¿½me maniï¿½re selon l'orientation par rapport ï¿½ la grille du gaz. Plus simplement, le fluide a un "axe de prï¿½fï¿½rence", l'orientation du mï¿½dium agit indirectement sur le fluide. C'est un dï¿½faut majeur qui empï¿½che d'ï¿½tudier correctement des tourbillons par exemple.
invariance galilï¿½enne : l'aspect monocinï¿½tique du fluide empï¿½che les tourbillons de se dï¿½placer ï¿½ la mï¿½me vitesse que le fluide. Si un tourbillon apparait dans le fluide, il sera advectï¿½ (emportï¿½) plus vite que celui-ci (selon les cas).

En simplifiant ï¿½ outrance la dynamique molï¿½culaire, de nombreux "artefacts" liï¿½s ï¿½ la discrï¿½tisation apparaissent. Les ï¿½quations qui rï¿½gissent le fluide prennent toutefois un nouveau visage et l'expï¿½rimentation informatique est plus facile. Depuis l'apparition de ce modï¿½le, de nombreuses variantes ont vu le jour pour attï¿½nuer ou ï¿½viter les problï¿½mes prï¿½sentï¿½s ici, ainsi que d'autres qui ont ï¿½tï¿½ dï¿½couverts ensuite.

II.6 : Le modï¿½le FHP :

Les Automates Cellulaires peuvent-ils rï¿½soudre des ï¿½quations diffï¿½rentielles partielles, comme celles de Navier-Stokes ?
Telle ï¿½tait la question cruciale posï¿½e par de nombreux scientifiques depuis l'apparition de ce domaine d'ï¿½tude. Rappelons que les premiers calculateurs automatiques ont ï¿½tï¿½ conï¿½us dans cette optique, comme la machine ï¿½ diffï¿½rences finies de Babbage ou le calculateur ï¿½lectronique de John Vincent Atanasoff (1937-1942). Stanislaw Ulam et Konrad Zuse dans les annï¿½es 50, Stepen Wolfram et Richard Feynman dans les annï¿½es 80, ont militï¿½ pour rï¿½soudre cet ï¿½pineux problï¿½me. Pourtant, ce n'est que dix ans aprï¿½s l'introduction du modï¿½le HPP que la connexion entre les deux sujets a ï¿½tï¿½ comprise. Uriel Frisch, Brosl Hasslacher et Yves Pomeau (d'oï¿½ FHP) ont proposï¿½ en 1986 une lï¿½gï¿½re modification qui permet de retrouver les ï¿½quations diffï¿½rentielles de Navier-Stokes [19].

La premiï¿½re modification du modï¿½le HPP porte sur le "medium" anisotropique. Au lieu d'un maillage carrï¿½, un maillage hexagonal est nï¿½cessaire et suffisant pour rï¿½soudre ce problï¿½me. Cette lï¿½gï¿½re modification permet en fait d'augmenter le nombre de degrï¿½s de libertï¿½ lors des collisions et d'avoir plus de possibilitï¿½s de sortie diffï¿½rentes. Le fluide a donc plus d'opportunitï¿½s de diffuser ses particules dans chaque direction et de diminuer sa viscositï¿½. Les simulations deviennent soudain plus intï¿½ressantes ...

La deuxiï¿½me amï¿½lioration du modï¿½le HPP rï¿½soud "l'invariance de paritï¿½ linï¿½aire" en exploitant ces nouveaux degrï¿½s de libertï¿½s. Le nombre de collisions ï¿½quivalentes augmente et il suffit d'ajouter une nouvelle loi de collision : la "collision triangulaire".

L'invariance galilï¿½enne sera pour l'instant corrigï¿½e par un adimensionnement d'une grandeur. Si l'advection d'un vortex a lieu ï¿½ quatre fois la vitesse du fluide, on divisera par quatre les vitesses mesurï¿½es pour retrouver l'invariance galilï¿½enne (en monophasique). Cette mï¿½thode n'est plus valable avec diffï¿½rentes phases mais cela sort du sujet du mï¿½moire.

La tempï¿½rature n'est pas un problï¿½me en soi, elle n'intervient pas dans les expï¿½riences qui intï¿½ressent les utilisateurs de LGA. Si elle est nï¿½cessaire, la solution est simple : avoir plusieurs vitesses de particules. Deux moyens existent : les particules elles-mï¿½mes sautent plusieurs sites ï¿½ chaque pas de temps, ou/et les liens ont plusieurs longueurs. Les rï¿½gles de collision doivent reflï¿½ter ces changements tout en respectant les rï¿½gles de conservation initiales. En deux dimensions, un tel rï¿½seau est gï¿½nï¿½ralement le voisinage de Moore ï¿½ 8 voisins : les diagonales sont 1.41 fois plus longues que les liens horizontaux ou verticaux. Le rï¿½seau hexagonal reste toutefois plus intï¿½ressant pour son plus grand nombre d'isomï¿½tries et donc par un plus grand nombre d'opportunitï¿½s de collisions ï¿½quivalentes (D2Q12 ?).

II.7 : Les rï¿½gles et les nouvelles propriï¿½tï¿½s de FHP-1 :

Dans leur fameux article [19], Frisch, Hasslacher et Pomeau vont dï¿½crire une premiï¿½re version du modï¿½le FHP qui rï¿½pond ï¿½ la contrainte d'ï¿½tre nï¿½cessaire et suffisante pour retrouver les ï¿½quations de Navier-Stokes ï¿½ grande ï¿½chelle. Seule la partie thï¿½orique est rï¿½solue dans l'ï¿½tude, l'efficacitï¿½ n'est pas au rendez-vous : les amï¿½liorations viendront plus tard, la dï¿½monstration ï¿½tant dï¿½jï¿½ un grand pas.

Les rï¿½gles de collision du modï¿½le FHP-1.

Le deuxiï¿½me effet du changement de gï¿½omï¿½trie, aprï¿½s avoir brisï¿½ l'anisotropie, fut d'apporter d'autres axes de symï¿½trie : 3 au lieu de 2. Il y en a maintenant 64 possibilitï¿½s de configuration en entrï¿½e, au lieu de 16. Les auteurs vont introduire 2 types de collisions au lieu d'une seule, soit 5 collisions au lieu de 2 pour HPP, si on tient compte des symï¿½tries et des rotations. On passe de 12,5 % ï¿½ 12,8 % d'exploitation du champ des collisions mais l'amï¿½lioration se situe autre part.

D'abord, la collision triangulaire amï¿½liore sensiblement la qualitï¿½ de l'ï¿½coulement et permet ï¿½ elle seule de faire apparaitre des comportements hydrodynamiques rï¿½alistes. Elle permet de faire "communiquer" entre elles des lignes et de mieux rï¿½partir les particules sur les diffï¿½rents axes du rï¿½seaux.

Ensuite, et c'est tout aussi remarquable : les collisions frontales n'ont plus seulement une, mais deux "voies de sortie". Il existe trois configurations d'entrï¿½e ï¿½quivalentes, ï¿½quiprobables, au lieu de deux pour HPP. Il faut donc choisir, lorsqu'un choc frontal a lieu, la configuration de sortie.

La premiï¿½re solution (naï¿½ve) est de fixer statiquement un ordre : par exemple effectuer une rotation de 60 degrï¿½s pour chaque configuration.

=> Cette solution introduit un nouvel effet parasite : la chiralitï¿½, ou prï¿½fï¿½rence d'un sens de rotation, qui est nï¿½faste lors de l'ï¿½mergence de phï¿½nomï¿½nes trï¿½s turbulents. Il faut ï¿½viter de favoriser une direction autant que possible afin de garder le fluide "pur". La chiralitï¿½ peut ï¿½tre un moyen de simuler l'effet de Coriolis mais ce n'est pas cohï¿½rent avec notre ï¿½chelle macroscopique.
Deuxiï¿½me solution, pour les programmeurs fatiguï¿½s ou pressï¿½s (comme Haarlan Stockman) : changer de chiralitï¿½ une ligne sur deux. La paritï¿½ du numï¿½ro de la ligne indique si le sens de rotation est de +60 ou -60 degrï¿½s.

=> Des ï¿½tudes [d'Humiï¿½res ?] ont montrï¿½ que les effets de la chiralitï¿½ ne sont pas totalement effacï¿½s, principalement au niveau des parois. Ce mauvais compromis n'est pas recommandï¿½ en pratique, mï¿½me si les effets ne sont pas directement visibles.
La solution recommandï¿½e est d'effectuer la rotation une fois sur deux, au hasard. Le gï¿½nï¿½rateur de nombres alï¿½atoires n'a pas besoin d'ï¿½tre de qualitï¿½ indiscutable, mais suffisante pour briser la chiralitï¿½. Il doit donc simplement ï¿½tre ï¿½quiprobable et avoir une longue pï¿½riode de rï¿½pï¿½tition. Dans notre programme d'expï¿½rimentation, le nombre alï¿½atoire est tout simplement mis ï¿½ jour en fonction des sites prï¿½cï¿½dents (un simple ADD avec les sites de direction A) ce qui fournit des donnï¿½es de nature suffisamment indï¿½pendantes pour briser la chiralitï¿½, aprï¿½s une pï¿½riode d'amorï¿½age nï¿½gligeable.

Si les chiralitï¿½s locales sont choisies chaque fois au hasard et de maniï¿½re totalement indï¿½pendante, le fluide simulï¿½ diffï¿½re d'un fluide HPP d'une autre faï¿½on encore : il devient irrï¿½versible. Alors qu'un fluide HPP est purement dï¿½terministe (toute configuration initiale des particules donnera une unique configuration finale) le fluide FHP peut donner un nombre quasiment infini de configurations de sorties, selon le gï¿½nï¿½rateur de nombres alï¿½atoires. Si les nombres sont "rï¿½ellement" alï¿½atoires, le fluide correspond ï¿½ un fluide rï¿½el et il n'est pas possible de remonter ï¿½ la configuration d'origine aprï¿½s n'importe quel nombre de pas de calcul.

Pour illustrer cette propriï¿½tï¿½ incroyable, on procï¿½de parfois ï¿½ l'expï¿½rience suivante : soit un programme FHP avec une configuration des particules initiales choisies arbitrairement. Le gï¿½nï¿½rateur de nombres alï¿½atoires est dï¿½terministe et rï¿½versible.

2) Les direction des particules sont toutes inversï¿½es et le programme est relancï¿½ avec le gï¿½nï¿½rateur de nombres alï¿½atoires tournant dans le sens inverse.

3) Aprï¿½s un mï¿½me nombre T de pas de temps, le fluide retrouve sa configuration initiale, telle qu'au dï¿½but du 1).

4) Ensuite, on restaure l'ï¿½tat du 2) et on change un bit, une direction de particule ou la "graine" du gï¿½nï¿½rateur de nombres alï¿½atoires. Quel que soit le nombre de pas de temps de calcul, la configuration initiale ne sera pas retrouvï¿½e et elle restera certainement ï¿½ l'ï¿½tat de "soupe brownienne".

Christopher Moore a dï¿½montrï¿½ [31] que la prï¿½diction du rï¿½sultat d'un calcul FHP fait partie de l'ensemble P-complet. En franï¿½ais, cela signifie que pour obtenir le rï¿½sultat de N cycles, il faut effectuer tous les N pas de temps les uns aprï¿½s les autres : il n'y a pas de court-circuit possible. Il n'y a thï¿½oriquement pas de moyen de calculer le Niï¿½me ï¿½tat d'un LGA sans calculer tous les ï¿½tats prï¿½cï¿½dents. Le calcul "brut" est la seule voie possible pour atteindre le rï¿½sultat de la simulation, les optimisations doivent donc porter sur la partie de calcul.

Le fluide FHP a des propriï¿½tï¿½s fortement non linï¿½aires et dissipatives, ainsi que de nombreuses autres propriï¿½tï¿½s curieuses, malgrï¿½ sa simplicitï¿½ ï¿½tonnante. Il obï¿½it ï¿½ la loi de Mariotte et des gaz parfaits. Il est un milieu compressible et peut donc propager une onde "sonore" de maniï¿½re circulaire comme dans la nature. Son calcul est par construction inconditionnellement stable et exact. Mais son efficacitï¿½ est mauvaise en pratique : le chemin parcouru par une particule entre deux collisions (mean free path en anglais) est trï¿½s long en moyenne, la viscositï¿½ du fluide est forte et il faut donc des millions de sites pour simuler des phï¿½nomï¿½nes intï¿½ressants.

II.8 : Les amï¿½liorations de FHP-2 :

La premiï¿½re amï¿½lioration du modï¿½le FHP original, ensuite renommï¿½ FHP-1, fut d'ajouter une "particule immobile". Cet ajout permet de porter le nombre de configurations ï¿½ 128 et de rajouter de nombreuses opportunitï¿½s inespï¿½rï¿½es pour rï¿½arranger les particules en sorties. La viscositï¿½ chute et le modï¿½le devient plus efficace. On commence aussi ï¿½ s'intï¿½resser aux propriï¿½tï¿½s de dualitï¿½ du modï¿½le : dans le cas du choc frontal, remplacer une particule par un "trou" et vice versa est tout ï¿½ fait valable.

Les rï¿½gles de collision additionnelles du modï¿½le FHP-2.

La viscositï¿½ diminue et le nombre de collisions augmente : 20 entrï¿½es mais l'occupation du champ de collision reste faible : 15 %. Bien que les possibilitï¿½s augmentent et que la dï¿½finition du modï¿½le FHP-2 ne soit pas trï¿½s prï¿½cise, il reste encore des efforts ï¿½ faire.

II.9 : Caractï¿½ristiques particuliï¿½res du modï¿½le FHP-3 :

Le modï¿½le sur lequel nous allons nous attarder est le modï¿½le FHP-3. Il est une extension du modï¿½le FHP-2 avec une jeu de collisions saturï¿½ : 76 combinaisons sur 128 donnent lieu ï¿½ un rï¿½arrangement des particules ï¿½ la sortie. 59 % : c'est le maximum d'occupation du champ de collisions que l'on puisse obtenir avec 7 bits. La table des collisions sera analysï¿½e en dï¿½tail dans la partie IV alors attardons-nous ici sur les raisons d'ï¿½tudier ce modï¿½le particulier.

Tout d'abord, ce modï¿½le offre un compromis acceptable de simplicitï¿½ et d'efficacitï¿½. Il n'est pas plus avantageux de faire plus simple : les deux modï¿½les FHP dï¿½crits prï¿½cï¿½demment sont conceptuellement plus simples mais la surcharge en calcul dï¿½e aux collisions plus complexes de FHP-3 est largement compensï¿½e par la rï¿½duction du nombre de donnï¿½es ï¿½ traiter, donc le temps de calcul est rï¿½duit. Nous verrons aussi que les modï¿½les FHP sont memory bound sur la plateforme qui nous concerne, une accï¿½lï¿½ration des calculs n'a donc pas d'influence radicale sur le temps total de calcul car la mï¿½moire est trop lente. La programmation de FHP-3 est plus avantageuse que FHP-1 ou FHP-2 malgrï¿½ une plus grande complexitï¿½.

Il n'est pas non plus envisageable ï¿½ notre niveau de programmer un modï¿½le plus efficace : aprï¿½s FHP3, aucun modï¿½le ne fait autoritï¿½ et n'est suffisamment connu pour ï¿½tre utilisï¿½ dans le cadre de notre ï¿½tude de cas. Aprï¿½s FHP-3, le foisonnement d'amï¿½liorations a dispersï¿½ les efforts et aucun nouveau modï¿½le discret n'est assez maitrisï¿½e par le public novice. De plus, la plus grande partie des nouveaux modï¿½les implique une rï¿½organisation complï¿½te des donnï¿½es et du programme : nouveaux rï¿½seaux, nouvelles gï¿½omï¿½tries, nouvelles lois et nouveaux artefacts ï¿½ maitriser. Enfin, notre travail doit rester une ï¿½tude de cas simple et notre but n'est pas d'ï¿½tudier un nouveau modï¿½le en profondeur : nous voulons simplement en faire fonctionner un le plus vite possible.

FHP-3 est donc l'un des derniers modï¿½les "stables" et connus avant la diversification des modï¿½les. On peut ainsi espï¿½rer que des techniques dï¿½veloppï¿½es pour FHP-3 sont rï¿½utilisables facilement dans les autres modï¿½les. Ces techniques (notamment le strip mining) et leurs implications seront ainsi facilement comprises par les utilisateurs qui les rï¿½utiliseront et les amï¿½lioreront selon les cas.

II.10 : Propriï¿½tï¿½s physiques des modï¿½les FHP :

Pour illustrer les propos du chapitre prï¿½cï¿½dent, nous ï¿½tudierons le tabelau suivant :

modï¿½le FHP-1 FHP-2 FHP-3
Cs
(vitesse du son en site par cycle)
g
f*
(densitï¿½ idï¿½ale, en occupation du site) 0,187 0,179 0,285
Re*
(Nombre maximal de Reynolds par site ï¿½ la densitï¿½ idï¿½ale) 0,387 1,08 2,22

Pour fonctionner correctement, ï¿½ un nombre de Reynolds maximum, les Gaz sur Rï¿½seaux doivent ï¿½tre utilisï¿½s autour d'une densitï¿½ particuliï¿½re qui dï¿½pend du modï¿½le. Pour FHP-3, cette densitï¿½ est heureusement simple : deux particules par site (2/7 = 0,285). Si l'invariance galilï¿½enne est nï¿½cessaire, la densitï¿½ peut ï¿½tre diffï¿½rente. La vitesse des ï¿½coulements doit aussi ï¿½tre limitï¿½e, en pratique ï¿½ Mach 0.3 soit au maximum 0,6*0,3 = 0,2 sites par pas de temps.

Puisque nous parlons ici du nombre de Reynolds, attardons-nous dans ce paragraphe sur sa dï¿½finition. Pour simplifier un peu arbitrairement, il met en relation la taille d'un objet ou d'un phï¿½nomï¿½ne avec la viscositï¿½ du fluide. Pour un gaz sur rï¿½seau, la viscositï¿½ correspond ï¿½ une sorte de rï¿½sistance ï¿½ la diffusion d'une force ou d'une perturbation dans toutes les directions. Ainsi, plus le nombre de Reynolds est ï¿½levï¿½, plus les phï¿½nomï¿½nes se diffusent et les gï¿½omï¿½tries sont complexes. Il est ainsi possible de comparer des phï¿½nomï¿½nes qui ont lieu ï¿½ des vitesses diffï¿½rentes, ï¿½ des ï¿½chelles diffï¿½rentes, ï¿½ des pressions diffï¿½rentes dans des matiï¿½res diffï¿½rentes, la complexitï¿½ du phï¿½nomï¿½ne est ainsi rï¿½duite ï¿½ un seul nombre sans unitï¿½. Il correspond aux ï¿½quivalences suivantes, de la plus thï¿½orique ï¿½ la plus pratique pour nous :

avec

En consï¿½quence, avec un gaz sur rï¿½seau, nous pouvons dï¿½duire le nombre de Reynolds caractï¿½ristique d'un ï¿½coulement ï¿½ partir de la vitesse (en nombre de Mach) du fluide, multipliï¿½e par la longueur caractï¿½ristique de l'ï¿½coulement (L) et l'efficacitï¿½ du modï¿½le (Re*).

Le tableau montre que le gain en efficacitï¿½ en nombre de Reynolds entre FHP-1 et FHP-3 est environ d'un facteur 6. Il faut donc en thï¿½orie 36 fois moins de sites et 6^3=216 fois moins de temps de calcul avec FHP-3 (puisque le temps de calcul croï¿½t environ ï¿½ la puissance troisiï¿½me de la longueur caractï¿½ristique). Les paramï¿½tres idï¿½aux d'utilisation changent aussi, tout comme les caractï¿½ristiques (par exemple la vitesse du son). Le respect de ces paramï¿½tres est crucial pour utiliser FHP de maniï¿½re optimale et sans surprise : il suffit d'un ï¿½cart pour observer des phï¿½nomï¿½nes non physiques (artifacts).

De plus, on ne reviendra jamais assez sur l'importance de l'adimensionnement liï¿½ ï¿½ l'invariance galilï¿½enne ! A densitï¿½ idï¿½ale, la vitesse du fluide doit ï¿½tre multiplitï¿½e par 3/10 (voir la formule du tableau avec une densitï¿½ de 2/7).

Pour les Gaz sur Rï¿½seaux du type FHP, d'autres phï¿½nomï¿½nes curieux, inattendus et inquiï¿½tants apparaissent. Pour des ï¿½coulements ï¿½ pression constante, les rï¿½gions ï¿½ plus grande vitesse ont une plus grande densitï¿½ :

avec

ce qui ne correspond pas ï¿½ la formule normale :

L'ï¿½quation de Navier-Stokes pour le cas gï¿½nï¿½ral est celle-ci :

Mais pour un Gaz sur Rï¿½seau (hexagonal) ï¿½ basse pression et ï¿½ basse vitesse, elle devient :

Le terme g(rho) est ajoutï¿½ pour corriger l'invariance galilï¿½enne. Il est donnï¿½ dans le tableau prï¿½cï¿½dent, oï¿½ il dï¿½pend de la densitï¿½. Selon les cas, il peut ï¿½tre intï¿½grï¿½ dans l'adimensionnement d'une grandeur (vitesse, pression, temps...). Il faut alors choisir la densitï¿½ en fonction du critï¿½re d'expï¿½rimentation, soit un grand nombre de Reynolds ou l'invariance galilï¿½enne, restaurï¿½e d'une maniï¿½re ou d'une autre. La pression, la densitï¿½, la vitesse, la viscositï¿½ et le temps sont ainsi enchevï¿½trï¿½s de maniï¿½re complexe et leur ï¿½tude sort du cadre de ce mï¿½moire puisqu'elle est disponible dans la littï¿½rature spï¿½cialisï¿½e. L'utilisateur est mis en garde du fait que la validitï¿½ des rï¿½sultats dï¿½pend de la qualitï¿½ de l'analyse du problï¿½me et de la comprï¿½hension intime des mï¿½canismes mis en jeu. Le programme seul ne pourra donner de rï¿½sultat correct que dans des conditions contrï¿½lï¿½es par l'utilisateur.

Les gaz sur rï¿½seaux FHP ne sont pas parfaits, nous le savons maintenant. Mais il y a surtout un dï¿½tail ï¿½ rendre insomniaque car aucune solution simple n'est satisfaisante. Le problï¿½me peut ï¿½tre ï¿½noncï¿½ de cette maniï¿½re : si deux particules voyagent sur le mï¿½me lien en sens inverse, elles ont moins d'une chance sur deux pour ï¿½tre dï¿½viï¿½es dans un choc frontal. En consï¿½qunce, la viscositï¿½ de FHP-3 est infï¿½rieure ï¿½ ce que le modï¿½le pourrait fournir dans un cas idï¿½al oï¿½ tout ï¿½vï¿½nement d'une particule croisant une autre donnerait lieu ï¿½ une rï¿½organisation des configurations. Le problï¿½me touche la nature mï¿½me du rï¿½seau car un lien entre deux noeuds a deux canaux unidirectionnels et indï¿½pendants. Il n'est pas possible de diviser ce canal en deux tronï¿½ons et de tester les collisions ï¿½ cet endroit car il faudrait disposer d'une autre dimension ou direction pour rï¿½ordonner les configurations ï¿½ chaque temps t+1/2. Le problï¿½me a ï¿½tï¿½ abandonnï¿½, les caractï¿½ristiques des rï¿½seaux existants ï¿½tant estimï¿½s suffisamment satisfaisantes. Mais surtout, il faut respecter le principe d'exclusion de Fermi qui stipule que deux particules ne peuvent pas avoir la mï¿½me position et la mï¿½me vitesse au mï¿½me instant.

Le dernier dï¿½faut reprochï¿½ aux LGA boolï¿½ens est la quantisation et le fort niveau de bruit. Il faut effectuer des moyennes, ce qui empï¿½che quasiment toute mesure ponctuelle. Un physicien prï¿½fï¿½re souvent 10% d'erreur ï¿½ 10% de bruit lorsqu'il veut effectuer un calcul. Notons toutefois pour terminer que la prï¿½cision d'un gaz sur rï¿½seau approche 1% dans des conditions idï¿½ales, soit environ la prï¿½cision de la mesure. Les mï¿½thodes traditionnelles sont qualitativement et quantitativement plus imprï¿½cises en pratique et nï¿½cessitent de nombreuses mises ï¿½ l'ï¿½chelle ainsi que des mesures rï¿½elles.

II.11 : Extensions diverses :

Pour clore cette partie, nous allons voir quelques variations sur le thï¿½me des Gaz sur Rï¿½seaux. La premiï¿½re famille conserve l'aspect binaire, ou dicret, de HPP/FHP : des modï¿½les thermiques, comme ï¿½voquï¿½s prï¿½cï¿½demment, ont ï¿½tï¿½ ï¿½tudiï¿½s (gï¿½omï¿½trie D2Q9) [13]. Diverses ï¿½tudes ont permis de mieux contrï¿½ler l'invariance galilï¿½enne du modï¿½le : par exemple le modï¿½le FHP-4 avec plusieurs particules immobiles [20][28][29]. Des modï¿½les ï¿½ plusieurs phases (matiï¿½res) miscibles ou immiscibles permettent d'injecter des "traceurs" dans des ï¿½coulements, ou de simuler la sï¿½paration de deux fluides (comme de l'huile se sï¿½parant de l'eau) [9][15][16]. En 1988, Jean-Pierre Rivet [11] programme un Gaz sur Rï¿½seau en 3D ï¿½ grande ï¿½chelle sur un rï¿½seau FCHC (HyperCube ï¿½ Faces Centrï¿½es). En 1990, C. Appert et S. Zaleski ajoutent des forces non locales entre particules pour calculer la sï¿½paration de phases.

Les LGA discrets ont vite ï¿½tï¿½ supplantï¿½s par la famille des LGA en virgule flottante car leur rapport efficacitï¿½/temps de calcul est plus intï¿½ressant. La disponibilitï¿½ de plateformes suffisamment puissantes a permis ï¿½ ce domaine de croï¿½tre au point de canaliser la plupart des efforts de recherche. Les utilisateurs de CAM-8 sont probablement les derniers ï¿½ utiliser des modï¿½les discrets. La premiï¿½re raison d'utiliser les nouveaux modï¿½les est simple : il n'y a pas besoin d'intï¿½grer de nombreux points pour effectuer une mesure. Les modï¿½les discrets sont intrinsï¿½quement bruitï¿½s et les physiciens dï¿½testent le bruit. Ce bruit est pourtant intï¿½ressant pour faire ï¿½merger des phï¿½nomï¿½nes spontanï¿½ment alors qu'ils sont forcï¿½s dans la pratique (par exemple : dissymï¿½trie dans un tunnel pour forcer des allï¿½es de Von Karman ï¿½ apparaitre rapidement, voir la partie III.9).

Pour rï¿½duire la viscositï¿½, les nombres en virgule flottante sont utilisï¿½s car ils ont une plage dynamique bien supï¿½rieure ï¿½ un seul bit. Toutefois on ne peut plus utiliser les techniques de collision classiques ! On utilise alors les mï¿½thodes de Bolzman, l'opï¿½rateur BGK est le plus souvent utilisï¿½ actuellement. Le nombre de Reynolds est bien plus grand et les mesures sont plus faciles avec un mï¿½me nombre de sites, mï¿½me si ces sites prennent plus de place en mï¿½moire qu'un site FHP. La mï¿½thode de Bolzman est utilisï¿½e dans presque tous les domaines actuellement, avec autant ou plus de diversitï¿½ que le modï¿½le FHP, mï¿½me si le dï¿½bogage est encore plus difficile qu'avec FHP : lorsque la densitï¿½ n'est pas exactement conservï¿½e, on ne peut pas savoir exactement si c'est une erreur d'arrondi, de frappe ou de formule...

Enfin, puisque le bruit est nï¿½cessaire dans certains cas, Boghossian et al. [35] ont introduit les ILG : Integer Lattice Gases, sensï¿½s avoir ï¿½ la fois les avantages des modï¿½les discrets et continus. Les premiï¿½res expï¿½riences ont calmï¿½ l'optimisme initial, mais tout espoir n'est pas perdu.

II.12 : Conclusion :

Le modï¿½le FHP-3 allie une simplicitï¿½ relative ï¿½ des caractï¿½ristiques suffisamment intï¿½ressantes pour justifier les efforts de programmation qui sont effectuï¿½s dans ce domaine. Nous avons toutefois constatï¿½ qu'il ne peut ï¿½tre utilisï¿½ que dans un nombre restreint de cas et dans des conditions sï¿½vï¿½rement contrï¿½lï¿½es mais notre ï¿½tude porte uniquement sur les aspects architecturaux et algorithmiques de ce type de modï¿½les. Cette deuxiï¿½me partie est la seule qui porte sur les aspects purement thï¿½oriques et nous pouvons maintenant nous intï¿½resser aux algorithmes dans tout le reste de ce mï¿½moire, tout en ï¿½tant conscient des possibilitï¿½s et des limites du modï¿½le.

Partie III : Prï¿½sentation des travaux antï¿½rieurs

III.1 : Introduction :

Aprï¿½s la partie prï¿½cï¿½dente, qui rappelle les points clï¿½s de mï¿½canique qui nous concernent, cette partie prï¿½sente les techniques classiques et basiques pour programmer les Gaz sur Rï¿½seaux. Elle est la base et le point de dï¿½part du travail rï¿½alisï¿½ pour ce mï¿½moire. La premiï¿½re implï¿½mentation de rï¿½fï¿½rence est donnï¿½e en annexe B : elle a fait l'objet d'un article dans le journal Pascalissime et permet de comprendre les problï¿½mes de base posï¿½s par le modï¿½le FHP3. Nous ï¿½tudierons la structure et la conception du programme puis les problï¿½mes rencontrï¿½s pour arriver ï¿½ la description d'une deuxiï¿½me implï¿½mentation de rï¿½fï¿½rence plus sophistiquï¿½e. Enfin nous analyserons plus en profondeur les caractï¿½ristiques de la programmation des LGA pour prï¿½parer la version de ce mï¿½moire.

III.2 : Idï¿½es de base :

Le premier programme, ï¿½crit ï¿½ l'origine en Turbo Pascal, a ï¿½tï¿½ inspirï¿½ par l'article de Pierre Lallemand, paru Revue du Palais de la Dï¿½couverte [18] et dï¿½crivant approximativement le modï¿½le FHP-2. Le seul paragraphe dans lequel la programmation est abordï¿½e est celui-ci :

" Nous donnons d'abord quelques brï¿½ves indications sur ces expï¿½riences, pour susciter d'ï¿½ventuelles vocations auprï¿½s des lecteurs disposant d'un ordinateur personnel. Chaque noeud du rï¿½seau est reprï¿½sentï¿½ par un nombre formï¿½ par la juxtaposition de sept nombres ï¿½gaux ï¿½ 0 ou 1 (bits) : un octet de la mï¿½moire d'ordinateur suffira donc pour dï¿½crire chaque site. L'ï¿½volution temporelle se fait en deux ï¿½tapes :

propagation des particules par dï¿½placement vers les noeuds voisins des bits convenables

collision en chaque noeud en allant lire dans une table prï¿½parï¿½e une fois pour toutes le rï¿½sultat de la collision particuliï¿½re. "

Mais ces indications m'ont longtemps laissï¿½ perplexe. J'ai ensuite cherchï¿½ de l'aide dans les thï¿½ses de Valï¿½rie Pot [15] et d'Umberto d'Ortona [14] ï¿½ Jussieu mais aucun code et aucune indication ne sont fournis. Pourtant, les questions suivantes sont simples :

Que contient la table, et comment la fabrique-t-on ?
Que reprï¿½sentent les bits ? Un lien ou un noeud ?

La premiï¿½re question est rï¿½solue par du "travail sur papier" et une analyse exhaustive des collisions possibles. Le travail est effectuï¿½ avec des reprï¿½sentations vectorielles des configurations afin de trouver des rï¿½organisations possibles. Pourtant, les efforts seuls, sans source de rï¿½fï¿½rence, ont donnï¿½ la table des collisions de l'annexe B qui n'est pas complï¿½tement juste, malgrï¿½ un bon dï¿½but. Les progrï¿½s sont difficiles sans exemple, ce qui motive en retour l'aspect instructif de ce mï¿½moire. Nous reviendrons sur la constitution de la lookup table dans la partie IV.

La reprï¿½sentation des donnï¿½es est un problï¿½me tout aussi compliquï¿½ lorqu'aucune rï¿½fï¿½rence n'est disponible. En effet, mï¿½me s'il est clair qu'un bit peut reprï¿½senter une particule et qu'un octet permet de reprï¿½senter toutes les directions, un pas de temps comporte de nombreux pas intermï¿½diaires et le rï¿½seau reprï¿½sente l'ï¿½tat figï¿½ des particules ï¿½ un instant qui n'est pas prï¿½cisï¿½ par le modï¿½le. En effet, un pas de temps commence-t-il par une collision ou un dï¿½placement ? Reprï¿½sentons-nous les particules qui entrent ou qui sortent ? Un bit reprï¿½sente-t-il un lien ou un noeud ? Comment organiser les donnï¿½es pour qu'elles soient facilement manipulï¿½es ?

Une fois que la transposition d'un rï¿½seau carrï¿½ ï¿½ un rï¿½seau hexagonal est comprise, nous pouvons partir d'un "ether" simple et bï¿½tir l'algorithme de calcul ï¿½ partir du code de dï¿½placement. Tout d'abord, le calcul est effectuï¿½ cycle aprï¿½s cycle, et l'ï¿½tat du rï¿½seau reprï¿½sente les particules ï¿½ chaque cycle, sans se prï¿½occuper de la sous-ï¿½tape (avant ou aprï¿½s collision ou dï¿½placement). Ce qui importe est le changement entre chaque cycle : une particule se propage cycle aprï¿½s cycle en sautant d'un noeud ï¿½ un autre. Pour effectuer ce changement, la fonction de "calcul" effectue les deux opï¿½rations (propagation et collision), une cellule aprï¿½s l'autre. Effectuer les deux opï¿½rations l'une aprï¿½s l'autre sur tout le rï¿½seau impliquerait la programmation de deux boucles indï¿½pendantes et augmenterait le nombre d'accï¿½s ï¿½ la mï¿½moire. Dans tous les algorithmes qui suivront, les deux opï¿½rations sont effectuï¿½es ï¿½ l'intï¿½rieur de la mï¿½me boucle pour bï¿½nï¿½ficier de la localitï¿½ des registres.

La technique d'ï¿½laboration du programme est simple :
- D'abord mettre en place la boucle externe avec la prï¿½paration des pointeurs vers les donnï¿½es.
- Ensuite, programmer la propagation des particules : charger un octet de mï¿½moire et distribuer un par un tous les bits vers les noeuds voisins, avec la gestion des variables temporaires (pour ï¿½viter le recouvrement dans certaines directions, comme expliquï¿½ dans le chapitre suivant).
- Enfin, lorsque le dï¿½placement est fonctionnel (tous les bits se dï¿½placent comme prï¿½vu sur le rï¿½seau), il ne reste plus qu'ï¿½ inclure la consultation de la table, juste aprï¿½s l'endroit oï¿½ le noeud courant est lu.

Il devient clair aussi que la table, puisqu'elle est consultï¿½e entre le chargement et la distribution, doit contenir une reprï¿½sentation aussi simple et complï¿½te que possible des opï¿½rations ï¿½ effectuer. La table peut effectuer des opï¿½rations complexes et rï¿½duire la taille du programme, elle concentre donc toute l'intelligence du code de collision. L'annexe B montre deux maniï¿½res de la programmer : par code explicite ou par constante ï¿½ la compilation. La table exploite ainsi le huitiï¿½me bit pour effectuer la collision avec des "murs" virtuels sans ajouter une seule ligne de code. Des effets de pesanteur ou d'attraction peuvent mï¿½me ï¿½tre ajoutï¿½s en modifiant lï¿½gï¿½rement certaines entrï¿½es de la table. C'en est presque trop facile ...

III.3 : Les plans temporaires :

Un aspect mï¿½connu des programmes de ce type concerne les "plans temporaires" : le problï¿½me ne peut ï¿½tre apprï¿½hendï¿½ dans toute sa complexitï¿½ que lors de la programmation, lorsqu'il est dï¿½jï¿½ trop tard. Ce problï¿½me deviendra encore plus prï¿½pondï¿½rant avec les codes de strip mining et il est important pour la suite du travail de maitriser parfaitement l'algorithme et les donnï¿½es associï¿½es.

Les "plans temporaires" deviennent trï¿½s important pour les gï¿½omï¿½tries trï¿½s larges car mï¿½me avec un ordinateur disposant de toute la mï¿½moire vive du monde, il est important de l'utiliser correctement. Les plans temporaires sont dï¿½cris succintement dans l'annexe B et dans la partie V.6 mais ï¿½tudions ici leur thï¿½orie gï¿½nï¿½rale en partant d'un cas de dimension 1 (par exemple un automate cellulaire linï¿½aire) :

Dans un ordinateur "sï¿½quenciel", les noeuds sont traitï¿½s un par un. Supposons que le sens de balayage soit le mï¿½me que le sens de x et regardons ce que ferait un algorithme simple mais mauvais :


1) d'abord il lit la valeur du noeud courant en x,
2) ensuite il calcule la valeur suivante,
     par consultation de la table par exemple,
3) enfin il ï¿½crit une partie du rï¿½sultat dans chaque
     partie correspondante : x-1, x et x+1
4) il incrï¿½mente x et retourne en 1) si la ligne n'est pas terminï¿½e.

Cet algorithme est mauvais car au cycle suivant de la boucle du temps t, il trouvera en x+1 une valeur qui correspondra ï¿½ t+1 et la catastrophe sera inï¿½vitable :

La solution la plus simple est d'utiliser deux plans de travail : un plan "source" et un plan "destination", permettant une complexitï¿½ arbitraire dans le voisinage avec l'argument choc que le "transfert" s'effectue simplement en ï¿½changeant les deux pointeurs vers les tableaux :

Toutefois, lorsque la taille totale des tableaux atteint les limites de la mï¿½moire de l'ordinateur, il est clair que seule une moitiï¿½ est vraiment utile car les informations sont redondantes ou inutilisï¿½es. Cette considï¿½ration devient incontournable pour les simulations en 3D car elles utilisent une quantitï¿½ phï¿½nomï¿½nale de mï¿½moire (de 16MO ï¿½ 4GO dans certains cas). L'argument de simplicitï¿½ de la technique de l'ï¿½change de pointeurs perd toute crï¿½dibilitï¿½ devant ce problï¿½me.

La solution privilï¿½giï¿½e, bien que plus complexe, utilise un "plan temporaire" pour mï¿½moriser le rï¿½sultat de chaque cycle et ï¿½viter le "court circuit temporel" dï¿½crit plus haut. Les caractï¿½ristiques de cette mï¿½moire dï¿½pendent de la quantitï¿½ d'informations qui doit voyager dans le mï¿½me sens que celui du balayage. Pour l'exemple de l'automate cellulaire linï¿½aire dï¿½crit plus haut, il faut mï¿½moriser un mot ou un bit car le dï¿½placement se fait vers le voisin immï¿½diat. Au niveau de l'algorithme, cela se traduit par la nï¿½cessitï¿½ de retarder l'ï¿½criture du rï¿½sultat. Le programme est dotï¿½ d'une valeur temporaire (plan ponctuel) et devient ainsi :


1) lire la valeur du noeud courant en x,
2) ï¿½crire en x la valeur temporaire,
3) calculer la valeur suivante de x,
4) ï¿½crire chaque partie du rï¿½sultat dans chaque partie correspondante :
   x-1, x mais x+1 va dans la valeur temporaire.
5) incrï¿½menter x et retourner en 1) si la ligne n'est pas terminï¿½e.

Le graphe de dataflow suivant illustre une autre maniï¿½re de rï¿½soudre le problï¿½me :

Une difficultï¿½ supplï¿½mentaire est d'amorcer le programme en fournissant une valeur initiale correspondant ï¿½ l'extrï¿½mitï¿½ de la ligne : cela peut ï¿½tre astucieusement utilisï¿½ pour injecter des particules dans le domaine d'ï¿½tude et crï¿½er un vent artificiel. De mï¿½me, la valeur finale de la variable temporaire (ï¿½ la fin de la ligne) peut ï¿½tre ignorï¿½e pour faire disparaitre les particules et crï¿½er une sorte de bouche de sortie pour le fluide. Les particules peuvent ainsi ï¿½tre crï¿½ï¿½es puis effacï¿½es ï¿½ des extrï¿½mitï¿½s opposï¿½es du tunnel, ce qui gï¿½nï¿½re naturellement un vent dans le tunnel. Des techniques plus sophistiquï¿½es sont cependant recommandï¿½es car cette mï¿½thode est aussi simple que limitï¿½e dans la pratique.

Toutefois nous traitons des tableaux en deux dimensions et les choses ont tendance ï¿½ s'emmï¿½ler et rendre la programmation trï¿½s dï¿½licate. Il y a pourtant une rï¿½gle simple ï¿½ retenir : il faut un buffer temporaire par dimension (que la dimension soit temporelle ou spatiale) et l'information ï¿½ mï¿½moriser correspond au voyage qu'effectuent les particules dans le sens du balayage.

Pour appliquer l'algorithme en 2 dimensions, il faut un plan temporaire indï¿½pendant pour chaque dimension. Les colonnes sont traitï¿½es exactement de la mï¿½me maniï¿½re qu'une ligne mais aprï¿½s projection sur la dimension perpendiculaire : ce n'est plus un noeud de mï¿½moire qui est nï¿½cessaire pour le plan temporaire mais toute une ligne. Pour un tableau de x * y noeuds, il faudra en tout M = 1 + x + xy noeuds en mï¿½moire. En rï¿½gle gï¿½nï¿½rale, on compte (x+1)*y noeuds pour l'allocation de la mï¿½moire d'un tableau 2D.

La formule se gï¿½nï¿½ralise facilement ï¿½ toute dimension N>1 et elle se rï¿½duit approximativement ï¿½ la un polynï¿½me si toutes les dimensions sont similaires. On peut ainsi prouver que la quantitï¿½ totale de mï¿½moire ne s'approche pas du double de la taille du tunnel comme dans l'alternative prï¿½cï¿½dente. Par exemple, pour un rï¿½seau en 3D de dimensions (x,y,z) avec un voyage d'un noeud par pas de temps, il faudra en tout M = 1 + x + xy + xyz noeuds de mï¿½moire. Si x, y et z sont des valeur rapprochï¿½es, la formule devient le polynï¿½me suivant : M = x^0 + x^1 + x^2 + x^3 = 1 + x + x^2 + x^3. Elle tend ainsi vers M = (x+1)^N et permet, pour un cas donnï¿½, d'utiliser moins de mï¿½moire ou d'avoir un tableau plus grand, par rapport ï¿½ la technique de l'ï¿½change de pointeurs (M = 2x^N).

Naturellement, la complexitï¿½ du programme augmente mais comme pour le reste cela dï¿½pend de l'expï¿½rience, des ressources, de la patience et de la comprï¿½hension de la technique. Un cas intermï¿½diaire (compromis complexitï¿½/espace mï¿½moire) serait de diviser le tunnel en de nombreuses parties et de disposer d'un plan temporaire : chaque bloc ayant la mï¿½me taille, il est facile d'utiliser la technique d'ï¿½change de pointeurs sans pour autant doubler l'occupation de la mï¿½moire. Cette technique ne permettant pas de rï¿½duire directement le temps de calcul, elle n'est pas ï¿½tudiï¿½e ici. De plus, les fortes contraintes en mï¿½moire sur les PC ainsi que les mï¿½moires caches (principalement les modes write through et write back qui ne peuvent pas toujours ï¿½tre contrï¿½lï¿½s) favorisent la technique de plan temporaire minimal, dï¿½crite plus haut.

III.4 : Premier code de rï¿½fï¿½rence :

Nous allons ici ï¿½tudier succintement un premier morceau de code qui servira de rï¿½fï¿½rence pour estimer les performances, les contraintes et les limites des algorithmes rï¿½alisï¿½s. Il est extrait de l'annexe B et c'est la version ï¿½crite en assembleur pour i286 en 1995 :


BEGIN
(*...*)
 asm
(*...*)

(* boucle principale *)

@BOUCLE_EXTERIEURE:
  mov seg_ligne,$A000
  mov y,99
@BOUCLE_Y:
   mov es,seg_ligne

(* PARTIE IMPAIRE: *)

(* force la particule D *)
    xor cl,cl
    rol rand,1
    jnc @pas_retenue1
    mov cl,1
@pas_retenue1:

    mov bp,1            (* BP est le registre de contrôle de la boucle *)
    mov di,xmax+2               (* DI pointe sur le noeud courant *)
    mov si,offset temp_impair+1   (* SI pointe sur les bits E et F *)
@BOUCLE_IMPAIRE:

(* Al collectera les bits du noeud courant *)
     lodsb                         [1]
     mov byte[si-1],0              [2]

(* Ah désignera les bits à envoyer *)
     mov ah,byte ptr es:[di]       [3]
     or ah,ah                      [4]
     jz @vide1                     [5]

(* consulte le tableau: *)
     mov bl,ah                     [6]
     xor bh,bh                     [7]
     rol rand,1                    [8]
     jnc @pas_rol1                 [9]
     inc bh                        [10]
@pas_rol1:
     mov ah,byte[bx+offset p]      [11]

(* distribue les bits: *)
     shr ah,1                      [12]
     jnc @pas_A1                   [13]
     or byte ptr es:[di-1],A       [14]
@pas_A1:
     shr ah,1                      [15]
     jnc @pas_B1                   [16]
     or byte ptr es:[di-xmax-1],B  [17]
@pas_B1:
     shr ah,1                      [18]
     jnc @pas_C1                   [19]
     or byte ptr es:[di-xmax],C    [20]
@pas_C1:
     shr ah,1                      [21]
     jnc @pas_D1                   [22]
     or cl,2                       [23]
@pas_D1:
     shr ah,1                      [24]
     jnc @pas_E1                   [25]
     or byte ptr ds:[bp+offset temp_pair],E [26]
@pas_E1:
     shr ah,1                      [27]
     jnc @pas_F1                   [28]
     or byte ptr ds:[bp+offset temp_pair-1],F [29]
@pas_F1:
     shl ah,6                      [30]
     or al,ah                      [31]
@vide1:
     shr cl,1                      [32]
     jnc @pas_retenue_D1           [33]
     or al,8                       [34]
@pas_retenue_D1:
     stosb                         [35]
     inc bp                        [36]
    cmp bp,xmax                    [37]
    jbe @BOUCLE_IMPAIRE            [38]


(* PARTIE PAIRE: *)

(* coupï¿½e : elle est similaire ï¿½ la partie impaire *)

   add seg_ligne,40
   dec y
  jnz @BOUCLE_Y

  mov ah,1
  int 016h
  jz @BOUCLE_EXTERIEURE
 end;
(* boucle principale *)

END.

or byte ptr ds:[bp+offset temp_pair],E : nous atteignons ici des sommets de programmation CISC. Rappel : le nombre rï¿½duit de registres nous oblige ï¿½ utiliser comme compteur/pointeur le pointeur de trame BP (frame Base Pointer), alors qu'il est sensï¿½ servir pour le passage de paramï¿½tres sur la pile pour les langages de haut niveau. Le problï¿½me est que tout adressage utilisant BP utilise par dï¿½faut le segment de pile SS alors que les donnï¿½es sont adressï¿½es par ES (le tableau dans la mï¿½moire vidï¿½o) et DS (les donnï¿½es statiques et le plan temporaire). Nous devons donc ajouter un prï¿½fixe d'adressage ("DS:") pour restaurer le segment, ce qui consomme inutilement des cycles. Rappelons aussi que sur le i286, bien qu'il existe de nombreux modes d'adressage, peu de registres peuvent ï¿½tre effectivement utilisï¿½s comme pointeur. Il est donc facile de comprendre que c'est l'architecture bancale de la machine qui fait dire ï¿½ certains que "les compilateurs peuvent gï¿½nï¿½rer du code aussi efficace qu'un code ï¿½crit en assembleur", puisque la flexibilitï¿½ rï¿½duite diminue artificiellement les ï¿½carts possibles de performance.

Nous voyons aussi, dans le reste du code, de nombreuses boucles, des manipulations de segments, des calculs de pointeurs et la gestion du plan temporaire horizontal : de nombreuses parties du programme seraient susceptibles d'ï¿½tre ï¿½liminï¿½es en retravaillant la structure globale. Bien que le programme en assembleur soit environ deux fois plus rapide que le programme en Pascal, il semble effectuer des opï¿½rations trop complexes pour ne bouger que quelques bits. Il faut environ 38 instructions pour traiter une seule cellule et le traitement est ralenti pour de nombreuses raisons, dont :

l'accï¿½s aux instructions qui ne sont pas "cachï¿½es" et utilisent une partie de la bande passante de la mï¿½moire (le problï¿½me n'existe plus depuis le i486)
les accï¿½s aux donnï¿½es en mï¿½moire vidï¿½o qui entrent en concurrence avec le balayage de la carte
les nombreux sauts en avant de quelques octets qui rï¿½duisent l'efficacitï¿½ de la queue de prï¿½dï¿½codage interne

Rappelons aussi qu'un PC ï¿½ base de i286 n'a pas de mï¿½moire cache et tous les accï¿½s ï¿½ la mï¿½moire centrale nï¿½cessitent d'envoyer une adresse ï¿½ des puces de DRAM dont le temps d'accï¿½s est environ de 70 ns. Malgrï¿½ l'apparition de chipsets sophistiquï¿½s et le dï¿½but des optimisations matï¿½rielles, les instructions du coeur de la boucle consomment de la bande passante, ce qui entre en concurrence avec les autres accï¿½s ï¿½ la mï¿½moire. Le programme est naturellement memory bound ï¿½ cause de l'architecture du processeur.

Les mesures manuelles sur un PC i286 ï¿½ 12MHz donnent une vitesse d'environ 100000 noeuds par seconde, la gï¿½omï¿½trie ï¿½tant limitï¿½e architecturalement ï¿½ 320*200 par la mï¿½moire segmentï¿½e et la carte VGA (granularitï¿½ de 64 Ko). Il y a environ une image et demie affichï¿½e par seconde ce qui est honnorable pour un ordinateur de cette classe (comparer ï¿½ l'iPSC en D.6). La recherche des goulots d'ï¿½tranglements est difficile car le processeur i286 exï¿½cute les instructions avec des durï¿½es trï¿½s variables et le temps d'accï¿½s ï¿½ la mï¿½moire est trï¿½s fluctuant. Toutefois nous pouvons effectuer quelques estimations : le calcul d'un noeud nï¿½cessite environ 120 cycles d'horloge et 38 instructions, soit 3,2 cycles d'horloge par instruction en moyenne.

III.5 : Influence de l'architecture :

Le passage du i286 ï¿½ 12MHz au Pentium ï¿½ 100MHz en 1996 fut un grand bouleversement. Les rï¿½gles de codage ont ï¿½tï¿½ profondï¿½ment modifiï¿½es : les instructions recommandï¿½es ne sont pas les mêmes, la mï¿½moire cache sur deux niveaux peut enfin contenir tout le code et toutes les donnï¿½es (L1 : 8Ko et L2 : 256Ko), de nombreuses innovations sont incluses... Pourtant le mode rï¿½el ne bï¿½nï¿½ficie pas directement de toutes les amï¿½liorations, comme par exemple les modes d'adressage ï¿½tendus et orthogonaux du i386 qui permettent d'utiliser toutes les combinaisons de registres pour accï¿½der ï¿½ la mï¿½moire.

La mï¿½moire virtuelle en mode protï¿½gï¿½ reste un problï¿½me car la manipulation des registres de segments dï¿½clenche de longues sï¿½quences de microcode pour vï¿½rifier la validitï¿½ des adresses, ce qui en plus peut dï¿½clencher des exceptions pour gï¿½rer les pages en mï¿½moire et sur le disque dur s'il faut les swapper. On s'attend donc naturellement ï¿½ ce que le programme fonctionne moins vite lorsqu'il est lancï¿½ ï¿½ partir de Windows. Pourtant, il s'y exï¿½cute visiblement plus vite ! Plus prï¿½cisï¿½ment, en mode fenï¿½trï¿½, il s'exï¿½cute beaucoup plus vite qu'en mode normal/"plein ï¿½cran".

Le changement d'architecture, du 286 au Pentium, a changï¿½ complï¿½tement les rapports entre les flux de donnï¿½es et d'instructions. L'introduction de deux niveaux de mï¿½moire cache balance la plus grande latence relative de la mï¿½moire vidï¿½o. De plus, l'accï¿½s ï¿½ la mï¿½moire vidï¿½o subit de nombreuses restrictions : par exemple, elle est accï¿½dï¿½e au travers du bus PCI et elle n'est pas cachable. L'expï¿½rience avec Windows a montrï¿½ la situation paradoxale oï¿½ un programme "optimal" pour le 286 est inefficace sur Pentium. Pour expliquer cela, il faut prï¿½ciser que Windows (en mode fenï¿½trï¿½) ï¿½mule la mï¿½moire vidï¿½o : il redirige les accï¿½s vidï¿½o vers la DRAM centrale grï¿½ce ï¿½ la translation d'adresse du mode protï¿½gï¿½/paginï¿½. Ainsi, nous n'accï¿½dons pas nous-mï¿½mes ï¿½ la mï¿½moire vidï¿½o, c'est l'ï¿½mulateur qui copie la DRAM pï¿½riodiquement vers la vraie carte. La mï¿½moire centrale ï¿½tant cachable, les accï¿½s sont beaucoup plus rapides et le transfert par bloc vers l'ï¿½cran est plus rapide qu'octet par octet. Les instructions de type read-modify-write sont encore plus lourdes puisqu'elles nï¿½cessitent une lecture (blocante, pour ï¿½viter toute modification intempestive au milieu de l'instruction) puis une ï¿½criture et il faut une transaction complï¿½te sur le bus PCI (attente que le bus soit libre - envoyer l'adresse - envoyer/recevoir la donnï¿½e) pour transfï¿½rer un simple octet ou un bloc entier. Le calcul en mï¿½moire cachable puis le transfert par bloc (ou en rafale, burst pour le PCI) est forcï¿½ment plus rapide que le premier programme.

Le diagramme ci-contre est extrait de [33]. Il reprï¿½sente une carte mï¿½re aux caractï¿½ristiques suivantes :
* Processeur Pentium 100MHz avec 2 caches intï¿½grï¿½es de 8Ko chacune
* Bus local : donnï¿½es 64 bits, 66 MHz, 528Mo/s thï¿½oriques
* Cache L2 de 256Ko avec des puces SRAM ï¿½ 15 ns de temps d'accï¿½s (sans compter les latences de gestion de la LRU et de la SRAM de "tag" ï¿½ 15 ns aussi)
* Mï¿½moire DRAM ï¿½ 70ns de temps d'accï¿½s (30ns en mode page), EDO possible.
* Bus PCI multiplexï¿½ ï¿½ 33MHz et 32 bits de large (132Mo/s thï¿½oriques)

Nous pouvons y voir que le nombre de circuits et de connexions ï¿½ traverser est proportionnel ï¿½ la latence et ï¿½ la vitesse de transfert. Le circuit imprimï¿½ montre en plus que cela est proportionnel ï¿½ la distance parcourue dans les fils : la mï¿½moire cache est trï¿½s proche du processeur alors que les slots PCI et DRAM sont ï¿½loignï¿½s. Des mesures rï¿½elles sur cette plateforme, en conditions "idï¿½ales", donnent une vitesse de transfert unidirectionnel de 28Mo/s vers la carte vidï¿½o. En pratique, le processeur peut donc afficher un mot de 32 bits tous les 4 cycles, soit une instruction d'affichage entrelacï¿½e avec sept instructions de calcul. Il n'est pas raisonnable dans ces conditions d'utiliser le premier code de rï¿½fï¿½rence qui utilise de nombreuses opï¿½rations complexes vers la mï¿½moire vidï¿½o.

La leï¿½on est simple : en mode "normal" (MS-DOS) il ne faut plus utiliser la mï¿½moire vidï¿½o pour stocker le tunnel. Il faut au contraire utiliser une mï¿½thode qui paradoxalement prendrait plus de temps si l'on ne regardait que le nombre d'instructions ï¿½ exï¿½cuter. Le calcul doit donc s'effectuer dans la mï¿½moire centrale et, comme l'ï¿½mulateur MSDOS de Windows le faisait, afficher rï¿½guliï¿½rement le rï¿½sultat ï¿½ l'ï¿½cran, tous les N pas de temps (N pouvant varier ï¿½ la demande de l'utilisateur). Nous ï¿½vitons ainsi de perdre du temps dans les transactions "blocantes" du bus PCI, dont le temps d'accï¿½s est probablement supï¿½rieur ï¿½ 100ns (carte vidï¿½o comprise). Pour qu'un programme tourne vite, il est crucial de placer les donnï¿½es au meilleur endroit.

III.6 : Deuxiï¿½me code de rï¿½fï¿½rence :

Le second code de rï¿½fï¿½rence date de 1997 et est inclus ci-dessous. L'idï¿½e directrice est de rï¿½duire le code de distribution des bits en groupant les noeuds par quatre. Le rï¿½seau est alors tournï¿½ ï¿½ 90 degrï¿½s et il n'y a plus de code pour les lignes paires et impaires, comme pour le circuit dï¿½crit en V.6. Ce code est destinï¿½ aux plateformes ï¿½ partir du i386 et "optimisï¿½" pour le Pentium classique (P53C) oï¿½ nous pouvons utiliser les registres sur 32 bits au lieu de 16. La boucle externe affiche les calculs puis traite N pas de temps de cette maniï¿½re :


;
;  BALAYAGE:
;
   mov ebx,es:[640]
   mov XB,ebx

   mov di,640
boucle_ext:
     mov bx,320
boucle_int:
       mov word ptr X,bx        ;U (1)

;
; dï¿½placement des variables:
;
       mov esi,XC               ;*V                 [3]
       mov ebx,es:[di-316]      ;*prefixe + U (3)   [6]
       mov XD,esi               ;*V                 [8]
       mov XC,ebx               ;*U (4)             [10]

       mov edx,X1               ;*V                 [12]
       mov eax,XB               ;*U (5)             [14]
       mov ecx,es:[di+4]        ;*prï¿½fixe+U (7)     [17]
       and edx,010000000h   ;XE ;*V                 [19]
       mov X1,eax               ;*U (8)             [21]
       mov XB,ecx               ;*V                 [23]

       mov ebp,XA               ;*U (9)             [25]
       mov ebx,es:[di+320]      ;*prï¿½fixe+U (11)    [28]
       and ebp,020000000h   ;XF ;*V                 [30]
       mov XA,ebx               ;*U (12)            [32]
       or ebp,edx               ;*V                 [34]

;verticaux:
       and eax,0C0C0C0C0h       ;*U (13)            [36]
       and esi,008080808h       ;*V                 [38]
       and ebx,001010101h       ;*U (14)            [40]
       or eax,esi               ;*V                 [42]
;XL
       mov ecx,XD               ;*U (15)            [44]
       or eax,ebx ;report des verticaux *V          [46]
       mov ebx,XA               ;*U (16)            [48]
       and ecx,000100010h       ;*V                 [50]
       and ebx,000002000h       ;*U (17)            [52]
       or ebp,ecx               ;*V                 [54]
       mov ecx,X1               ;*U (18)            [56]
       or ebp,ebx               ;*V                 [58]
       and ecx,000201020h       ;*U (19)            [60]
       or ebp,ecx               ;*U (20) (dï¿½pendance sur ECX) [62]
;XR:
       mov ebx,XB               ;*V                 [64]
       rol ebp,8  ; report XL    *U (21)            [66]
       mov ecx,XC               ;*V                 [68]
       or eax,ebp ; report XL    *U (22)            [70]
       mov ebp,XD               ;*V                 [72]
       and bx,2                 ;U (23)             [72']
       and ebp,000040000h       ;*V                 [74]
       and cx,4                 ;U (24)             [74']
       mov edx,XA               ;*V                 [76]
       or bx,cx                 ;U (25)             [76']
       mov ecx,X1               ;*V                 [78]
       or bp,bx                 ;U (26)             [78']
       and edx,002000200h       ;*V                 [80]
       or ebp,edx               ;*U (27)            [82]
       and ecx,004020400h       ;*V                 [84]
       or ebp,ecx               ;*U (28)            [86]
       ror ebp,8                ;*V                 [88]
       or eax,ebp               ;*U (29)            [90]

; dï¿½termine quelle banque LUT on utilise:
       rol word ptr seed1,1     ;U (32) 3 cycles + non pairable  [94]
       setc bh                  ;U (35) microcode                [97]

       mov bl,ah                ;U (36) dï¿½pendance sur EBX       [98]
       mov ah,[offset p+bx]
  ; accï¿½de au tableau (#1)  U (38) AGI sur EBX, prï¿½fixe possible [101]
       mov bl,al                ;U (39) dï¿½pendance sur EAX       [102]
       mov al,[offset p+bx]
  ; accï¿½de au tableau (#2)  U (41) AGI sur EBX, prï¿½fixe possible [105]
       ror eax,16               ;U (42) dï¿½pendance sur EAX       [106]

       mov bl,ah                ;U (43) dï¿½pendance sur EAX       [107]
       mov ah,[offset p+bx]
  ; accï¿½de au tableau (#3)  U (45) AGI sur EBX, prï¿½fixe possible [110]
       mov bl,al               ;U (46) dï¿½pendance sur EAX        [111]
       mov al,[offset p+bx]
  ; accï¿½de au tableau (#4)  U (48) AGI sur EBX, prï¿½fixe possible [114]
       ror eax,16               ;U (49) dï¿½pendance sur EAX       [115]

;writeback:
       mov bx,word ptr X        ;V                  [115']
       mov ecx,[offset temp+bx] ;**U (50)           [117]
       mov [offset temp+bx],eax ;*V                 [119]
       mov es:[di-320],ecx      ;prï¿½fixe+*U (51)    [122]

       add di,4                 ;V                  [123]
       sub bx,4                 ;U (52)             [123']
       jnz boucle_int           ;V                  [124]

     cmp di,63360
     jbe boucle_ext

La boucle interne comporte 67 instructions pour traiter 4 noeuds, soit environ 17 instructions par noeud : c'est deux fois mieux que le code de rï¿½fï¿½rence en mode 8 bits. Une estimation "statique", rapide et optimiste de ce kernel sur un Pentium classique fait penser qu'il peut s'exï¿½cuter en 52 cycles (voir les nombres entre parenthï¿½ses, soit 13 cycles par noeud).

Mais en rï¿½alitï¿½, le code a ï¿½tï¿½ conï¿½u pour ï¿½tre exï¿½cutï¿½ en mode rï¿½el (16 bits sous MS-DOS) et l'utilisation des registres en mode 32 bits ajoute un prï¿½fixe de taille, invisible dans la syntaxe, ï¿½ chaque instruction : cela brise complï¿½tement le pairage des instructions ! La plupart des dï¿½pendances de donnï¿½es entre les registres ont ï¿½tï¿½ aplanies dans le code de mouvement afin d'exï¿½cuter deux instructions par cycle sur le Pentium mais les prï¿½fixes de taille ï¿½taient oubliï¿½s dans l'analyse. Les instructions marquï¿½es d'un astï¿½risque prennent ainsi deux cycles au lieu d'un demi-cycle ! Cela montre bien que le nombre d'instruction, le temps d'exï¿½cution et le nombre de sites traitï¿½s par seconde sont des valeurs qui ne sont plus naturellement ou simplement proportionnelles : l'architecture complexe du Pentium a des "cycles cachï¿½s" qui n'apparaissent pas en lisant le code source, mï¿½me en assembleur ! Alors que ce code est trï¿½s bon pour le i386, le Pentium a un pipeline diffï¿½rent qui favorise certains types de codes tout en pouvant exï¿½cuter les autres programmes mais ï¿½ une vitesse nettement infï¿½rieure et sans prï¿½venir.

L'analyse sous ce nouvel angle (voir les nombres entre crochets) donne environ 124 cycles (comme pour la version i286, mais 31 cycles par noeud). Cette baisse incroyable des performances, malgrï¿½ le soin apportï¿½ au code, a motivï¿½ la conception d'un DOS-extender pour la suite du projet. Le code de mouvement a ï¿½tï¿½ assez bien rï¿½duit mais reste lourd et consomme tous les registres. L'analyse du code rï¿½vï¿½le aussi que le processeur effectue des opï¿½rations inutiles ou perd du temps ï¿½ manipuler des donnï¿½es entre les registres. Ainsi, la consultation des tables, en raison du faible nombre de registres disponibles, du jeu d'instructions, des prï¿½fixes et des dï¿½pendances croisï¿½es, prend 20 cycles au moins, bien qu'en thï¿½orie cela nï¿½cessite 4 cycles pour un cas "simple et idï¿½al".

La densitï¿½ globale dans le domaine d'ï¿½tude peut ï¿½tre dï¿½terminï¿½e en accumulant le nombre de particules ï¿½ chaque pixel. Nous voyons ici une accumulation sur 8 bits avec deux dï¿½passements (les mï¿½mes couleurs sont utilisï¿½es deux fois pour des densitï¿½s diffï¿½rentes) et un ï¿½coulement de Poiseuille caractï¿½ristique. L'image peut ï¿½tre calculï¿½e interactivement (les paramï¿½tres peuvent ï¿½tre changï¿½s) en une minute environ.

L'accumulation doit commencer aprï¿½s la stabilisation du fluide et la disparition des ondes de choc. Il faut ici pouvoir gï¿½rer trois tableaux de 64 Ko, ce qui est ï¿½ la limite des possibilitï¿½s du mode rï¿½el du x86. Avec un code de ce type, il a fallu deux heures ï¿½ un Pentium ï¿½ 100 MHz pour calculer l'image suivante :

A chaque pas de temps, la densitï¿½ de chaque noeud est accumulï¿½e sur 16 bits dont nous voyons ici les 8 bits de poids fort. Il faut donc un tableau de 128Ko en mï¿½moire et accï¿½der en tout ï¿½ plus de 200Ko, ce qui a nï¿½cessitï¿½ l'emploi du mode flat (ou unreal). Ce programme est donc difficilement transportable et nï¿½cessite une configuration trï¿½s prï¿½cise pour fonctionner.
Le bruit au niveau de l'octet de poids fort est rï¿½duit mais il a fallu beaucoup de temps de calcul pour que toute la dynamique de l'octet soit utilisï¿½e et donne une image utilisant toutes les couleurs de la palette (plus de 64K*3=200000 pas de temps). La vitesse de rafraichissement pour ce type de code sur cette machine atteint environ 10Hz et la taille est fixï¿½e ï¿½ 320x200 noeuds, c'est ï¿½ dire la rï¿½solution de l'ï¿½cran.

III.7 : Conditions aux limites et effets de bords :

Les LGA permettent de calculer les ï¿½quations diffï¿½rentielles de Navier-Stokes dans des conditions idï¿½ales de trï¿½s faible vitesse et de taille infinie du rï¿½seau [19]. Toute autre condition ne permet d'effectuer qu'une approximation, par exemple lorsque la taille est finie (limitï¿½e par la taille de la mï¿½moire de l'ordinateur), ou alors la simulation ne correspond pas aux rï¿½alitï¿½s physiques. Entre autres exemples, la vitesse du fluide ne doit pas dï¿½passer Mach 0,3 environ mais en plus des limites thï¿½oriques, les limites pratiques sont aussi difficiles ï¿½ connaitre et ï¿½ comprendre.

Nous allons ï¿½tudier en particulier le cas d'une ï¿½prouvette dans une soufflerie ainsi que les effets de bords liï¿½s aux conditions aux limites. Dans les images prï¿½cï¿½dentes, nous pouvons observer certains phï¿½nomï¿½nes qui influencent la simulation et ses rï¿½sultats. Tout d'abord, avant chaque pas de temps, le vent est gï¿½nï¿½rï¿½ par une boucle qui crï¿½e de nouvelles particules afin de gï¿½nï¿½rer un "vent" dans le tunnel. Les propriï¿½tï¿½s de ce flux ont des consï¿½quences directes sur le temps de disparition des phï¿½nomï¿½nes transitoires et indï¿½sirï¿½s.

La maniï¿½re la plus simple, comme le permet l'algorithme de plan temporaire dï¿½crit prï¿½cï¿½demment, est de crï¿½er une particule directement dans le sens du vent. Cela correspond bien ï¿½ la thï¿½orie mais dans la rï¿½alitï¿½, un vent n'est pas constituï¿½ de particules allant toutes dans la mï¿½me directions : ce serait un vent supersonique ! De plus, les phï¿½nomï¿½nes dï¿½passant Mach 0,4 ne sont pas fidï¿½les ï¿½ la rï¿½alitï¿½. Il faut donc crï¿½er un flux d'air, non une masse homogï¿½ne ou homocinï¿½tique irrï¿½elle. La vitesse et la direction des particules doivent ï¿½tre bien choisies. La vitesse des particules ne peut pas ï¿½tre modifiï¿½e car elle est unitaire : la vitesse du flux sera rï¿½glï¿½e par la "vitesse" d'introduction et de destruction des particules de chaque cï¿½tï¿½ du tunnel. Une autre mï¿½thode est de "forcer" certaines particules au hasard dans le tunnel en changeant leur direction mais c'est plus compliquï¿½ car le tunnel devra ï¿½tre bouclï¿½ sur lui-mï¿½me comme un tore, ce qui implique qu'en se propageant, les turbulences se retrouveront en amont et se perturberont elles-mï¿½mes. Cette mï¿½thode est adaptï¿½e ï¿½ d'autres cas (ï¿½tude d'un cisaillement pour dï¿½terminer la viscositï¿½ par exemple) mais pas ï¿½ celui des simulations qui nous intï¿½ressent (mï¿½me si ce n'est pas le domaine le plus adaptï¿½ pour les LGA).

Pour crï¿½er un vent, nous introduisons des particules ï¿½ un certain ryhtme, qui est contrï¿½lï¿½ au clavier par l'utilisateur dans les expï¿½riences rï¿½alisï¿½es. Leur direction est aussi importante : elle doit ï¿½tre dï¿½corrï¿½lï¿½e, aussi alï¿½atoire que possible, pour ï¿½viter que les caractï¿½ristiques du vent n'influencent ou ne perturbent les phï¿½nomï¿½nes en aval. Pour dï¿½corrï¿½ler un signal, il suffit de le moduler par un signal connu pour ï¿½tre alï¿½atoire : nous disposons dï¿½jï¿½ de phï¿½nomï¿½nes explicitement alï¿½atoires au niveau de certaines configurations de collision. La technique est alors de crï¿½er des particules allant en sens inverse du vent pour, si elles en ont le temps, frapper le mur adjacent. Cela crï¿½e une zone de haute densitï¿½ propice ï¿½ de nombreuses collisions, favorisant une rï¿½partition alï¿½atoire et naturelle des particules, mï¿½me si elles sont crï¿½ï¿½es de maniï¿½re dï¿½terministe. Leur surnombre local et la configuration de la paroi forcent ainsi un flux de particules alï¿½atoires dans le sens dï¿½sirï¿½ (en moyenne). L'entropie du modï¿½le leur assure une rï¿½partition naturellement ï¿½quilibrï¿½e dans le temps et dans l'espace.

Le deuxiï¿½me problï¿½me important concerne les autres conditions aux limites. D'abord, les parois horizontales (supï¿½rieure et infï¿½rieure) sont "rugueuses" : le modï¿½le le plus simple spï¿½cifie que les particules repartent par le lien oï¿½ elles ï¿½taient venues. Ensuite, la paroi de droite est totalement "absorbante" et fait disparaitre toutes les particules. Dans la rï¿½alitï¿½, cela correspondrait ï¿½ un tuyau dï¿½bouchant dans le vide sidï¿½ral, ce qui n'est pas notre intention : une veine de soufflerie rï¿½elle maintient une densitï¿½ assez homogï¿½ne autour du domaine d'ï¿½tude et le vent n'est pas "avalï¿½" d'une maniï¿½re ou d'une autre. Les conditions sont rï¿½unies pour faire apparaitre un ï¿½coulement parabolique de Poiseuille qui interfï¿½re avec le domaine d'ï¿½tude comme dans l'image de densitï¿½ sur 8 bits. La densitï¿½ n'est pas homogï¿½ne ni linï¿½aire autour de l'ï¿½prouvette et le phï¿½nomï¿½ne de portance que l'on veut mettre en ï¿½vidence est perturbï¿½ par l'influence des parois et de la disparition des particules, ce qui est similaire ï¿½ une anisotropie de la pression dans tout le tunnel.

La solution adoptï¿½e pour l'expï¿½rience suivante (l'accumulation sur 16 bits) est de rï¿½tablir la pression dans le tunnel grï¿½ce ï¿½ une sorte de "peigne" qui piï¿½ge une partie des particules qui allaient disparaï¿½tre. De proche en proche, elles crï¿½ent une pression qui s'oppose en partie ï¿½ leur disparition totale : le fluide devient plus homogï¿½ne et les directions des particules sont plus diverses. Nous voyons sur l'image de densitï¿½ 16 bits que le profil n'est plus parabolique, bien que les parois rugueuses laissent subsister de lï¿½gï¿½res perturbations locales. La pression dans le tunnel est mieux rï¿½partie et ï¿½quilibrï¿½e.

Une deuxiï¿½me solution pour rï¿½duire encore plus, ou anihiler, l'ï¿½coulement parabolique est de rendre les parois glissantes pour que leur vitesse par rapport au vent ne soit pas changï¿½e. Cette solution a par exemple ï¿½tï¿½ adoptï¿½e pour l'allï¿½e de von Karman dans l'exemple de David Hanon en III.9. Cela n'a pas ï¿½tï¿½ essayï¿½ dans les premiers codes car le programme ne le permettait pas encore, seules les parois rugueuses pouvant ï¿½tre codï¿½es dans un octet. En complï¿½ment de la premiï¿½re solution, nous disposons alors d'un domaine d'ï¿½tude dont la pression et la vitesse sont homogï¿½nes et favorables pour ï¿½tudier des phï¿½nomï¿½nes turbulents comme les allï¿½es de von Karman. Dans le cas contraire, par exemple si l'ï¿½coulement de Poiseuille subsistait, il faudrait agrandir le tunnel de maniï¿½re ï¿½ ce que les paraboles n'interviennent pas substanciellement dans les mesures, ce qui augmenterait quadratiquement les besoins de mï¿½moire et de temps de calcul.

Pour que ces conditions aux limites soient remplies, il faut plus de flexibilitï¿½ dans le programme. La nature du modï¿½le FHP permet d'ajouter facilement les fonctions dï¿½sirï¿½es mais leur implï¿½mentation est souvent une aventure plus complexe que l'on pourrait s'y attendre. De plus, le bon sens des ï¿½quations classiques contredit la rï¿½alitï¿½ microscopique des particules : les equations d'Euler ne traitent pas explicitement du mouvement chaotique brownien. Un bon programme de calcul FHP a donc besoin de parois glissantes comme rugueuses et d'un contrï¿½le sï¿½r de la crï¿½ation et de la destruction des particules. Les algorithmes vus jusqu'ï¿½ prï¿½sent ne permettent pas de tel contrï¿½le sur la rugositï¿½ des parois.

III.8 : Remplissage et redimensionnement dynamique du tunnel :

Une fois le fluide en rï¿½gime "stationnaire", c'est ï¿½ dire lorsque tous les phï¿½nomï¿½nes transitoires (comme les ondes de choc ou les phï¿½nomï¿½nes anisotropiques hexagonaux) ont disparu, on effectue les mesures et on rï¿½flï¿½chit aux calculs suivants. En d'autres termes, une grande partie des calculs a pour seule fonction d'ï¿½liminer les transitoires. Une formule empirique : t=4*(h+l) donne le nombre de pas de temps ï¿½ calculer pour que disparaisse la plupart des ondes de choc, soit deux ï¿½ trois allers et retours de l'onde de paroi ï¿½ paroi. Or les simulations les plus intï¿½ressantes sont les plus grosses et le temps de calcul augmente trï¿½s vite ; en utilisant la formule prï¿½cï¿½dente, il faut environ : N=4*(h+l)*h*l pas de calcul en tout, ou environ N=8*l^3 si h et l sont proches. Dans ce chapitre, nous allons explorer des moyens de rï¿½duire ce temps de calcul.

Pour commencer, nous pouvons constater que la veine de simulation FHP est souvent vide au dï¿½but de l'expï¿½rience. Il faut l pas de temps et h*l*l = hlï¿½ calculs de site pour remplir le tunnel en particules. Ce sont autant de cycles facilement gagnï¿½s si la veine contenait dï¿½jï¿½ des particules !

Le problï¿½me est maintenant : comment remplir le tunnel ? Il est facile de le remplir uniformï¿½ment de particules, ou avec des particules au hasard, mais d'une part c'est trop simple et d'autre part il faut gï¿½rer le cas dï¿½licat des ï¿½prouvettes qui seraient remplies de particules. En effet, la forme que l'on place dans le tunnel n'est pas obligatoirement "pleine" et il faut que l'algorithme de remplissage tienne bien compte de ce cas de figure. Comme dit plus haut, un algorithme simple ne convient pas et il faut utiliser un algorithme de remplissage "intelligent" tel qu'on le rencontre dans les logiciels de dessin bitmap (exploration rï¿½cursive ou floodfill).

La premiï¿½re simplification oubliait aussi que ce qui nous intï¿½resse est d'obtenir un ï¿½tat le plus proche possible du rï¿½gime stationnaire. Or le cas le plus simple consomme beaucoup de temps dans la mise en mouvement le fluide. Une possibilitï¿½ serait d'utiliser une rï¿½solution statique et approximative des ï¿½quations d'Euler ou de Navier-Stokes pour "guider" le remplissage prï¿½liminaire du tunnel. La limitation ne se situe pas dans la charge de calcul mais dans sa complexitï¿½ qui augmente avec celle de la gï¿½omï¿½trie des parois. De plus, ce n'est pas un sujet qui nous concerne dans cette ï¿½tude.

Une autre mï¿½thode serait d'utiliser les modï¿½les plus simples comme FHP-2 ou FHP-1 pour effectuer une premiï¿½re passe dans le fluide. Ces modï¿½les sont plus a priori rapides ï¿½ calculer et peuvent effectuer une premiï¿½re approximation, ce qui est intï¿½ressant puisque nous abandonnons la technique de consultation de table. Nous verrons pourtant que le calcul a une importance aussi grande que le dï¿½placement des donnï¿½es ("FHPIII est memory bound") et cette mï¿½thode ne rï¿½duit pas le nombre de mouvements de particules. Toutefois, nous avons vu dans la partie prï¿½cï¿½dente que la principale diffï¿½rence entre les versions du modï¿½le FHP concernent la viscositï¿½, ou le nombre de Reynolds par noeud. Si nous pouvons calculer ï¿½ un nombre de Reynolds plus faible, nous avons donc intï¿½rï¿½t ï¿½ rï¿½duire le nombre de noeuds plutï¿½t que d'augmenter la viscositï¿½ : le programme de calcul reste identique mais nous pouvons rï¿½duire le nombre de dï¿½placements en rï¿½duisant la taille du tunnel lors de l'amorï¿½age du fluide.

Pour rï¿½duire le temps total de calcul, nous avons donc intï¿½rï¿½t ï¿½ commencer avec une version dont la taille est une fraction de la taille rï¿½elle. En pratique, le programme de ce mï¿½moire limite la largeur minimale ï¿½ 256 noeuds. Nous pouvons donc amorcer le tunnel avec cette largeur, durant le temps nï¿½cessaire ï¿½ la disparition des transitoires, soit environ 2000 pas de temps. Ensuite, le tunnel est agrandi : le cas le plus simple est un doublement de toutes les dimensions et un quadruplement aisï¿½ du nombre de cellules et de leur contenu (le contenu est recopiï¿½ dans 3 cellules voisines). Le calcul continue et fait disparaitre les transitoires liï¿½es ï¿½ l'agrandissement soudain du tunnel. La procï¿½dure de calcul/agrandissement est rï¿½itï¿½rï¿½e jusqu'ï¿½ obtenir la taille dï¿½sirï¿½e pour l'expï¿½rience. Il est alors possible d'accï¿½lï¿½rer considï¿½rablement le temps de calcul nï¿½cessaire ï¿½ l'ï¿½tablissement du rï¿½gime stationnaire.

Etudions l'exemple d'une simulation dans un tunnel de dimension l=3h avec l'intention d'effectuer une ou des mesures brï¿½ves lorsque le rï¿½gime transitoire a disparu. Dans notre cas, la largeur minimum est de 256 noeuds, la hauteur est donc de 256/3=86 noeuds. Le temps de stabilisation du fluide est environ de 4*(256+86)=1400 pas de temps soit 1400*256*86=30 millions de calculs de sites. Ensuite, le tunnel peut ï¿½tre agrandi et contenir 512*172 noeuds. Le calcul redï¿½marre alors pendant un temps nï¿½cessaire pour que le fluide s'adapte au nouveau nombre de Reynolds, mais toutefois moins que le temps nï¿½cessaire pour l'amorï¿½age du fluide : environ 2*(512+172)=1400 pas de temps et 1400*512*172=123 millions de sites. Nous pouvons continuer ainsi ï¿½ calculer et agrandir jusqu'ï¿½ ce que la mï¿½moire soit saturï¿½e ou le nombre de Reynolds dï¿½sirï¿½ soit atteint. Dans notre cas, avec une limitation ï¿½ 64MO, nous obtenons le temps de calcul total suivant :

taille              pas de calcul           sites calculï¿½s
256*86=22016        4*(256+86)=1400          30M
512*172=88064       2*(512+172)=1400         123M
1024*344=352256     2*(1024+344)=2800        986M
2048*688=1409024    2*(2048+688)=5600        7890M
4096*1376=5636096   2*(4096+1376)=11200      63124M
8192*2752=22544384  2*(8192+2752)=22400      504994M

total : 577 Milliards de sites calculï¿½s

L'agrandissement progressif permet de diviser par deux le temps d'amorï¿½age du fluide : en commenï¿½ant ï¿½ la taille prï¿½vue au dï¿½part (8192*2752) il faudrait calculer 10^12 sites au moins ! A la fin du calcul, les 22400 pas de temps sont largement suffisant pour effectuer les mesures dï¿½sirï¿½es, grï¿½ce ï¿½ des moyennes dans le temps et dans l'espace.

Il faut maintenant mentionner au moins trois limitations pratiques importantes, liï¿½es ï¿½ la complexitï¿½ des phï¿½nomï¿½nes. Nous atteignons un nombre de Reynolds idï¿½al d'environ 5000 et le type de programme prï¿½sentï¿½ jusqu'ï¿½ prï¿½sent ne convient plus. La premiï¿½re limite concerne le temps de calcul : si l'ordinateur calcule un million de sites par secondes (comme dans le deuxiï¿½me code de rï¿½fï¿½rence) il faudra une semaine pour calculer les 577 Milliards de sites de l'expï¿½rience. Nous sommes encore loin du "temps rï¿½el" et de l'interactivitï¿½ dï¿½sirï¿½s. Ensuite, les programmes actuels utilisent le PC sous MS-DOS en mode rï¿½el, ce qui limite les expï¿½riences ï¿½ 320*200 points, il n'est pas possible d'atteindre ainsi des nombres de Reynolds intï¿½ressants et justifiant les efforts de programmation. Enfin, bien que le redimensionnement soit une ï¿½tape relativement simple ï¿½ programmer, il devient plus compliquï¿½ de dï¿½finir les parois par de simples bitmaps ou par programmation au cas par cas. Il faut donc utiliser un mode de reprï¿½sentation vectoriel qui sera rï¿½interprï¿½tï¿½ ï¿½ chaque fois que le tunnel change de taille. Les vecteurs sont simples ï¿½ gï¿½rer mais leur reprï¿½sentation intermï¿½diaire dans le code du projet actuel est trï¿½s complexe.

III.9 : Etude d'un cas rï¿½el : benchmark de von Karman :

Afin de pouvoir comparer les rï¿½sultats et l'efficacitï¿½ de la mï¿½thode employï¿½e, nous utiliserons les donnï¿½es fournies par une ï¿½tude allemande [36], dï¿½crivant les conditions de simulation d'allï¿½es de von Karman. Puisque nos LGA simulent les fluides de maniï¿½re explicitement temporelle en 2D, nous ne nous intï¿½resserons qu'ï¿½ la partie correspondante du benchmark qui comporte des expï¿½riences en 2D et en 3D, en statique ou en dynamique.

Gï¿½omï¿½trie du tunnel et conditions aux limites : (extrait de [36])

Avec un adimensionnement correct (si l'on tient compte de l'invariance galilï¿½enne entre autre) nous avons besoin approximativement d'un site par millimï¿½tre carrï¿½, soit 2200*410=902000 sites ou environ 1 mï¿½gaoctet. Les PC actuels disposent d'au moins 64 Mo actuellement et le calcul ï¿½ 1Mc/s permet de soutenir un affichage ï¿½ 1Hz dans ce cas. Dans des conditions idï¿½ales (densitï¿½, vitesse...), nous pouvons donc trï¿½s facilement atteindre le nombre de Reynolds requis par le benchmark. Il reste ensuite assez de marge pour corriger les artifacts du rï¿½seau.

Les allï¿½es de von Karman ont ï¿½tï¿½ simulï¿½es par plusieurs laboratoires, dont les laboratoires Fuji (Japon), l'Universitï¿½ Libre de Bruxelles, l'Universitï¿½ de Munich ou l'Observatoire de Nice pour citer quelques exemples. Dans la comparaison suivante, nous ï¿½tudions la diffï¿½rence entre une rï¿½solution temporelle d'ï¿½quations classiques et un calcul FHP-3 :

Elï¿½ments finis : (extrait de [36])
FHP-3: (ULB, David Hanon,
rï¿½seau de 800*200, Mach 0,45 et densitï¿½=0,28)
t=0

t=100

t=7000

Dans des conditions appropriï¿½es et avec l'adimensionnement correct, les rï¿½sultats sont similaires. Toutefois, les gaz sur rï¿½seaux permettent de faire apparaï¿½tre les fluctuations dï¿½es au mouvement brownien. La simulation est donc bruitï¿½e et nï¿½cessite une intï¿½gration temporelle et spatiale pour effectuer une mesure. Cependant, l'apparition de phï¿½nomï¿½nes complexes est naturelle et n'a pas besoin d'ï¿½tre forcï¿½e (ou si peu) : le cercle du benchmark est dï¿½calï¿½ d'un centimï¿½tre dans le tunnel (1/41=2,5%) alors que dans l'expï¿½rience FHP il n'est dï¿½calï¿½ que d'un pixel (1/200=0,5%, mais cela est probablement involontaire et liï¿½ ï¿½ l'algorithme de dessin du cercle). D'habitude, le dï¿½centrage est nï¿½cessaire pour forcer l'apparition rapide des tourbillons contrarotatifs car la mï¿½thode de rï¿½solution classique n'est pas bruitï¿½e par nature. La recherche d'une solution exacte implique qu'une dissymï¿½trie n'apparaitra qu'avec une erreur d'arrondi. En revanche, les gaz sur rï¿½seaux comme FHP permettent au bruit brownien d'organiser les turbulences microscopiques (ï¿½ l'ï¿½chelle de quelques sites) en turbulences macroscopiques (qui peuvent ï¿½tre ï¿½tudiï¿½es par intï¿½gration sur de nombreux sites) et de faire apparaï¿½tre les allï¿½es caractï¿½ristiques sans forï¿½age ou dissimï¿½trie artificiels. De plus, la complexitï¿½ de la gï¿½omï¿½trie du tunnel est arbitraire et n'influence pas le calcul.

Le programme de David Hanon mï¿½lange par codage les parois glissantes et rugueuses. En raison de l'impï¿½ratif du changement dynamique de la gï¿½omï¿½trie du tunnel, cette approche devient complexe et il faut pouvoir gï¿½rer des parois de toute nature dans notre code final.

III.10 : Conclusion :

Les deux codes de rï¿½fï¿½rence, ainsi que les nombreuses versions intermï¿½diaires et les expï¿½riences qu'ils ont permis de conduire, montrent que le niveau de performance espï¿½rï¿½ ne peut ï¿½tre atteint qu'avec des techniques de codage et des algorithmes plus sophistiquï¿½s. L'approche par lookup table a atteint ses limites car il n'est pas possible de diminuer le nombre d'instructions par noeuds ï¿½ cause des limitations et des contraintes architecturales (pas assez de registres, mode rï¿½el ou unreal trop limitï¿½s, prï¿½fixes divers et mï¿½moire lente). L'apparition vers 1997 du jeu d'instructions MMX ainsi que la lecture plus attentive du livre de Michael Abrash [7] renforcent la conviction qu'il faut revoir le programme depuis le dï¿½but.

Partie IV : Rï¿½alisation

IV.1 Introduction :

Les premiers programmes de LGA sont relativement petits (le kernel comprend moins de 100 instructions) et commencent dï¿½jï¿½ ï¿½ nï¿½cessiter une attention soutenue pour fonctionner correctement. Le temps nï¿½cessaire ï¿½ mettre un programme au point se mesure en semaines puis en mois pour la version en assembleur. Le projet dï¿½crit ici est encore plus ambitieux et nï¿½cessite une longue prï¿½paration pour que tous les ï¿½lï¿½ments puissent fonctionner correctement, d'abord seuls puis en coopï¿½ration avec les autres. Il faut concevoir chaque ï¿½lï¿½ment indï¿½pendemment tout en prï¿½voyant leur assemblage final, il est donc nï¿½cessaire d'avoir une vue gï¿½nï¿½rale du projet aussi claire que possible.

Ce projet a ï¿½tï¿½ lancï¿½ au dï¿½part car il a ï¿½tï¿½ prï¿½parï¿½ pendant plusieurs annï¿½es : la plateforme est mieux maitrisï¿½e (en particulier le dï¿½veloppement en assembleur MMX en mode protï¿½gï¿½) et l'algorithme de strip mining est imaginï¿½. Certains autres aspects algorithmiques et structurels sont imaginï¿½s comme l'organisation des donnï¿½es et la reprï¿½sentation des parois. En thï¿½orie, le projet ne devrait pas ï¿½tre compliquï¿½ mais "le dï¿½mon se cache toujours dans les dï¿½tails"...

IV.2 : Intel : la plateforme idï¿½ale malgrï¿½ elle

Pour les nombreuses raisons exposï¿½es prï¿½cï¿½demment, la plateforme reste le PC sous MS-DOS. De plus, le dï¿½veloppement dans un autre environnement et ï¿½ ce niveau nï¿½cessiterait l'apprentissage d'autres techniques et MS-DOS est le seul environnement permettant un contrï¿½le total de la machine, condition nï¿½cessaire pour trouver les goulots d'ï¿½tranglement des algorithmes testï¿½s, sans interfï¿½rences du systï¿½me d'exploitation ni d'ï¿½vï¿½nements extï¿½rieurs incontrï¿½lables. Enfin, bien que l'avenir commercial de ce systï¿½me soit incertain, des alternatives libres comme FreeDOS permettront de distribuer le programme avec le systï¿½me d'exploitation prï¿½configurï¿½, afin d'en simplifier l'utilisation et la diffusion gratuite. Il n'est pas question d'utiliser d'ALPHA, de SPARC ou de PowerPC malgrï¿½ leur puissance supï¿½rieure. Un CRAY (T3E ou SV) conviendrait trï¿½s bien car les outils de profiling sont livrï¿½s mais outre le prix et la place dï¿½raisonnables, le but du projet n'est pas d'atteindre la plus haute performance possible mais bien de trouver des techniques afin de mieux exploiter une machine existante et facilement disponible. Le dï¿½fi algorithmique est dï¿½jï¿½ suffisamment complexe.

Avec le temps, de nouveaux processeurs Intel et clones sont apparus : rï¿½cemment l'Athlon d'AMD a surpassï¿½ le PIII d'Intel (voir "la Jihad des CPU de 7ï¿½me gï¿½nï¿½ration" par Paul Hsieh) et les compagnies se font une concurrence frï¿½nï¿½tique, au niveau des prix, de la performance et des fonctionalitï¿½s, pour la maï¿½trise du marchï¿½. Pour des raisons pratiques, nous devons nous concentrer sur une partie seulement des architectures disponibles, en espï¿½rant que les autres architectures ne soient pas complï¿½tement diffï¿½rentes. La compatibilitï¿½ binaire entre les versions garantit cependant que le programme fonctionne partout oï¿½ les fonctions nï¿½cessaires (souris sï¿½rie, VESA2, MMX, MS-DOS et HIMEM.SYS en mode rï¿½el) sont prï¿½sentes.

Nous allons nous concentrer sur deux processeurs et leur architecture : le Pentium MMX ï¿½ 200MHz, disponible ï¿½ la maison, et le Pentium II dont plusieurs sont disponibles ï¿½ l'universitï¿½, dont deux en version biprocesseur. Ce sont deux architectures rï¿½pandues et connues, mais suffisamment diffï¿½rentes pour nï¿½cessiter une ï¿½tude particuliï¿½re. Le premier (P200MMX) est un processeur superscalaire ï¿½ deux voies, proche d'un RISC classique, alors que le deuxiï¿½me (PII) a un coeur OOO (Out Of Order execution) pouvant traiter 40 instructions ï¿½ diffï¿½rents stades de leur exï¿½cution, disposant de 80 registres renommï¿½s. L'interface avec la mï¿½moire centrale et la "rï¿½sistance ï¿½ la charge de calcul" sont complï¿½tement diffï¿½rentes et nï¿½cessiteraient deux versions diffï¿½rentes du programme : le P200MMX est un processeur "statique", qui reste assez prï¿½visible grï¿½ce ï¿½ sa cache d'instructions, alors que le PII est entiï¿½rement dynamique et non dï¿½terministe ! Pour ne rien amï¿½liorer, les rï¿½gles de codage sont radicalement diffï¿½rentes. Les schï¿½mas ci-dessous illustrent les diffï¿½rences architecturales entre les deux types de processeurs :

Pentium MMX : Pentium II :
* jusqu'ï¿½ 2 instructions dï¿½codï¿½es par cycle
* 2 caches internes (donnï¿½es et instructions) de 16 Ko
* bus mï¿½moire externe : Socket 7 ï¿½ 66MHz
(comme les Pentium ï¿½ 100 MHz)
* jusqu'ï¿½ 3 instructions dï¿½codï¿½es par cycle et
traduites en 6 micro-instructions (ï¿½ops).
* 2 caches internes (donnï¿½es et instructions) de 16 Ko
et cache transactionnelle de 256Ko dans le module
* bus mï¿½moire externe : Slot 1 ï¿½ 66MHz puis 100 et 133MHz, transactionnel

courtesy of Intel

De nombreuses ressources sont disponibles, notamment dans la bibliographie et sur Internet. Michael Abrash [7] dï¿½crit bien les aspects importants de la programmation du Pentium classique et l'adjonction du jeu d'instruction MMX est relativement simple :

Par contre, les rï¿½gles de codage pour le PII (qui est un Pentium Pro avec support du jeu d'instructions MMX) sont diffï¿½rentes et dï¿½pendent de l'architecture remodelï¿½e du coeur OOO : ce processeur travaille en transformant les instruction x86 en ï¿½ops, ce qui modifie les rï¿½gles de groupement des instructions. Nous reviendrons bientï¿½t sur ce problï¿½me.

Le DOS-Extender (ou "loader 32 bits") est un morceau de code situï¿½ au dï¿½but d'un programme MS-DOS autonome et qui place le processeur en mode 32 bits : il permet ainsi d'utiliser les registres sur 32 bits sans utiliser de prï¿½fixe de taille, donc de faire fonctionner le programme plus vite. Son dï¿½veloppement a commencï¿½ vers 1997 et s'est stabilisï¿½ rapidement car il est court et conï¿½u pour ï¿½tre trï¿½s compact : le code binaire occupe moins d'un kilo-octet. Le mode DPMI (DOS Protected Mode Interface) permettant d'utiliser le mode protï¿½gï¿½ 32 bits sous Windows a ï¿½tï¿½ essayï¿½ mais de nombreuses difficultï¿½s ont empï¿½chï¿½ de poursuivre l'effort dans cette direction : il a ï¿½tï¿½ plus simple de tout recoder ï¿½ la main car cela ï¿½vite d'ï¿½tre dï¿½pendant de conventions et d'interfaces complexes, contraignantes et inadaptï¿½es. Le loader est minimal et ne remplit que les fonctions nï¿½cessaires. Il a d'abord ï¿½tï¿½ programmï¿½ avec TASM mais le mï¿½lange des codes 16 bits et 32 bits a rendu le codage trï¿½s difficile. Il a ï¿½tï¿½ portï¿½ trï¿½s facilement sous NASM et ce sera l'assembleur final : il est distribuï¿½ sous GPL, il est de plus en plus utilisï¿½, il est stable et surtout sa syntaxe est trï¿½s simple et trï¿½s pratique, dï¿½barrassï¿½e de toute convention inutile. L'utilisation des directives USE16 et USE32 a fait disparaï¿½tre de nombreuses difficultï¿½s qui ont freinï¿½ le dï¿½veloppement avec TASM, en particulier l'adjonction manuelle des prï¿½fixes de taille ("db 66h" et "db 67h"). Pour complï¿½ter, j'ai ï¿½crit un ensemble de fonctions permettant de se passer d'un linker et qui permet de gï¿½nï¿½rer l'entï¿½te d'un fichier EXE. Ces fonctions font actuellement partie de la bibliothï¿½que de macros de NASM. Enfin, deux programmes (une sorte de prï¿½processeur et un patcheur d'entï¿½te) ï¿½crits en Turbo Pascal fournissent les derniers utilitaires pour programmer sans se prï¿½occuper de certains dï¿½tails de bas niveau.

Une fois le programme lancï¿½, nous disposons de l'environnement idï¿½al : nous pouvons accï¿½der linï¿½airement ï¿½ 64Mo (limite du standard XMS) en nous souciant beaucoup moins des segments qu'avant. Seules trois interruptions sont utilisï¿½es : le clavier, la souris et la procï¿½dure d'erreur fatale (qui est dï¿½clenchï¿½e par le processeur lorsqu'un bug se manifeste violemment). Ainsi, il n'y a pas un seul cycle que nous ne pouvons contrï¿½ler et nous disposons de l'intï¿½gralitï¿½ de la puissance de la machine, sans autre entrave que son architecture. Cet environnement est augmentï¿½ de fonctions au fur et ï¿½ mesure que leur intï¿½gration devient possible. Par exemple, une fois que le contrï¿½le de la carte vidï¿½o en mode 1024*768*256/LFB est assurï¿½, la souris est intï¿½grï¿½e pour entrer des ordres. Presque toutes les fonctions sont testï¿½es hors de l'environnement avant d'ï¿½tre intï¿½grï¿½es, souvent en langage Turbo Pascal pour faciliter le dï¿½bogage et la comprï¿½hension des algorithmes. Par exemple, voici le programme qui est ï¿½ la base du driver de souris :


Uses Crt, Dos;
{$F+}

const COM1INTR = $0C;
      COM1PORT = $3F8;

var bytenum : word;
    combytes : array[0..2] of byte;
    x, y : longint;
    button1, button2,changed : boolean;
    MouseHandler : procedure;

procedure MyMouseHandler; Interrupt;
var dx, dy : integer;
var inbyte : byte;
begin
  inbyte := Port[COM1PORT];  { Get the port byte }

  { Make sure we are properly "synched" }
  if (inbyte and 64) = 64 then bytenum := 0;

  { Store the byte and adjust bytenum }
  combytes[bytenum] := inbyte;
  inc(bytenum);

  { Have we received all 3 bytes? }
  if bytenum = 3 then
    begin

      { Yes, so process them }
      dx := (combytes[0] and 3) shl 6 + combytes[1];
      dy := (combytes[0] and 12) shl 4 + combytes[2];
      if dx >= 128 then dx := dx - 256;
      if dy >= 128 then dy := dy - 256;
      x := x + dx;
      y := y + dy;
      button1 := (combytes[0] And 32) <> 0;
      button2 := (combytes[0] And 16) <> 0;

      { And start on first byte again }
      bytenum := 0;
      changed := true;
    end;

  { Acknowledge the interrupt }
  Port[$20] := $20;
end;


var error: boolean;
begin
  ClrScr;

  error:=false;

  { Initialize the normal mouse handler }
  asm
    mov ax, 0
    int $33
    inc ax
    jne @the_end

    mov ax,24h
    int 33h     { get mouse parameters }
    inc ax
    je @the_end  { no mouse or other error }
    cmp ch,2
    jne @the_end { we want a serial mouse }
    cmp cl,2   { COM port }
    jae @not_the_end
@the_end:
    mov word ptr [error], -1
@not_the_end:

  end;

  if error then halt(1);

  { Initialize some of the variables we'll be using }
  bytenum := 0;
  x := 0;
  y := 0;
  button1 := false;
  button2 := false;

  { Save the current mouse handler and set up our own }
  GetIntVec(COM1INTR, @MouseHandler);
  SetIntVec(COM1INTR, Addr(MyMouseHandler));


  while not keypressed do
    if changed then
     begin
       WriteLn(x : 5, y : 5, button1 : 7, button2 : 7);
       changed:=false;
     end;

  SetIntVec(COM1INTR, @MouseHandler);
end.

Une fois l'algorithme compris, le code est traduit en langage assembleur et retestï¿½ avec Turbo Pascal en inline. Ensuite, la partie dï¿½veloppï¿½e et validï¿½e peut ï¿½tre recopiï¿½e dans l'environnement en assembleur, aprï¿½s une lï¿½gï¿½re traduction de la syntaxe (Turbo Pascal -> NASM) et le renommage des variables. C'est ï¿½ cet endoit que surviennent la plupart des problï¿½mes : faute de frappe, erreur de copier/coller, syntaxe erronnï¿½e mais non dï¿½tectï¿½e par NASM ... Les problï¿½mes sont facilement ï¿½liminï¿½s avec beaucoup de pratique, de mï¿½thode et de patience et les cas simples permettent de se prï¿½parer aux cas trï¿½s difficiles. Par exemple, certains bugs ont nï¿½cessitï¿½ deux semaines pour ï¿½tre rï¿½solus alors qu'un module peut ï¿½tre intï¿½grï¿½ en quelques heures : la programmation est un exercice non linï¿½aire ! Le type de code prï¿½cï¿½dent n'a pas ï¿½tï¿½ optimisï¿½ trï¿½s fortement : son exï¿½cution n'est pas absolument critique et l'accï¿½s aux entrï¿½es-sorties prend la plupart des cycles. Il a donc ï¿½tï¿½ recodï¿½ pour ï¿½tre le plus compact possible et effectuer seulement les opï¿½rations nï¿½cessaires, grï¿½ce ï¿½ de nombreux paramï¿½tres prï¿½-codï¿½s ou dï¿½finis une fois pour toute (comme le curseur de la souris). A ce niveau, cela suffit pour atteindre l'objectif de performance dï¿½sirï¿½.

Lorsque le code le permettait, un stub a ï¿½tï¿½ intï¿½grï¿½ pour supporter les plateformes bi-processeur. Cela a demandï¿½ trois jours non-stop de travail pour lire les documents d'Intel mais le rï¿½sultat est simple, compact et bien cernï¿½. La communication s'effectue simplement avec des sï¿½maphores en mï¿½moire. Le systï¿½me de cohï¿½rence de caches MESI a ï¿½tï¿½ mis ï¿½ l'ï¿½preuve et des mesures ont montrï¿½ que cette plateforme n'est intï¿½ressante que pour des applications CPU bound (les deux processeurs ï¿½ 266 MHz doivent se partager un unique bus similaire ï¿½ celui du Pentium 100). Toutefois, aprï¿½s quelques mois d'utilisation, le stub a ï¿½tï¿½ dï¿½validï¿½ afin de pouvoir se concentrer sur la partie la plus importante : le calcul. En effet, il faut programmer une version mono- et bi-processeur pour chaque version du kernel de calcul et cela ralentit le dï¿½veloppement. Le code bi-processeur reste toujours disponible et la structure du programme est prï¿½servï¿½e pour permettre son retour lorsque le code sera abouti et parallï¿½lisable.

IV.3 : Description de l'algorithme de strip mining

Comme nous l'avons constatï¿½ avec les programmes de la partie III, la bande passante avec la mï¿½moire est une "ressource" trï¿½s importante car elle peut faire ralentir le programme d'une maniï¿½re dramatique. Le deuxiï¿½me code de rï¿½fï¿½rence ne rï¿½soud pas tout ï¿½ fait le problï¿½me car la vitesse de calcul est inversement proportionnelle ï¿½ la vitesse de l'affichage et il faut donc choisir entre interactivitï¿½ et temps de calcul. Le choix de l'algorithme est mieux adaptï¿½ au Pentium que pour le premier exemple destinï¿½ au i286 mais l'affichage hors de la boucle de calcul est une erreur stratï¿½gique car elle gï¿½nï¿½re autant de cache misses que le calcul. L'affichage entrelacï¿½ avec le calcul rï¿½duirait le nombre de cache misses, amï¿½liorerait la vitesse de rendu ï¿½ l'ï¿½cran et bï¿½nï¿½ficierait naturellement de la localitï¿½ spatiale et temporelle.

Cependant, la situation va encore se dï¿½tï¿½riorer dans l'avenir car malgrï¿½ les lourds investissements rï¿½alisï¿½s dans ce domaine par les industriels, la bande passante vers la mï¿½moire centrale s'accroï¿½t plus lentement que la vitesse de traitement des processeurs. Si notre algorithme est basï¿½ sur un balayage linï¿½aire de toute la mï¿½moire, l'accï¿½lï¿½ration rï¿½alisï¿½e en utilisant une plateforme "plus rapide" ne sera pas proportionnelle ï¿½ l'augmentation de la vitesse du processeur. L'entrelacement de l'affichage avec le calcul, nï¿½cessaire pour rï¿½duire le nombre de transactions sur le bus mï¿½moire, n'est pas suffisant pour permettre ï¿½ l'algorithme d'exploiter les plateformes modernes et celles qui leur succï¿½deront : nous serons toujours limitï¿½s par la vitesse d'accï¿½s ï¿½ la mï¿½moire centrale, accï¿½dï¿½e en lecture et en ï¿½criture.
extrait de la page d'accueil du benchmark STREAM
Pour traiter un tableau de N sites, il faudra donc accï¿½der ï¿½ N*2 sites ainsi qu'ï¿½ la mï¿½moire vidï¿½o ce qui sature tragiquement le bus mï¿½moire. Si le problï¿½me est liï¿½ au balayage linï¿½aire, il faut alors y renoncer. Il faut balayer d'une maniï¿½re qui permette ï¿½ la mï¿½moire cache d'ï¿½tre utilisï¿½e de maniï¿½re optimale, c'est ï¿½ dire : extraire la localitï¿½ spatiale et temporelle du modï¿½le. Nous devons pour cela analyser la dï¿½pendance des donnï¿½es ï¿½ chaque pas de temps entre une cellule et ses voisins :

Nous voyons sur le schï¿½ma prï¿½cï¿½dent que si nous partons du calcul d'une cellule, le pas de temps suivant fera intervenir 6 cellules supplï¿½mentaires, 12 cellules puis 18 cellules pour chaque pas de temps successif et ainsi de suite. Commencer le calcul ï¿½ partir d'une seule cellule se traduit par une croissance hexagonale du domaine ï¿½ traiter. Le voisinage hexagonal impose des manipulations de donnï¿½es complexes, masquages et dï¿½calages, nï¿½cessaires au traitement exclusif des cellules qui nous concernent pour chaque ï¿½tape, ce qui rï¿½duit l'efficacitï¿½ du programme. Nous ne pouvons pas nous baser directement sur le voisinage pour crï¿½er un nouveau balayage.

Le problï¿½me est simplifiï¿½ si l'on s'inspire d'une technique qui traite des lignes au lieu de cellules individuelles : la dï¿½pendance des donnï¿½es se confond alors dans une croissance linï¿½aire, non hexagonale, du domaine ï¿½ traiter. La technique de strip mining est connue et principalement utilisï¿½e sur des plateformes sophistiquï¿½es, multi-processeurs, avec plusieurs niveaux de mï¿½moire, c'est ï¿½ dire oï¿½ l'accï¿½s ï¿½ la mï¿½moire n'est pas uniforme, comme dans notre cas. Le principe de cette technique est de diviser le domaine calculï¿½ en bandes (strips) et de les balayer de maniï¿½re non linï¿½aire. Par exemple, en utilisant des propriï¿½tï¿½s mathï¿½matiques, il est possible de rï¿½organiser les donnï¿½es d'une matrice afin de calculer son inverse : le programme de strip mining ne balaiera plus les donnï¿½es de maniï¿½re triviale et les donnï¿½es resteront plus longtemps en mï¿½moire cache, ce qui accï¿½lï¿½re le calcul. Dans notre cas, ce ne sont pas des propriï¿½tï¿½s mathï¿½matiques mais gï¿½omï¿½triques qu'il faut ï¿½tudier.

Nos strips correspondront aux lignes du tableau : elles seront calculï¿½es par une boucle simple, en distingant toutefois les lignes paires et impaires (comme pour le premier code de rï¿½fï¿½rence). Les lignes sont ensuite balayï¿½es ï¿½ un niveau supï¿½rieur avec une "fenï¿½tre glissante" : c'est un balayage similaire ï¿½ une double boucle imbriquï¿½e, portant sur l'axe y. L'algorithme de balayage consiste donc en trois boucles les unes dans les autres :

for y:=0 to y_max do (* balayage gï¿½nï¿½ral : gï¿½nï¿½re les cache misses *) begin for i:=0 to strip do (* boucle interne de strip mining, sans inclure l'amroï¿½age *) for x:=0 to x_max do (* balayage d'un strip *) calcule (x,y+i); (* le dï¿½bordement en y n'est pas traitï¿½ dans ce pseudo-code *) affiche_ligne(y); end;
Nous pouvons voir que cette adaptation convient aux nï¿½cessitï¿½s de l'affichage, sans que la cache ne soit vidï¿½e : le transfert des donnï¿½es vers l'extï¿½rieur s'effectue avec la garantie que les donnï¿½es soient dï¿½jï¿½ en cache si le paramï¿½tre strip est bien choisi. La bande passante du bus externe du processeur est donc divisï¿½e en 3 : lecture, ï¿½criture des ï¿½lï¿½ments modifiï¿½s, affichage. Cependant les ï¿½lï¿½ments mis en jeu sont trï¿½s complexes : ce balayage composï¿½ implique que l'on peut trouver sur le tableau, lors du calcul, des sites dont les valeurs correspondent ï¿½ des pas de temps ï¿½loignï¿½s, il faut un mï¿½canisme adaptï¿½ pour gï¿½rer les buffers nï¿½cessaires. Le schï¿½ma suivant montre les dï¿½pendances sur l'axe y ï¿½ tous les pas intermï¿½diaires du calcul d'un tableau de 7 lignes et avec un strip mining de 3 lignes :
Le sens de balayage global est sur l'axe y, le sens de balayage de la boucle interne est symbolisï¿½ par les larges flï¿½ches transparentes. Les cases reprï¿½sentent diffï¿½rentes valeurs pour chaque ligne ï¿½ diffï¿½rentes ï¿½tapes, elles sont numï¿½rotï¿½es dans l'ordre d'appel de la fonction de calcul. Les petites flï¿½ches montrent les dï¿½pendances de donnï¿½es entre les cellules.

Nous pouvons apercevoir que le cas de buffer temporaire expliquï¿½ en partie III.3 est un cas particulier de ce nouvel algorithme lorsque strip est ï¿½gal ï¿½ 1. Cela signifie que le plan temporaire dans ce cas particulier ne change pas. Par contre, lorsque strip augmente, la gestion du plan temporaire devient beaucoup plus complexe : il faut strip lignes de buffer et autant de pas de temps diffï¿½rents sont prï¿½sents sur le tableau. Le dï¿½placement des donnï¿½es dans le tableau demande alors encore plus de soin lors du dï¿½veloppement et nï¿½cessite une prï¿½paration importante. La rï¿½alisation du programme a ï¿½tï¿½ plus difficile que prï¿½vu, principalement car l'algorithme de balayage initialement utilisï¿½ comportait des dï¿½pendances spatio-temporelles cachï¿½es qui ï¿½taient impossibles ï¿½ rï¿½soudre sans une rï¿½vision complï¿½te du programme.

Dans le programme final, tous les indices sont transformï¿½s en pointeurs et linï¿½arisï¿½s afin de rï¿½duire ï¿½ la fois le nombre nï¿½cessaire de registres et le nombres d'instructions de calcul. La structure de boucle prï¿½sentï¿½e initialement ne convient pas pour gï¿½rer l'amorï¿½age du buffer de strip mining : nous avons vu que le balayage doit commencer et se terminer en augmentant puis en rï¿½duisant progressivement le nombre de strips. La fenï¿½tre de calcul est alors cernï¿½e par deux pointeurs, modifiï¿½s par de simples opï¿½rations de comparaison/assignement. La boucle est ainsi contrï¿½lï¿½e par des conditions complexes mais le nombre de paramï¿½tres est rï¿½duit ï¿½ deux variables : "dï¿½but" et "fin". "fin" est "poursuivi" par "dï¿½but", la chasse se termine lorque "dï¿½but" dï¿½passe la "fin" (c'est ï¿½ dire : la fin du tunnel, mais pour rï¿½duire les dï¿½pendances entre les registres, ce paramï¿½tre est confondu avec une valeur immï¿½diate connue). D'autres pointeurs sont aussi nï¿½cessaires pour gï¿½rer les tableaux temporaires.


const strip=2;
var buf:array[0..strip-1,0..159,0..1] of byte; (* buffer temporaire *)
var j,debut,fin,debut_buf:word;
label calcul;
begin

 while not keypressed do
 begin
  debut:=1; (* initialisation des pointeurs *)
  fin:=1;
  debut_buf:=0;

calcul:
  for j:=fin downto debut do
  begin
   if (j and 1)=1 then (* paritï¿½ de la ligne *)
(* calcule une ligne impaire *)
   else
(* calcule une ligne paire *)
  end;

  if fin=199 then
   inc(debut_buf)
  else
   inc (fin);

  if fin<strip+1 then
   goto calcul;
(* affichage ligne ici *)
  inc(debut);
  if debut<=199 then
   goto calcul;
 end;

Cet algorithme des pointeurs qui se poursuivent a ï¿½tï¿½ adaptï¿½ pour ne nï¿½cessiter qu'un minimum de sauts et de structures if-then-else. Dans la version en assembleur, les pointeurs sont en plus "linï¿½arisï¿½s" : ils ne sont pas incrï¿½mentï¿½s de 1 mais augmentï¿½s de la taille d'une ligne et augmentï¿½s par l'adresse du dï¿½but du tunnel, afin de pouvoir effectuer des comparaisons directes entre les pointeurs qui servent aussi de compteurs. Toutefois, bien que la structure de strip mining externe soit assez simple, les dï¿½tails internes deviennent trï¿½s complexes. En particulier, le "saut temporel", qui sï¿½pare les sites entre le dï¿½but et la fin de la fenï¿½tre, agit comme un saut gï¿½omï¿½trique et nï¿½cessite donc un buffer temporaire aussi gros que la fenï¿½tre. La gestion des pointeurs ï¿½ l'intï¿½rieur de cette structure est difficile ï¿½ mettre au point.

Les mï¿½saventures dï¿½es au strip mining sont nombreuses mais la plus importante met en jeu la structure complï¿½te du programme. Nous avons vu dans les pseudo-codes prï¿½cï¿½dents que nous pouvions profiter de l'algorithme pour y inclure la fonction d'affichage. Le programme rï¿½alisï¿½ va plus loin en essayant d'utiliser la structure du buffer temporaire pour mï¿½moriser des informations sur la fenï¿½tre courante, en particulier afin d'effectuer une accumulation des particules et afficher la densitï¿½ dans le tunnel. L'avantage ï¿½vident est que cela ï¿½conomise beaucoup de mï¿½moire : le buffer d'affichage nï¿½cessite alors strip lignes au lieu de y et cela nous ramï¿½ne au cas dï¿½crit pour le buffer temporaire simple (au total : y+1 lignes au lieu de 2y). Pourtant la rï¿½alisation fait apparaï¿½tre que les donnï¿½es ne sont pas accï¿½dï¿½es dans le mï¿½me ordre que pour le buffer temporaire de dï¿½placement : l'affichage nï¿½cessite un pointeur supplï¿½mentaire ainsi qu'un algortihme nouveau, mï¿½me si la place occupï¿½e n'est pas un problï¿½me. Tous les registres utilisables sont dï¿½jï¿½ allouï¿½s et l'accumulation de donnï¿½es sur la fenï¿½tre n'est pas possible. Seules les donnï¿½es disponibles ï¿½ un intervale de strip pas de temps peuvent ï¿½tre affichï¿½es. Aussi, l'affichage sophistiquï¿½ prï¿½vu au dï¿½part n'a pas ï¿½tï¿½ inclus dans le programme mï¿½me s'il est dï¿½jï¿½ conï¿½u et testï¿½. A posteriori, la technique simple (consommant beaucoup de mï¿½moire) aurait ï¿½tï¿½ prï¿½fï¿½rable mais la structure du code existant est trop avancï¿½e et figï¿½e pour pouvoir ï¿½tre modifiï¿½e. Un recodage complet est nï¿½cessaire et serait plus rapide.

Le speedup permis par l'algorithme de strip mining dï¿½pend du nombre de lignes contenues dans la fenï¿½tre et sa taille dï¿½pend de nombreux paramï¿½tres. Afin de maximiser la rï¿½utilisation des donnï¿½es, il faut donc que la fenï¿½tre corresponde le mieux possible aux caractï¿½ristiques de la mï¿½moire de la machine, ce qui est absolument indï¿½terministe et imprï¿½visible. La premiï¿½re mesure ï¿½ prendre est d'orienter le tableau dans la hauteur afin que la fenï¿½tre soit la plus ï¿½troite possible. Par exemple, dans le cas des allï¿½es de von Karman, il faut tourner le tunnel ï¿½ 90 degrï¿½s (hauteur plus grande que la largeur) afin que l'algorithme soit plus efficace. En effet, le speedup est proportionnel ï¿½ strip, ce que confirment les mesures. Pour le cas d'une version multiprocesseur, cela veut dire que le dï¿½coupage du domaine doit se faire dans la largeur afin de rï¿½duire la bande passante du bus externe, mï¿½me si cela augmente le nombre de sï¿½maphores de synchronisation.

Ensuite, il faut que le nombre de lignes dans la fenï¿½tre ne soit ni trop grand ni trop petit mais il n'y a pas de formule gï¿½nï¿½rale permettant de dï¿½terminer ce paramï¿½tre. La solution la plus efficace et la plus simple est de mesurer en conditions rï¿½elles toutes les possibilitï¿½s : c'est l'ï¿½tape de calibration qui calcule plusieurs pas de temps et mesure le temps pour chaque largeur de la fenï¿½tre. A la fin des mesures, il dï¿½termine le meilleur score (le temps divisï¿½ par la taille de la fenï¿½tre) : le rï¿½sultat, en nombre de lignes, servira pour les calculs futurs. La calibration doit ï¿½tre effectuï¿½e ï¿½ chaque fois que les paramï¿½tres de simulation changent (nombre de sites ou gï¿½omï¿½trie du tunnel) afin que le temps de calcul soit toujours optimal. Pour des raisons historiques et pratiques, la recherche exhaustive est limitï¿½e ï¿½ 32 valeurs de strip mais il n'est pas nï¿½cessaire d'augmenter ce nombre et cela suffit pour de donner une bonne idï¿½e sur l'architecture de la mï¿½moire de la machine. Par des mesures, calculs et dï¿½ductions, il est possible de dï¿½terminer la bande passante rï¿½elle de la mï¿½moire centrale ou la taille de la mï¿½moire cache. Les processeurs les plus rï¿½cents (Pentium II par exemple) ont une excellente rï¿½ponse au strip mining, utilisant souvent un nombre maximal de lignes dans la fenï¿½tre, alors que les processeurs de cinquiï¿½me gï¿½nï¿½ration avec cache L2 externe ont un score faible correspondant ï¿½ la taille de la mï¿½moire cache L1.

A premiï¿½re vue, le strip mining est une technique complexe dont l'efficacitï¿½ n'est pas garantie : le gain en performance est dï¿½pendant de l'architecture de la machine et sa complexitï¿½ pratique est peu ï¿½vidente ï¿½ apprï¿½hender. Toutefois c'est un algorithme adaptatif qui ne surcharge pas la machine lorsque c'est inutile et son efficacitï¿½ est dï¿½montrï¿½e en pratique pour les plateformes actuelles. Nous allons voir ï¿½ la fin de cette partie une application rï¿½elle oï¿½ le speedup approche 2,5.

Dans le cas qui nous concerne, le strip mining utilisï¿½ ici est une version trï¿½s spï¿½ciale adaptï¿½e aux tableaux en deux dimensions. Son extension ï¿½ d'autres dimensions est envisageable mais sa complexitï¿½ intrinsï¿½que doit ï¿½tre complï¿½tement maitrisï¿½e : les mï¿½saventures avec la version actuelle du code (en particulier les croisements de pointeurs pour l'affichage) montrent que ce domaine particulier devrait ï¿½tre ï¿½tudiï¿½ plus en profondeur de maniï¿½re "acadï¿½mique" pour ï¿½tre connu et utilisï¿½ largement. Le manque de connaissances prï¿½liminaires a rendu la programmation difficile, malgrï¿½ la longue prï¿½paration. Espï¿½rons que dans le futur, cet algorithme sera mieux ï¿½tudiï¿½ et se banalisera car c'est une solution simple et non calculatoire (indï¿½pendante du "Grand O") pour accï¿½lï¿½rer les calculs lourds sur les machines actuelles et futures.

IV.4 : Nouvelle structure des donnï¿½es et mï¿½thode de calcul

Nous avons vu que mï¿½me en groupant les octets par 4, il faut toujours 47 instructions de mouvement des donnï¿½es contre 12 pour la consultation de la table : le premier programme nï¿½cessitait 30 instructions de mouvement pour 6 de consultation, nous sommes passï¿½s de 5:1 ï¿½ 4:1 avec une augmentation de la taille du code de 1,6. Il est clair que pour accï¿½lï¿½rer le programme, il faut rï¿½duire le temps passï¿½ ï¿½ bouger les bits. En ignorant les autres paramï¿½tres, il faudrait diviser par quatre le nombre d'instructions de mouvement de donnï¿½es pour doubler la vitesse de calcul. Malheureusement nous ne pouvons pas agir sur le jeu d'instructions, nous devons jouer sur l'organisation des donnï¿½es pour rï¿½duire cet ï¿½norme problï¿½me.

Si le programme passe les 4/5ï¿½mes de son temps ï¿½ bouger les bits, c'est parcequ'il doit extraire puis insï¿½rer des bits dans d'autres mots (le processeur ne dispose pas d'instruction spï¿½ciale pour cette tï¿½che), ceci sept fois par site, pour tous les sites. Nous devons donc utiliser une reprï¿½sentation des donnï¿½es qui rï¿½duit au maximum le nombre d'instructions nï¿½cessaires au mouvement. La structure la plus simple est ï¿½videmment le mot long, permettant en MMX de coder 64 particules allant dans la mï¿½me direction.

Le calcul est un nouveau problï¿½me : il faut l'effectuer par opï¿½rations logiques explicites au lieu de consulter des tables. Nous ne disposons pas d'instruction adï¿½quate permettant de transformer 7 mots de 64 bits en 64 octets. Le problï¿½me est toutefois plus compliquï¿½ car l'enjeu est de pouvoir suivre la croissance de la puissance des ordinateur et cette croissance passe par l'augmentation de la largeur des mots : les programmes consultant des tables sont donc condamnï¿½s ï¿½ stagner au niveau de la performance car le nombre de sites calculï¿½s restera proportionnel au nombre de consultations. Au contraire, en utilisant une technique basï¿½e sur la reprï¿½sentation parallï¿½le des sites, une augmentation de la largeur des mots augmentera la vitesse de calcul. Une estimation situe le "point de rupture" ï¿½ des mots de 32 bits : cette technique n'est pas intï¿½ressante pour un processeur 16 bits mais cela dï¿½pend aussi beaucoup du nombre de registres, du jeu d'instructions et du nombre d'instructions dï¿½codï¿½es par cycle. L'introduction des instructions MMX et les registres associï¿½s favorisent beaucoup l'utilisation du modï¿½le ï¿½ calcul explicite, malgrï¿½ la complexitï¿½ inhï¿½rente du programme.

L'organisation des donnï¿½es au niveau macroscopique joue aussi un rï¿½le important. Traditionnellement, la technique "multi-spin" (en rï¿½fï¿½rence au modï¿½le d'Ising) regroupe les sept directions dans sept tableaux car les ordinateurs vectoriels (CRAY surtout) peuvent traiter 4096 sites en une seule instruction (8 registres vectoriels de 64 fois 64 bits). Ce type d'organisation perdure encore dans les habitudes mais se heurte comme les autres algorithmes aux architectures complexes des microprocesseurs rï¿½cents. Par exemple, il faut 7 pointeurs pour dï¿½signer le tableau d'origine et 7 pointeurs pour le tableau de destination (en utilisant l'organisation simple, sans buffer temporaire) et les CRAY (comme la plupart des autres processeurs courants) n'ont que 8 registres d'adresse. Ensuite, la mï¿½moire cache, ajoutï¿½e au processeur pour pallier au manque de bande passante avec la mï¿½moire centrale, crï¿½e des problï¿½mes d'associativitï¿½ d'ensemble : pour le Pentium par exemple (8Ko associatif ï¿½ 2 voies) des accï¿½s consï¿½cutifs ï¿½ des adresses identiques modulo 4096 provoquent de nombreux cache misses artificiels. Nous voyons encore ici que les algorithmes, mï¿½me si leur programmation semble facile, survivent mal aux ï¿½volutions de la plateforme.

L'organisation que nous allons utiliser maintenant est un compromis entre "multi-spin" et "multi-site" : la premiï¿½re contrainte est de diminuer au maximum le nombre de registres pointeurs nï¿½cessaires. Il faut donc "linï¿½ariser" les accï¿½s et limiter les modes d'adressage au mode registre + index immï¿½diat. Pour rï¿½duire encore plus le nombre de registres inutilement utilisï¿½s dans le kernel, l'index sera parfois modifiï¿½ ï¿½ la volï¿½e par du code automodifiant, par exemple pour l'accï¿½s ï¿½ des cellules d'une ligne diffï¿½rente. Le code automodifiant est ï¿½videmment placï¿½ hors de la boucle et n'est utilisï¿½ que lorsque la taille du tableau change, pour ï¿½viter les lourdes pï¿½nalitï¿½s ï¿½ la premiï¿½re exï¿½cution.


/* quelques dï¿½finitions : */

#define max_x 512
#define max_y 512
#define lli long long int
#define slli (sizeof(long long int))

/* dï¿½claration en C d'un tableau multi-site : */

char tableau[max_y][max_x];
(comme pour les programmes ï¿½tudiï¿½s jusqu'ici)

/* dï¿½claration en C d'un tableau multi-spin : */

lli a[max_y][max_y/slli];
lli b[max_y][max_y/slli];
lli c[max_y][max_y/slli];
lli d[max_y][max_y/slli];
lli e[max_y][max_y/slli];
lli f[max_y][max_y/slli];
lli g[max_y][max_y/slli];
(pour les ordinateurs vectoriels)

/* dï¿½claration en C d'un tableau composite : */

struct site {
  lli a,b,c,d,e,f,g;
} tableau[max_y][max_y/slli];

L'annexe D prï¿½sente diffï¿½rentes variations des structures de donnï¿½es qui ont ï¿½tï¿½ programmï¿½es. Comme ces logiciels sont ï¿½crits en langage de haut niveau, les contraintes de performance sont difficilement visibles au niveau du code source. De plus, la complexitï¿½ croissante des plateformes n'est pas le souci majeur des programmeurs dont le seul but est d'obtenir un rï¿½sultat valide. La structure composite n'est donc pas encore rï¿½pandue dans les codes FHP et la dï¿½nomination officielle n'existe pas encore, cette organisation peut aussi bien ï¿½tre appelï¿½e multispin entrelacï¿½.

IV.5 : Implï¿½mentation des parois

La nouvelle organisation des donnï¿½es permet ï¿½ la fois d'ï¿½conomiser de la bande passante vers la mï¿½moire et de crï¿½er des parois plus flexibles mais, comme dans le reste du projet, aux dï¿½pends de la complexitï¿½ du code et du temps de dï¿½veloppement.

Tout d'abord, il faut remarquer la limitation inhï¿½rente aux parois "rugueuses" telles que programmï¿½es dans les programmes prï¿½cï¿½dents oï¿½ un seul bit ï¿½tait utilisï¿½. D'un cï¿½tï¿½, les parois sont trï¿½s faciles ï¿½ gï¿½rer car il suffit de mettre un bit ï¿½ 1 au bon endroit pour crï¿½er un mur. De l'autre cï¿½tï¿½, moins d'un de ces bits sur cent est utilisï¿½ en pratique : nous pouvons donc gagner facilement un huitiï¿½me de bande passante en ne transmettant pas ce bit, car maintenant il est dï¿½couplï¿½ du domaine des particules.

Ensuite, le modï¿½le ï¿½ un bit est limitï¿½ par le type de parois qu'il peut implï¿½menter : nous avons vu que les parois rugueuses sont nï¿½cessaires mais insuffisantes dans les cas gï¿½nï¿½raux. Pourtant, le modï¿½le FHP permet une plus grande variï¿½tï¿½ d'orientation des parois. Mï¿½me si pour un site, une particule peut repartir dans 5 directions diffï¿½rentes lors d'un choc avec une paroi, le nombre rï¿½el est de 12 directions de parois, c'est ï¿½ dire une prï¿½cision de 30 degrï¿½s. Nous avons donc intï¿½rï¿½t ï¿½ rï¿½utiliser la bande passante gagnï¿½e pour trouver une autre reprï¿½sentation des parois, qui permettrait par exemple de reprï¿½senter une sphï¿½re lisse.
La structure et l'algorithme nï¿½cessaires ï¿½ l'implï¿½mentation des parois est assez simple pour la partie calcul mais cette facilitï¿½ est largement compensï¿½e par la complexitï¿½ nï¿½cessaire ï¿½ la fabrication des donnï¿½es reprï¿½sentant les parois. Il suffit d'environ 20 instructions pour dï¿½vier jusqu'ï¿½ 128 particules de leur trajectoire grï¿½ce ï¿½ un ï¿½change contrï¿½lï¿½ par un masque et deux pointeurs logï¿½s dans une structure de type mur. Ces pointeurs et ce masque nï¿½cessitent cependant un mï¿½canisme sophistiquï¿½ pour ï¿½tre mis en place. Pour le programme de calcul, les parois sont "interprï¿½tï¿½es" grï¿½ce ï¿½ une sorte de liste chainï¿½e en mï¿½moire. Son adresse de dï¿½part est fournie par un pointeur de 32 bits logï¿½ dans la structure de type site qui devient donc :


/* dï¿½claration en C d'un ï¿½lï¿½ment de liste de modification : */
typdef struct {
  long int cpt; /* nombre d'ï¿½lï¿½ments ï¿½ interprï¿½ter */
  short int offset1, offset2; /* pointeurs relatifs au site courant */
  lli masque;
} mur;

/* dï¿½claration en C d'un tableau composite : */
struct site {
  lli a,b,c,d,e,f,g;
  mur * liste;
  long int pad; /* pour aligner la structure sur 8*64 bits */
} tableau[max_y][max_y/slli];

Dans la pratique, seuls les murs verticaux et horizontaux sont utilisï¿½s : les parois obliques ou non rectilignes posent des problï¿½mes ï¿½ cause de la paritï¿½ des lignes. En effet, cela dï¿½cale les parois d'un quart d'unitï¿½ d'un cï¿½tï¿½ ou de l'autre et l'algorithme de Bresenham ou de diffï¿½rences finies numï¿½rique ne peuvent ï¿½tre utilisï¿½s directement. Toutefois ce n'est pas le problï¿½me le plus important : la programmation de l'algorithme de gï¿½nï¿½ration automatique des listes de modifications est beaucoup plus complexe que lorsqu'on gï¿½nï¿½re les listes ï¿½ la main comme lors des premiers essais. Les parois sont mï¿½morisï¿½es sous forme de coordonnï¿½es vectorielles et leur transformation en listes de modifications n'est pas ï¿½vidente. Des difficultï¿½s supplï¿½mentaires concernent l'efficacitï¿½ de la transformation (format vectoriel->listes de modification, qui doit donner un rï¿½sultat le plus compact possible) et les croisements entre des parois d'inclinaison diffï¿½rentes. Ces deux problï¿½mes ont ï¿½tï¿½ traitï¿½s mais celui de l'efficacitï¿½ n'est pas considï¿½rï¿½ comme rï¿½solu, en l'absence de preuves formelles d'optimalitï¿½. Quant au croisement de parois aux orientantions diffï¿½rentes, le problï¿½me est rï¿½solu pour l'instant en fabricant un "point chaud" : il faut crï¿½er un mur ponctuel aux parois non glissantes, sinon des particules peuvent disparaitre dans l'interstice situï¿½ ï¿½ l'intersection des parois.

L'algorithme de transformation a ï¿½tï¿½ scindï¿½ en deux parties afin de sï¿½parer les difficultï¿½s. La premiï¿½re partie est un petit interprï¿½te de donnï¿½es vectorielles. Seules les parois lisses horizontales et verticales sont traitï¿½es pour l'instant : le codage de murs obliques ou plus complexes est laissï¿½ comme exercice pour les curieux ou courageux qui en auront besoin. Les coordonnï¿½es sont au format entier fractionnaire, codï¿½ sur 16 bits. Il suffit de les multiplier par la taille du tunnel et de ne garder que les 16 bits supï¿½rieurs pour obtenir les coordonnï¿½es rï¿½elles dans le tableau. Dans cette premiï¿½re partie, il faut dï¿½coder les vecteurs, vï¿½rifier leur validitï¿½, puis les balayer sur toute leur longueur en appelant ï¿½ chaque pixel la procï¿½dure de la deuxiï¿½me partie. Celle-ci attend les coordonnï¿½es d'un site ainsi que l'index des directions ï¿½ ï¿½changer.

Au fur et ï¿½ mesure des appels, la deuxiï¿½me partie va construire un rï¿½seau de structures en essayant de rï¿½utiliser au maximum celles dï¿½jï¿½ construites, tout en ï¿½vitant que des intersections ne laissent ï¿½chapper des particules. C'est un algorithme qui fonctionne bien, mais dont l'activitï¿½ est difficile ï¿½ contrï¿½ler pour vï¿½rifier son efficacitï¿½. De plus, l'algorithme en Pascal prend beaucoup de place et a ï¿½tï¿½ difficile ï¿½ traduire en assembleur car il est difficile justement de "voir" ce que l'algorithme fait, en plus des habituelles erreurs de fatigue et de frappe. Toutefois, son fonctionnement satisfaisant prouve que le programme est possible et il a permis de dï¿½gager les contraintes inhï¿½rentes au modï¿½le. Un post-processeur, balayant les structures crï¿½ï¿½es, devrait permettre de les comprimer encore plus en ï¿½liminant celles qui ne seraient plus utilisï¿½es : l'algorithme actuel n'est pas parfait et souffre de memory leaks. Une ï¿½tude ï¿½ un plus haut niveau et l'utilisation de techniques plus efficaces (ï¿½tude et allocation globale des ressources) devraient permettre de gï¿½nï¿½rer des listes optimales et ainsi de consommer moins de mï¿½moire cache. Une autre possibilitï¿½ serait de compiler les structures de modifications au lieu d'interprï¿½ter des listes

L'objectif d'agrandissement arbitraire du tableau est preque atteint car les parois peuvent ï¿½tre complï¿½tement redimensionnï¿½es dynamiquement. Il reste par contre ï¿½ trouver un bon algorithme pour le redimensionnement des masses de particules, mais cela ne sera nï¿½cessaire que lorsqu'il sera possible de crï¿½er et de dï¿½truire des particules afin de gï¿½nï¿½rer du vent dans le tableau. Un algorithme similaire ï¿½ celui des listes de modifications serait probablement utilisï¿½.

IV.6 Algorithme d'affichage

Non seulement le calcul des collisions est plus difficile qu'avec l'organisation multisite, mais l'affichage pose des problï¿½mes que l'on pourrait qualifier d'intï¿½ressants. Rappelons que l'affichage s'effectue avec un octet par site, la couleur ï¿½tant contrï¿½lï¿½e par une palette effectuant la traduction dans le DAC de la carte vidï¿½o.

Dans les programmes prï¿½cï¿½dents, le site est tout simplement envoyï¿½ vers la carte vidï¿½o et il suffit de modifier la palette pour faire apparaitre les ï¿½lï¿½ments dï¿½sirï¿½s, comme la densitï¿½ ou la direction des particules. L'affichage est direct et naturel. Maintenant, il faut transformer les plans de bits en octets et le mï¿½me type de problï¿½me qu'avant se pose : il faut rï¿½duire le nombre total d'instructions ainsi que le nombre d'instructions par site. Pourtant les vieilles habitudes de codage sont tenaces : si le programme devait ï¿½tre codï¿½ dans un langage de haut niveau, sans prendre le temps de rï¿½flï¿½chir, son efficacitï¿½ serait faible. Par exemple, le code suivant en C pour effectuer la translation a une complexitï¿½ ("grand O") proportionnelle au nombre de sites et ne profite pas de la largeur croissante des registres :

struct site {
  lli a,b,c,d,e,f,g;
  mur * liste;
  graph *p;
} *s;
unsigned char c, *d=video;
int i;

/* ce pseudo-code transforme un site pointï¿½ par s
 en 64 octets pour afficher la densitï¿½ : */
for (i=0; i<64; i++) {
  c= ((s->a >>i)&1) + ((s->b >>i)&1) + ((s->c >>i)&1)+ ((s->d >>i)&1)
   + ((s->e >>i)&1) + ((s->f >>i)&1) + ((s->g >>i)&1);
  *(video++)=c;
}

Remarquons en passant qu'un deuxiï¿½me pointeur est insï¿½rï¿½ dans site pour remplacer le mot servant ï¿½ aligner la structure sur une frontiï¿½re de 64 bits. Ce pointeur peut ï¿½tre utilisï¿½ pour afficher des ï¿½lï¿½ments graphiques dont les caractï¿½ristiques ne sont pas encore prï¿½cises car le programme correspondant n'a pas ï¿½tï¿½ implï¿½mentï¿½. Il servira plus tard pour l'affichage des statistiques locales par exemple.

Le premier gros dï¿½faut de ce code est l'accï¿½s par octet ï¿½ la mï¿½moire vidï¿½o, nous avons pourtant vu que cela ralentit considï¿½rablement le code qui souffrira au moins de 64 lourdes pï¿½nalitï¿½s. Ensuite, ce code est complï¿½tement linï¿½aire, il traite chaque bit de chaque site indï¿½pendamment, comme lors du dï¿½placement des bits lors du calcul en multisite. Cet algorithme "simple" n'exploite pas le parallï¿½lisme permis par les mots trï¿½s larges. De plus, nous verrons dans le prochain chapitre que le code de calcul doit ï¿½tre prï¿½cï¿½dï¿½ d'un code d'accumulation qui transforme les 7 bits d'entrï¿½e en 3 bits sous forme de reprï¿½sentation binaire classique (voir aussi le schï¿½ma principal et l'annexe C, page 33, pour le code). La rï¿½utilisation de ces donnï¿½es temporaires rï¿½duit le corps de la boucle interne de moitiï¿½ :

for (i=0; i<64; i++) {
  c= ((s0 >>i)&1) + (((s1 >>i)<<1)&1) + (((s2 >>i)<<2)&1);
  *(video++)=c;
}

Nous passons de 448 dï¿½calages et masques, 384 additions (1280 opï¿½rations au moins), ï¿½ 128 additions, 192 masques et 320 dï¿½calages (640 opï¿½rations). Ensuite, il faut rappeler que l'affichage n'est plus effectuï¿½ directement : l'accumulation s'effectue durant le passage de la fenï¿½tre de calcul, pendant strip pas de temps. La valeur maximale thï¿½orique de strip doit ï¿½tre de 256/7 (256 est le nombre de valeurs possible de l'octet affichï¿½, 7 ï¿½tant le nombre maximal de particules par site). stripmax=32 a ï¿½tï¿½ choisi pour ï¿½viter le dï¿½bordement de l'octet et conserver plusieurs entrï¿½es dans la palette pour afficher des ï¿½lï¿½ments de contrï¿½le (boutons, curseur...). Les valeurs 0 ï¿½ 223 sont rï¿½servï¿½es ï¿½ l'affichage des densitï¿½s dans le tunnel, les valeurs 224 ï¿½ 255 servent aux ï¿½lï¿½ments graphiques de contrï¿½le. Ainsi, pour rendre l'affichage des densitï¿½s plus cohï¿½rent, la palette peut ï¿½tre changï¿½e selon la valeur de strip et conserver un contraste optimal, sans post-traitement externe dans un autre logiciel.

L'annexe C, page 40, traite de l'accumulation lors du calcul puis de l'affichage. Une maniï¿½re plus sophistiquï¿½e pour effectuer ces opï¿½rations est d'utiliser la technique d'explosion, dï¿½couverte lors de la programmation de la routine d'affichage du curseur. En utilisant les instruction PUNPCK d'une maniï¿½re particuliï¿½re, il est possible de transformer 8 bits consï¿½cutifs en 8 octets aux valeurs choisies par des masques.

movq mm1, Sx ; S0, S1 ou S2
punpcklbw mm1,mm1
punpckldw mm1,mm1
punpckldq mm1,mm1
;ici les 8 LSB sont recopiï¿½s 8 fois. il faut donc trier ici les bits :
pand mm1,p1 ; p1 pointe vers la donnï¿½e 0x8040201008040201
pcmpeqb mm1,[=0, reg ou mem] ; mm1=0 ou 0FFh

; pour le cas de S0 : astuce ! x-(-1)=x+1
psubb mm0,mm1 ; mm0 est la valeur accumulï¿½e

; pour le cas de S1 et S2: 
pand mm1,p2 ; p2 pointe vers la donnï¿½e 0x0202020202020202
                ; ou 0x040404040x04040404, selon S1 ou S2
paddb mm0,mm1 ; et voila !

Le premier problï¿½me est que les instructions PUNPCK sont pairables mais pas avec elles-mï¿½mes, il n'est donc pas possible d'entrelacer les 8*3 occurences de ce code, nï¿½cessaires ï¿½ la fabrication des 64 nombres de 3 bits qui seront accumulï¿½ ï¿½ 64 octets. Les dï¿½pendances fortes et directes entre les registres rï¿½duisent les opportunitï¿½s de pairage et de parallï¿½lisme, empï¿½chant le dï¿½roulement de la boucle. Ensuite, ce code est trop lent, mï¿½me s'il garde l'affichage simple : rep mosvd suffit pour transfï¿½rer les donnï¿½es vers la mï¿½moire vidï¿½o mais nous savons que cela sature le bus externe et nous perdons des centaine de cycles CPU.

Ce code serait donc dï¿½sï¿½quilibrï¿½ : il utilise trop la CPU lors du calcul et perd du temps lors de l'affichage. Pourtant l'algorithme de strip mining permet de n'afficher qu'une fraction des donnï¿½es, en fonction du paramï¿½tre strip. Il faut donc rï¿½duire au maximum le nombre d'opï¿½rations nï¿½cessaires ï¿½ l'accumulation des donnï¿½es, mï¿½me si l'affichage est plus complexe : d'une part le strip mining compense la perte lorsque strip est ï¿½levï¿½, d'autre part l'entrelacement d'instructions utiles lors du transfert permet de recueillir des statistiques permettant par exemple d'optimiser le contraste de la palette.

L'algorithme choisi pour l'accumulation est en fait trï¿½s simple et il utilise au maximum les propriï¿½tï¿½s des donnï¿½es : il consiste ï¿½ additionner 8*3 bits ï¿½ 8 octets en parallï¿½le, en masquant directement, sans "ï¿½clatement" ou rï¿½organisation, les donnï¿½es. Le calcul de l'accumulation prend donc beaucoup moins de temps et la rï¿½organisation des donnï¿½es est effectuï¿½e lors du transfert vers la mï¿½moire vidï¿½o.

struct site {
  lli a,b,c,d,e,f,g;
  mur * liste;
  graph *p;
  lli v[8];
} *s;
lli mask=0x0101010101010101;

/* pseudo-code d'accumulation : */
for (i=0; i<8; i++)
  s->v[i]+=((S0>>i)&mask)
          |(((S1>>i)<<1)&mask))
          |(((S2>>i)<<2)&mask));

Nous utilisons maintenant au maximum 8 additions, 16 OR, 24 AND et 40 dï¿½calages. Le dï¿½roulement de la boucle offre certaines opportunitï¿½s d'optimisation, en ï¿½liminant par exemple certains dï¿½calages par des masques diffï¿½rents. Il suffit de dï¿½caler le masque car (x<<1)&mask peut ï¿½tre remplacï¿½ par x&(mask<<1) ï¿½ certains endroits (existe-t-il beacoup de compilateurs capables de cette optimisation ?). Ce nouveau masque ne pose aucun problï¿½me de codage mais il n'est pas possible de l'optimiser dans la version originale de la boucle, ï¿½ cause de problï¿½mes potentiels de dï¿½bordements durant les dï¿½calages. La version finale utilise seulement 42 instructions dont 8 AND, 8 PADDB et 7 dï¿½calages. Nous sommes loin des milliers d'instructions nï¿½cessaires avec l'algorithme original en C et nous profiterons de l'ï¿½largissement inexorable des regitres dans le futur.

Maintenant que les octets sont accumulï¿½s, il faut les afficher quand arrive la fin de la fenï¿½tre : le gros problï¿½me est que la fonction d'accumulation dï¿½crite prï¿½cï¿½demment mï¿½lange complï¿½tement les octets. Nous apercevons cependant qu'ils sont ordonnï¿½s d'une maniï¿½re qui ressemble ï¿½ celle de la sortie du butterfly d'un code de FFT :

                                      v[0]:  0  8 16 24 32 40 48 56
                                      v[1]:  1  9 17 25 33 41 49 57
                                      v[2]:  2 10 18 26 34 42 50 58
                                      v[3]:  3 11 19 27 35 43 51 59
ordre des octets aprï¿½s accumulation:  v[4]:  4 12 20 28 36 44 52 60
                                      v[5]:  5 13 21 29 37 45 53 61
                                      v[6]:  6 14 22 30 38 46 54 62
                                      v[7]:  7 15 23 31 39 47 55 63

Les instructions PUNPCK sont justement prï¿½vues pour ce cas et il en faut 24 pour rï¿½organiser tous les octets. La fonction elle-mï¿½me nï¿½cessite 58 instructions et a ï¿½tï¿½ chronomï¿½trï¿½e comme ï¿½tant capable de saturer le bus externe de donnï¿½es. Les algorithmes, les codes et toutes les explications techniques sont fournies en Annexe C, ï¿½ partir de la page 40. Les codes actuels ne permettent pas d'utiliser les techniques d'affichage dï¿½crites ici, la technique d'"explosion" simple avec PUNPCK (utilisï¿½e par les codes de prototypage) subsiste . Lorsque les problï¿½mes structurels du projet seront rï¿½solus, les codes dï¿½veloppï¿½s pourront ï¿½tre intï¿½grï¿½s. Il est intï¿½ressant de noter que ce type de code d'accumulation peut ï¿½tre utilisï¿½ pour des accumulateurs de 10, 16 ou 32 bits avec les instructions MMX normales. D'autres tailles d'accumulateur peuvent ï¿½tre utilisï¿½es si l'addition sur 64 bits est disponible mais le dï¿½senchevï¿½trement des donnï¿½es sera encore dï¿½licat.

Un code a aussi ï¿½tï¿½ conï¿½u pour afficher la "densitï¿½ de rï¿½organisation" (les collisions donnant lieu ï¿½ une rï¿½organisation des sorties), ï¿½ dï¿½faut de pouvoir calculer la chiralitï¿½ ponctuelle instantannï¿½e. La sï¿½lection entre les deux versions (densitï¿½ de particules ou densitï¿½ de collisions rï¿½organisï¿½es) sera effectuï¿½e par un code automodifiant (SMC : Self-Modifying Code).

Le schï¿½ma suivant rï¿½sume les algorithmes et la structure des donnï¿½es liï¿½es ï¿½ l'affichage des densitï¿½s :

IV.7 : Analyse boolï¿½enne de l'opï¿½rateur de collision

La rï¿½alisation du projet de maitrise a souffert de plusieurs alï¿½as dont le plus important est celui du code de collision. Le projet avait ï¿½tï¿½ lancï¿½ avec la conviction que le travail serait facile grï¿½ce aux "outils modernes" mais en rï¿½alitï¿½, seule la vieille mï¿½thode du papier et du crayon a permis d'arriver ï¿½ bout du problï¿½me.

La table ci-contre prï¿½sente les collisions du modï¿½le FHP-3 classique. Il contient ï¿½ la fois la valeur numï¿½rique de l'entrï¿½e et des sorties, afin de pouvoir programmer une lookup table et les vecteurs vitesses sont reprï¿½sentï¿½s pour comprendre le type de collision qui a lieu.
Ce modï¿½le utilise un seul gï¿½nï¿½rateur binaire de nombres alï¿½atoires, d'une probabilitï¿½ 1/2. Selon le bit fourni ï¿½ chaque site par ce gï¿½nï¿½rateur, on choisit la colonne de gauche ou de droite. La colonne de gauche est dï¿½terminï¿½e par la formule (1) et les valeurs de la colonne de droite sont donnï¿½es par la formule (2).

Les formules qui permettent de calculer les collisions sont extraites de [32] et reproduites de la thï¿½se de James Buick qui a aussi indiquï¿½ des corrections. Elles sont ï¿½noncï¿½es de la maniï¿½re suivante :

Soit i, compris entre 0 et 6, et

, un ensemble de 7 valeurs boolï¿½ennes reprï¿½sentant l'absence ou la prï¿½sence d'une particule pour chaque lien

correspond ï¿½ la particule immobile,

(modulo 6) correspond au lien

aprï¿½s rotation de 60ï¿½.

Nous pouvons alors dï¿½finir les variables temporaires suivantes :

oï¿½ , a + b, et correspondent respectivement aux opï¿½rateurs boolï¿½ens et, ou, ou exclusif et nï¿½gation.

Alors , l'ensemble des variables boolï¿½ennes reprï¿½sentant les ï¿½tats de sortie, est donnï¿½ par

(1)

ou
(2)
selon la chiralitï¿½.

Le premier problï¿½me est que je n'ai pu me procurer cette formule que rï¿½cemment. Le deuxiï¿½me est qu'elle gï¿½nï¿½re un grand nombre de variables temporaires qui ne peuvent toutes rentrer dans les registres du processeur. Il faut les stocker en mï¿½moire mais les rï¿½gles de codage des x86 rï¿½cents concernant l'accï¿½s ï¿½ la mï¿½moire sont trï¿½s contraignantes et rendent cette approche inefficace.

La premiï¿½re idï¿½e fut de partir du tableau fabriquï¿½ pour les programmes prï¿½cï¿½dents. Le projet a ï¿½tï¿½ basï¿½ sur l'espoir d'utiliser des outils existants pour fabriquer l'ï¿½quation centrale :

Donner le tableau ï¿½ un compilateur VHDL
Transformer la sortie du synthï¿½tiseur logique en code C
Compiler le code C et gï¿½nï¿½rer du code assembleur
Copier/coller le kernel de calcul dans le programme
Assembler le programme

Ce dï¿½tournement de l'usage d'un compilateur VHDL a ï¿½tï¿½ inspirï¿½ par la pluridisciplinaritï¿½ du dï¿½partement MIME qui dispense des enseignements sur l'ï¿½lectronique et l'informatique. Tous les ï¿½lï¿½ments nï¿½cessaires ï¿½ la conception de programmes assistï¿½e par ordinateur semblent rï¿½unis et fonctionner. Cette idï¿½e espï¿½rait que les outils modernes puissent aider ï¿½ automatiser la fabrication du programme sans se soucier d'autres aspects que les collisions. Pourtant tous les niveaux sont impossibles dans la pratique :

Le tableau nï¿½cessite une traduction en VHDL : c'est possible mais ce n'est pas un langage de "programmation" courant.
Le synthï¿½tiseur est inadaptï¿½ ï¿½ cette tï¿½che pour de nombreuses raisons. En premier lieu, le type de cible a une architecture complï¿½tement diffï¿½rente, donc les contraintes et les rï¿½gles de synthï¿½se ne conviennent pas. Par exemple les opï¿½rations permises par les circuits logiques programmables ne sont pas les mï¿½mes que celles permises par le processeur, la synthï¿½se s'effectue par optimisation de "sommes de produits" (un grand OU de ETs logiques). Le processeur au contraire n'a que des instructions ï¿½ deux opï¿½randes et dispose du XOR mais pas du NOT. Il dispose de peu de registres alors que les circuits permettent un grand parallï¿½lisme interne. En conclusion, la synthï¿½se gï¿½nï¿½re de nombreuses opï¿½rations trï¿½s parallï¿½les (afin de rï¿½duire le chemin critique) au lieu de rï¿½duire le nombre total d'opï¿½rations logiques ï¿½ deux opï¿½randes et de diminuer le nombre de variables temporaires.
La transformation de rapport de synthï¿½se en code C n'est pas une tï¿½che aisï¿½e, elle doit ï¿½tre effectuï¿½e ï¿½ la main.
Aucun compilateur ï¿½ l'heure actuelle ne permet de gï¿½nï¿½rer de code MMX automatiquement.
L'allocation des registres diffï¿½re entre un code gï¿½nï¿½rï¿½ par un compilateur et un code ï¿½crit en assembleur.

Afin de programmer ï¿½ la main le code de collisions, leur fonctionnement a ï¿½tï¿½ ï¿½tudiï¿½ plus en profondeur. L'analyse du code VHDL fabriquï¿½ prï¿½cï¿½demment a montrï¿½ que des collisions manquaient et que les rï¿½gles n'ï¿½taient donc pas saturï¿½es. La fabrication des rï¿½gles de collisions a ï¿½tï¿½ recommencï¿½e et a donnï¿½ ce tableau suivant.

Le principe de conception repose sur le fait que les rï¿½gles de collision sont plus efficaces quand il y en a le plus possible et lorsqu'elles sollicitent au maximum la particule immobile. Une recherche exhaustive des combinaisons et des configurations intï¿½ressantes est difficile ï¿½ la main, et aucun logiciel ne peut nous aider. Une des maniï¿½res de constituer les rï¿½gles est de rï¿½duire les cas ï¿½ un seul vecteur de mouvement, lorsque l'"impulsion" est dirigï¿½e dans un seul sens. Il suffit alors de chercher les rï¿½gles pour la direction puis d'appliquer cinq rotations pour obtenir les autres. Mais ce n'est pas une rï¿½gle trï¿½s formelle.

A force de tï¿½tonnements, je suis arrivï¿½ ï¿½ une classification plus formelle avec un tableau ï¿½ deux dimensions, indexï¿½ par la longueur du vecteur d'impulsion et le nombre de particules mobiles.

Nous remarquons que la particule immobile (G) est ignorï¿½e : elle sert ï¿½ passer d'une case ï¿½ l'autre dans l'axe vertical. Ainsi, il faut une particule immobile pour passer de la configuration 1-3-1 ï¿½ la configuration 1-4, alors qu'en l'absence de la particule G on sautera ï¿½ la configuration 1-2. La colonne 2 est inutilisable car le vecteur n'est pas orientï¿½ dans le mï¿½me axe d'une case ï¿½ l'autre.
Un codage "direct" a ï¿½tï¿½ tentï¿½ : les ï¿½quations nï¿½cessitent de nombreuses opï¿½rations, les colonnes 0 et 1 ont ï¿½tï¿½ laborieusement codï¿½es. Le code assembleur est trï¿½s compliquï¿½ et trï¿½s difficile ï¿½ comprendre. Cette approche n'est donc pas correcte. En essayant de maitriser la quantitï¿½ d'opï¿½rations, l'idï¿½e est venue de "casser" l'opï¿½rateur de collisions d'une maniï¿½re diffï¿½rente, en utilisant certaines propriï¿½tï¿½s de symï¿½trie dans la diffï¿½rences entre l'entrï¿½e et la sortie d'un site :

Le passage d'une case ï¿½ l'autre lors d'une collision avec rï¿½arrangement des particules est rï¿½versible et il modifie toujours la valeur de 4 particules, de 2 maniï¿½res diffï¿½rentes. Cette modification peut ï¿½tre effectuï¿½e par un XOR et il n'y a que 3 configurations de 4 particules ï¿½ dï¿½tecter : E1 (0101 ou 1010), E2 (complexe) et P (0100). E2 est ï¿½videmment le plus difficile ï¿½ mettre au point. L'une des opï¿½randes du XOR final sera la combinaison de ces sous-rï¿½sultats. La partie de dï¿½tection est rï¿½duite ï¿½ une table ï¿½ 4 entrï¿½e et 3 sorties, tenant facilement dans les registres du processeur si elle est codï¿½e explicitement. Elle est rï¿½pï¿½tï¿½e 6 fois pour toutes les combinaisons d'entrï¿½es consï¿½cutives (ABCG,BCDG,CDEG,DEFG,EFAG,FABG).

Cette table fait appel ï¿½ plusieurs astuces de simplification, dont :
* La dualitï¿½ particule/trou qui permet de ne traiter que la moitiï¿½ des cas. Ainsi, lorsqu'il y a plus de 3 particules en entrï¿½e, les particules A ï¿½ F sont inversï¿½es, ce qui ne change pas la diffï¿½rence ï¿½ appliquer en sortie. Cette dï¿½tection du nombre de particules fait l'objet d'un code prï¿½liminaire avant l'application de la table.
* La particule G sert pour affiner la sï¿½lection du type de collision : E1 et E2 sont complï¿½tement indï¿½pendants.
La difficultï¿½ conceptuelle rï¿½side dans l'utilisation correcte des valeurs alï¿½atoires. En sortie de ce tableau, nous disposons de plusieurs sous-rï¿½sultats dont la combinaison permet d'effectuer un XOR sur les particules du site traitï¿½.

IV.8 Mï¿½thodes de programmation manuelle en assembleur

Ce chapitre prï¿½sente la technique d'optimisation en assembleur qui a ï¿½tï¿½ utilisï¿½e dans certaines zones du programme expï¿½rimental. Malheureusement, certaines parties sont tellement complexes que les bugs y sont inextricables, le programme en annexe A prï¿½sente la version fonctionnelle mais pas complï¿½tement optimisï¿½e. Tous les dï¿½tails importants sont consignï¿½s en annexe C.

La technique prï¿½sentï¿½e ici est l'ï¿½volution naturelle des techniques manuelles de codage pour Pentium, ou en gï¿½nï¿½ral pour processeur pipelinï¿½ superscalaire. Elle n'est pas dï¿½rivï¿½e de techniques du "Dragon Book" [6] qui traite trop peu de l'optimisation et sous l'angle de code gï¿½nï¿½rï¿½ par compilateur, donc des techniques de base et ï¿½videntes pour un humain. Le Dragon Book ne traite pas non plus des processeurs superscalaires et suppose un nombre "suffisant" de registres. Nous nous trouvons dans un cas oï¿½ la technique de "coloration de registres" ï¿½ la main n'est pas possible ï¿½ cause de la taille des graphes ï¿½ traiter et du faible nombre de registres disponibles. Nous allons voir ici les contraintes cruciales qui ont nï¿½cessitï¿½ de concevoir cette technique manuelle.

La plateforme cible de nos efforts est le Pentium MMX et le Pentium II, deux processeurs au nom similaire mais aux caractï¿½ristiques fondamentalement diffï¿½rentes. Le premier est un processeur superscalaire ï¿½ deux pipelines de cinq ï¿½ sept niveaux, alors que le PII est une machine complexe qui exï¿½cute les instructions dans le dï¿½sordre afin de pallier les lenteurs de la mï¿½moire. Il n'est pas possible de faire deux versions du code pour des raisons de vitesse de codage. D'ici ï¿½ ce que le projet aboutisse vraiment, le Willamette sera rï¿½pandu. Nous allons nous efforcer de retenir les caractï¿½ristiques de codage communes pour les deux plateformes, ce qui permet au code de fonctionner "honnorablement" partout au lieu d'ï¿½tre trop ciblï¿½. En effet, le code n'a pas ï¿½tï¿½ testï¿½ sur des processeurs concurrents, bien que Yannick Sustrac ait reportï¿½ des performances intï¿½ressantes avec son Cyrix.

La raison principale et cruciale d'utiliser l'assembleur dans ce projet est que les compilateurs actuels ne peuvent pas gï¿½nï¿½rer "automatiquement" les instructions MMX. Au mieux, ils supportent des pragmas, des librairies ou l'inclusion d'opcodes, mais alors quel est l'intï¿½rï¿½t du compilateur s'il faut faire soi-mï¿½me le codage en assembleur ?

Il est trï¿½s peu probable que l'extension MMX du jeu d'instructions x86 ait ï¿½tï¿½ destinï¿½e ï¿½ ï¿½tre facilement utilisï¿½e dans les compilateurs classiques. Par contre, comme nous pourrons le voir plus tard, Intel a compris l'intï¿½rï¿½t d'un jeu d'instructions simplifiï¿½ et plus orthogonal. Mï¿½me si les caractï¿½ristiques sont encore ï¿½loignï¿½es d'un jeu d'instruction RISC habituel, l'othogonalitï¿½ du codage MMX facilite beaucoup la programmation : pas de registre spï¿½cial ni d'opcode complexe.

Intel Architecture MMX(TM) Instruction Set (Courtesy of Intel)

Packed Arithmetic Wrap Around Signed Sat Unsigned Sat

Addition PADD PADDS PADDUS

Subtraction PSUB PSUBS PSUBUS

Multiplication PMULL/H

Multiply & add PMADD

Shift right Arithmetic PSRA

Compare PCMPcc

Conversions Regular Signed Sat Unsigned Sat

Pack PACKSS PACKUS

Unpack PUNPCKL/H

Logical Operations Packed Full 64-bit

And PAND

And not PANDN

Or POR

Exclusive or PXOR

Shift left PSLL PSLL

Shift right PSRL PSRL

Transfers and Memory Operations 32-bit 64-bit

Register-register move MOVD MOVQ

Load from memory MOVD MOVQ

Store to memory MOVD MOVQ

Miscellaneous

Empty multimedia state EMMS

Nous voyons dans le tableau ci-contre un extrait de la prï¿½sentation de l'extension MMX par Intel, avec la base des mnï¿½moniques (sans leurs nombreuses variations). Le jeu d'instruction MMX est ï¿½ la fois plus organisï¿½ que les instructions normales et pourtant il n'est pas complï¿½tement orthogonal. Nous regrï¿½tons par exemple que certains formats ne soient pas supportï¿½s avec certaines instructions, que certaines instructions comme la rotation ne soient pas inclues, que seules 4 opï¿½rations logiques soient disponibles (la nï¿½gation d'une donnï¿½e nï¿½cessite 2 instructions !) et d'autres dï¿½tails qui se rï¿½vï¿½lent dans la pratique. A un niveau supï¿½rieur, les instructions sont toujours au format op reg,reg/mem ce qui limite les possibilitï¿½s, surtout avec seulement 8 registres. Enfin, selon les architectures, les limitations sont variï¿½es et parfois contradictoires. Il faut pouvoir jongler entre les nombreuses contraintes et ï¿½viter tous les types de blocages, au niveau du dï¿½codage, de la mï¿½moire et des unitï¿½s d'exï¿½cution, tout en allouant correctement le peu de registres disponibles.

Les plus grandes limitations concernent les rï¿½gles de dï¿½codage et de pairage : certaines instructions ne peuvent ï¿½tre dï¿½codï¿½es qu'ï¿½ certaines positions du 'slots' de pairage. Pour le PMMX, les instructions vont par paire (une par pipeline, U et V), alors que sur le PII le dï¿½codage doit suivre la rï¿½gle 4-1-1 : le groupe doit faire moins de 16 octets, la premiï¿½re instruction du groupe ne peut gï¿½nï¿½rer que 4 ï¿½ops et les deux suivantes qu'une seule (les tables de correspondances instruction->ï¿½ops sont donnï¿½es par les manuels Intel). Les rï¿½gles sont gï¿½nantes dans la pratique et nous retiendrons principalement celles-ci :

Pairage de style PMMX : deux instructions par cycle.
Instruction d'ï¿½criture ou de lecture mï¿½moire dans le premier 'slot' (pairage en U).
Instructions de Shift dans le pipeline V.
Ecriture vers la mï¿½moire : deux cycles aprï¿½s la modification du registre (contrainte du PMMX).

Les manuels de Intel contiennent de trï¿½s nombreuses remarques sur tous les aspects de la programmation, tout en restant trï¿½s ï¿½vasifs sur les contraintes pratiques. Il faut pouvoir jongler avec le faible nombre de registres et les instructions bancales, les formats dissymï¿½triques et les slots des instructions. Cela reste possible ï¿½ faire ï¿½ la main pour dix ou vingt instructions mais ne convient pas pour le type de code nï¿½cessaire pour le projet : il faut optimiser plus de 500 instructions dans le coeur de la boucle.

J'ai donc dï¿½veloppï¿½, en programmant ï¿½ la main des exemples de plus en plus complexes, une technique basï¿½e sur les graphes de dï¿½pendances de donnï¿½es. L'astuce principale rï¿½side dans l'algorithme trï¿½s simple pour gï¿½nï¿½rer le code optimisï¿½ (en lisant le graphe sï¿½quentiellement par la fin) mais cette facilitï¿½ est largement compensï¿½e par le travail nï¿½cessaire pour prï¿½parer le graphe. Le workflow de programmation est le suivant :

Vï¿½rification de l'algorithme par du pseudo-code dans un langage de haut niveau, par exemple avec Turbo Pascal
Fabrication du graphe de dataflow (voir le graphe initial)
Rï¿½duction de la largeur du graphe si nï¿½cessaire, dï¿½termination des variables ï¿½ stocker temporairement en mï¿½moire
Dï¿½termination des "faisceaux" (critï¿½re du plus petit, sauf avec ANDN)
Dï¿½termination du "chemin critique" (CDP en anglais)du graphe
Rï¿½arrangement autour du CDP
Contrainte principale : ï¿½quilibrage des load/store
Association des registres aux faisceaux
Dï¿½termination des "slots" de dï¿½codage
Arrangement fin des instructions
"Lecture" du graphe (par un simple balayage) et ï¿½criture du code assembleur correspondant

Bien sï¿½r, selon la complexitï¿½ des opï¿½rations, il faudra plus ou moins de travail sur le graphe pour ï¿½quilibrer toutes les branches. Le workflow n'est pas rigide et certaines parties peuvent ï¿½tre sautï¿½es ou inversï¿½es. Il faut aussi souvent reprendre le travail ï¿½ partir d'une ï¿½tape prï¿½cï¿½dente pour ï¿½viter des cycles morts causï¿½s par un registre manquant ou un accï¿½s mï¿½moire mal placï¿½, ce qui n'apparait pas immï¿½diatement lors des phases initiales. Il faut donc avoir toutes les ï¿½tapes en tï¿½te afin d'appliquer la bonne optimisation au bon moment.

Chaque ï¿½tape nï¿½cessite ï¿½ la fois un algorithme et du bon sens. Il ne s'agit pas d'appliquer aveuglï¿½ment une mï¿½thode mais d'ï¿½tudier au cas par cas l'influence de telle ou telle transformation. L'analyse du chemin critique du graphe peut ne pas ï¿½tre nï¿½cessaire si le graphe est simple et petit, toutefois elle devient nï¿½cessaire pour casser certaines dï¿½pendances complexes. L'allocation des registres se fait en deux ï¿½tapes : les branches du graphes sont d'abord rï¿½unies en "faisceaux" lorsqu'il faut dï¿½terminer quel registre sert de destination (le choix n'est pas possible pour l'instruction PANDN par exemple), puis les registres sont associï¿½s aux faisceaux au dernier moment, lorsque le graphe est ï¿½quilibrï¿½. Ce dernier est toujours balayï¿½ par le fin : on remonte et on alloue les registres en commenï¿½ant par le premier registre libre. Un registre est donc "occupï¿½" lorsqu'il est associï¿½ ï¿½ un faisceau et il est libï¿½rï¿½ lorsque le faisceau se termine : le registre est donc libre de servir pour un autre faisceau. Cet algorithme est presque automatique lorsque le graphe est adaptï¿½ au nombre exact de registres disponibles, c'est la raison pour laquelle la prï¿½paration est si importante.
Par exemple, la table de dï¿½tection des collisions est reprï¿½sentï¿½e dans le graphe ci-contre, aprï¿½s traduction du pseudo-code et explicitation temporelle des dï¿½pendances. A ce stade d'ï¿½tude, le but est d'explorer au maximum le parallï¿½lisme des instructions permis par le graphe. Cela permet de dï¿½gager les axes importants et le chemin critique, les besoins en instructions d'accï¿½s ï¿½ la mï¿½moire, leur rï¿½partition...

Ensuite, le nombre de registres est rï¿½duit afin de prï¿½server 3 registres tournants (pour le renommage des entrï¿½es). La rï¿½partition des accï¿½s ï¿½ la mï¿½moire devient importante. Les feuilles sont repliï¿½es, les donnï¿½es persistantes (celles qui resteront dans les registres) sont choisies en fonction du nombre d'utilisation, les autres sont stockï¿½es en mï¿½moire.
Une fois les registres allouï¿½s et le graphe prï¿½t, on va balayer le graphe de bas en haut et de gauche ï¿½ droite, tout en consignant les noeuds rencontrï¿½s sous forme d'opcodes dans le fichier assembleur. Lors de cette phase terminale, il faut veiller ï¿½ ce que les rï¿½gles de pairage soient respectï¿½es. Si une des instructions prï¿½cï¿½demment consignï¿½es entre en conflit (slot ou dï¿½pendance de registre par exemple) avec l'instruction courante, il faut rï¿½organiser le balayage de la ligne et cela dï¿½borde parfois sur d'autres lignes.

Le code de collision est dï¿½crit schï¿½matiquement ci-dessous, comme s'il devait ï¿½tre cï¿½blï¿½ :

La premiï¿½re partie compte le nombre de bits afin de profiter de la dualitï¿½ du modï¿½le et ainsi rï¿½duire la complexitï¿½ de la table. Si le nombre de bits ï¿½ 1 dans les particules A ï¿½ F est supï¿½rieur ï¿½ 3, toutes les particules sont inversï¿½es. Cela revient ï¿½ effectuer un XOR de ces particules avec le bit 2 du rï¿½sultat.
La deuxiï¿½me partie est la dï¿½tection elle-mï¿½me : elle prend 4 entrï¿½es et gï¿½nï¿½re 3 rï¿½sultats temporaires en fonction du tableau et du code dï¿½crits prï¿½cï¿½demment. Les registres sont allouï¿½s afin de pouvoir garder au moins trois valeurs d'entrï¿½e et les faire "tourner" sans nï¿½cessiter d'accï¿½s mï¿½moire.
La troisiï¿½me partie combine les rï¿½sultats temporaires. Une partie de ces opï¿½rations (combinaison des Pn) est effectuï¿½e dans la deuxiï¿½me moitiï¿½ de la dï¿½tection pour bï¿½nï¿½ficier de la localitï¿½ des donnï¿½es. L'autre partie de la combinaison est entrelacï¿½e avec le code de dï¿½placement de donnï¿½es qui utilise aussi une allocation "tournante" des registres.

La structure des donnï¿½es dans le tableau est reprï¿½sentï¿½e ici :

Il n'existe pas de debugger sous GPL, compatible avec NASM, en mode protï¿½gï¿½/CPL0. Le dï¿½veloppement se fait donc ï¿½ l'aveuglette et le bon sens est mis ï¿½ rude ï¿½preuve, en raison du nombre important et croissant d'ï¿½lï¿½ments ï¿½ prendre en compte.

Le dï¿½veloppement d'un code sain aussi complexe nï¿½cessite de bonnes habitudes de codage et beaucoup de bon sens. Par exemple, lorsqu'un morceau de code fonctionne, il n'y a plus besoin dans la plupart des cas de le modifier : il ne faut pas attendre qu'un bug apparaisse pour sauver le fichier sous un autre nom. Lorsqu'un problï¿½me se dï¿½clenche, cela limite le nombre de lignes ï¿½ vï¿½rifier et permet de toujours avoir un programme fonctionnel sur lequel se rabattre lorsque le dï¿½veloppement est dans une impasse. Ainsi le loader 32 bits est stable car il est dï¿½veloppï¿½ depuis longtemps, il remplit son rï¿½le et la plateforme ne change pas.

Les bugs ne sont pas des ï¿½tres malins destinï¿½s ï¿½ nous faire perdre la raison mais c'est un ï¿½cart du programme dans la rï¿½alisation de la fonction dï¿½sirï¿½e. Puisqu'un ordinateur effectue exactement ce qu'on lui demande, l'ï¿½cart ne peut provenir que des ordres erronï¿½s que le programmeur lui fournit.

Les bugs d'inattention constituent environ la moitiï¿½ du temps passï¿½ ï¿½ dï¿½bugger, mï¿½me s'ils sont souvent plus faciles ï¿½ dï¿½tecter par une relecture attentive. Ils se situent surtout dans l'ï¿½criture du programme : label dï¿½clarï¿½ mais pas utilisï¿½, erreur de syntaxe, erreur d'adresse, mauvaise taille d'un mot...

Les erreurs d'ignorance sont plutï¿½t liï¿½es aux aspects techniques qui sont plus complexes avec des multiprocesseurs modernes. Un problï¿½me peut survenir quand on croit que l'ordinateur effectue certaines opï¿½rations automatiquement (maintenir la cohï¿½rence des mï¿½moires) ou diffï¿½remment (ordre d'ï¿½criture des mots) imprï¿½visibles avec un processeur exï¿½cutant les instructions dans le dï¿½sordre. La relecture attentive des manuels permet souvent de lever certaines ambigï¿½itï¿½s ou a prioris

Pour chasser les bugs, les mï¿½mes recettes sont applicables pour toutes les situations :
1) Relire trï¿½s attentivement le code, plusieurs fois si nï¿½cessaire. Simuler mentalement le fonctionnement du processeur et l'ï¿½tat de chaque registre, comparer avec les symptï¿½mes et chercher des similitudes avec ceux-ci.
2) Rï¿½unir tous les indices, tous les symptï¿½mes et noter toutes les conditions d'utilisation lorsque le bug se dï¿½clare. Cela peut aider ï¿½ dï¿½terminer la partie fautive. Par exemple, si le bug est un problï¿½me d'affichage, il faut dï¿½terminer toutes les parties du code qui accï¿½dent ï¿½ l'ï¿½cran, directement ou non.
3) Isoler la partie fautive : la technique la plus simple est de mettre en commentaire (ou %ifdef zorglub) certaines parties du code rï¿½cemment modifiï¿½es puis restreindre progressivement les recherches par dichotomie jusqu'ï¿½ ce que le bug soit circonscrit. Cela peut prendre une minute ou plusieurs heures et il ne faut pas hï¿½siter ï¿½ remettre en cause toute la structure du programme.
4) Identifier la dï¿½pendance entre les donnï¿½es et les codes concernï¿½s : on dï¿½couvre parfois que l'erreur vient d'une autre partie que la partie incriminï¿½e ou dï¿½tectï¿½e par la dichotomie. Le bug dï¿½couvert peut ï¿½tre la consï¿½quence d'une erreur en amont mais qui ne se manifeste que dans certaines conditions que la partie incriminï¿½e remplit. Certaines donnï¿½es ou certaines parties du code peuvent dï¿½clencher un comportement indï¿½sirï¿½ ou inattendu. Le plus souvent, il s'agit "simplement" d'un oubli ou d'une erreur de frappe. Par exemple, mettre une relocation d'adresse vers l'ï¿½cran au lieu du tunnel. Dans l'empressement, ce type d'erreur est facile ï¿½ commettre mais aussi ï¿½ corriger. Il en va diffï¿½remment du renommage des registres ...
5) Si trop de temps s'est ï¿½coulï¿½ lors du dï¿½buggage, il faut souvent tout recoder ï¿½ partir de zï¿½ro. Il est parfois dix fois plus rapide de recommencer que de tout analyser. Le nouveau code est mï¿½me souvent de meilleure qualitï¿½ car les bugs se cachent souvent dans les parties rï¿½centes et peu ï¿½prouvï¿½es, qui auront ï¿½tï¿½ mï¿½ries depuis le premier jet. C'est parfois la solution de la derniï¿½re chance pour ï¿½liminer les bugs les plus rï¿½calcitrants.

Il n'est pas forcï¿½ment nï¿½cessaire dans ce cas de disposer d'un dï¿½bogueur interactif avec suivi du code source : il faut de la mï¿½thode, respecter quelques rï¿½gles simples et surtout ne jamais faire confiance aveuglï¿½ment ï¿½ un code sans l'avoir testï¿½ dans les conditions d'utilisation prï¿½vues ...

IV.9 : Rï¿½alisation et rï¿½sultats :

Le code utilisï¿½ actuellement n'est pas la version dï¿½finitive du programme : le lï¿½ger bug dans les collisions passe presque inaperï¿½u mais empï¿½che d'avoir un rï¿½sutltat rï¿½ellement utilisable. La version beta est toutefois suffisamment rapide pour montrer le gain substantiel apportï¿½ par l'analyse soignï¿½e du programme. Sa vitesse d'exï¿½cution a ï¿½tï¿½ comparï¿½e sur le mï¿½me ordinateur avec un autre code en C d'allure plus classique :

plateforme : Pentium MMX 200MHz, SDRAM 66MHz, L2 : 256Ko
gï¿½omï¿½trie : 1000 itï¿½rations sur 1024*640  (655M site calculï¿½s)

SP65.asm: 15 secondes, strip=6, zoom=4:1
vitesse : environ 43Mc/s

Programme de Benjamin Temko (voir l'annexe D)
compilation:
gcc -I/usr/X11R6/include -lX11 -L/usr/X11R6/lib -O3 fhp_0.c
run :
nice --20 time -o perf ./a.out

   58.76 user
    0.44 system
 1:00.87 elapsed
     97% CPU
(0 avgtext+0avgdata 0maxresident) k0 inputs+0outputs
 (153major+178minor)page faults
 0 swaps

vitesse :   11.2Mc/s

Le programme en version beta est quatre fois plus rapide qu'un bon code compilï¿½. Cette diffï¿½rence devrait varier selon la plateforme, la version du compilateur ou la version du code. Il faut remarquer cependant que le gain majeur se trouve dans l'utilisation de larges donnï¿½es (64 bits au lieu de 32) et de l'algorithme de strip mining qui garde plus longtemps les donnï¿½es en mï¿½moire cache, ce qui suffit ï¿½ donner l'avantage avec le Pentium MMX. Le Pentium II dï¿½code plus d'instructions par cycle et sa cache est plus puissante, mais il est peu probable que GCC sache utiliser tous ces derniers raffinements technologiques : il n'est pas dans les attribution d'un compilateur de changer la taille des donnï¿½es ou de modifier l'algorithme de balayage (s'il devait exister un compilateur assez sophistiquï¿½ pour appliquer automatiquement le strip mining ï¿½ un problï¿½me aussi complexe que le calcul FHP).

La version alpha du code de collision (lorsqu'il sera dï¿½boguï¿½) devrait permettre d'amï¿½liorer la vitesse d'environ 20 ou 30% grï¿½ce ï¿½ un meilleur scheduling des instructions dans la phase de dï¿½tection et de dï¿½placement. La meilleure performance absolue actuelle a ï¿½tï¿½ mesurï¿½e au MIT en janvier 2000 sur un Pentium III ï¿½ 550MHz :

taille: 860*736, cycles par pas de temps : 2,3M, 3,6 cycles par site, soit   150 Mc/s.

Bien que la calibration ait ï¿½tï¿½ effectuï¿½e, toutes les conditions n'ont pas pu ï¿½tre rï¿½unies pour amï¿½liorer la performance (je n'avais pas pu emporter toutes mes disquettes). Dans l'absolu, il est probable qu'on puisse calculer sur cette plateforme jusqu'ï¿½ 400Mc/s en utilisant l'extension SSE (mots de 128 bits) et peut-ï¿½tre 800Mc/s en bi-processeur. Toutefois, ï¿½ cette vitesse, le problï¿½me sera la communication et la synchronisation (MESI=lent) entre les processeurs.

L'expï¿½rience suivante a ï¿½tï¿½ rï¿½alisï¿½e pour fabriquer une petite animation illustrant les capacitï¿½s du programme existant. Le temps de calcul total est de quelques minutes, en comptant le long temps de sauvegarde des images qui ont ï¿½tï¿½ choisies pour leur esthï¿½tique, non pour leur intï¿½rï¿½t scientifique. Le nombre de pas entre les images n'est pas fixe mais permet de montrer l'intï¿½rï¿½t d'un affichage plus ï¿½voluï¿½, non en "noir ou blanc".

Les dimensions des images suivantes tiennent compte de la projection sur le rï¿½seau hexagonal (sin(60ï¿½)).

Ecoulement aprï¿½s 528 pas de temps :
la deuxiï¿½me chambre se remplit lentement
et les artefacts hexagonaux sont visibles. T = 4501 : le flux commence
ï¿½ se distordre. T = 6010

T = 6316 T = 6931 : le flux est moins marquï¿½,
noyï¿½ dans le bruit. T = 8089 : la pression et la vitesse sont
favorables pour faire disparaitre les
artefacts hexagonaux mais le contraste est
trop faible pour distinguer les ï¿½coulements.
Nous voyons ici les limites de l'affichage de la version de dï¿½veloppement : le bruit rend la distinction de phï¿½nomï¿½nes fins difficile. La refonte du programme permettra d'inclure le code d'affichage ï¿½ niveaux de gris qui est dï¿½crit en au chapitre IV.6.

L'expï¿½rience s'est dï¿½roulï¿½e sur le PII-350 du dï¿½partement MIME. Elle consiste en la diffusion d'une masse de particule de la chambre gauche ï¿½ la chambre droite du tunnel. Les chambres ï¿½tant sï¿½parï¿½es par une paroi munie d'un "trou" de quelques pixels, lï¿½gï¿½rement dï¿½centrï¿½ pour que le flux de particules oscille. Aprï¿½s quelques dizaines de milliers de pas de temps, la densitï¿½ dans les deux chambres est similaires et le flux disparait, laissant une "bouillie brownienne homogï¿½ne" ï¿½ l'ï¿½cran. Les dimensions et les paramï¿½tres initiaux sont les suivants :
- chambre gauche : densitï¿½ : 1, hauteur : 725, largeur : 434
- chambre droite : densitï¿½ : 0, hauteur : 725, largeur : 267
- paroi : largeur du trou : 26 noeuds
- vitesse : strip=32, 2014269 cycles CPU par pas de temps, 5,75 ms pour balayer un tableau de 704*728=512512 noeuds, soit 89 millions de noeuds par seconde.

L'image suivante montre le rï¿½sultat de la routine de calibration du strip mining. Nous pouvons y apercevoir les caractï¿½ristiques de la mï¿½moire et en particulier mesurer le speedup permis par l'algorithme, par rapport ï¿½ un balayage linï¿½aire normal (4981/2014=2,47). En particulier, le speedup varie peu au-delï¿½ d'un strip mining de 10 lignes, la dï¿½croissance est dï¿½e ï¿½ la rï¿½duction de la bande passante utilisï¿½e par l'affichage et est en 1/x.

Partie V : Plateformes dï¿½diï¿½es

V.1 : Introduction :

Les algorithmes de gaz sur rï¿½seaux ont dï¿½jï¿½ fonctionnï¿½ sur une large variï¿½tï¿½ de machines dans le monde, par exemple : Alpha, Apple, CRAY-XMP, CRAY-2, Connexion Machine 200, Connexion Machine 5, FPS 164, IBM RS6000, IBM 3090, PC (Intel et clones), SUN/SPARC (jusqu'ï¿½ 256 CPU), Silicon Graphics Origin 8-CPU, VAX...
La nature du modï¿½le des gaz sur rï¿½seaux s'adapte ï¿½ une trï¿½s grande variï¿½tï¿½ de machines, des processeurs 16 bits aux calculateurs vectoriels parallï¿½les en passant par les machines de bureau actuelles. Elle permet aussi aux ï¿½lectroniciens de crï¿½er des machines dï¿½diï¿½es, plus ou moins configurables : c'est le sujet de ce chapitre.

Les avantages sont nombreux : si une programmation trï¿½s soignï¿½e permet de "gagner" 3 ans en performance, elle peut en faire gagner le double ou plus dans certains cas. Par exemple, dï¿½s ses dï¿½buts, la CAM-8 a atteint des performances encore inï¿½galï¿½es par les stations de travail actuelles. Le parallï¿½lisme inhï¿½rent au modï¿½le permet aussi de crï¿½er des architectures modulaires qui peuvent s'adapter aux contraintes budgï¿½taires fluctuantes, laissant espï¿½rer des montï¿½es en puissance vertigineuses. Cela permet enfin de rï¿½soudre le plus simplement du monde des problï¿½mes de plus en plus difficiles sur les plateformes actuelles : un simple fil peut remplacer de nombreuses lignes de code.

Tous les essais effectuï¿½s ces quinze derniï¿½res annï¿½es ont aussi montrï¿½ les nouveaux problï¿½mes qu'une architecture dï¿½diï¿½e entraine. Tout d'abord, le manque de dï¿½bouchï¿½s sur le marchï¿½ du grand public marginalise les efforts : combien de personnes veulent calculer un milliard de sites FHP par seconde ? La consï¿½quence directe est que ces architectures suscitent peu d'intï¿½rï¿½t rï¿½el en dehors du monde restreint des gaz sur rï¿½seaux, donc les machines existantes ne sont que des prototypes. Les autres machines sont restï¿½es dans l'imagination des rï¿½veurs : si concevoir une architecture "accueillante" pour les gaz sur rï¿½seaux semble trï¿½s facile, les problï¿½mes ï¿½lectroniques et de moyens matï¿½riels sont bien diffï¿½rents dans la rï¿½alitï¿½ pour un projet de cette ï¿½chelle.

Enfin, il ne faut pas perdre de vue qu'une fois construit, le matï¿½riel n'ï¿½volue pas. Il faut souvent revoir complï¿½tement l'architecture pour chaque gï¿½nï¿½ration de machine, comme pour un ordinateur normal, mais le coï¿½t de dï¿½veloppement est lourd et constant, ï¿½ la charge du laboratoire qui lance le projet. Il n'y a donc pas de "lignï¿½e" de calculateurs dï¿½diï¿½s comme il y en a pour les voitures, les logiciels, les avions ou les ordinateurs. Les changements d'organisation dans les entrailles de la machine entre chaque nouveau prototype obligent ï¿½ rï¿½ï¿½crire tout le logiciel de gestion pour chaque version. Les cycles de dï¿½veloppement sont donc trï¿½s longs et on perd une partie de l'avance par rapport ï¿½ des logiciels sur des stations de travail.

Les quatre premiers chapitres dï¿½crivent des implï¿½mentations rï¿½elles, les suivants sont des ï¿½tudes de cas imaginaires (architecture fiction).

V.2 : RAP-1 :

Mis au point vers 1986 par Dominique d'Humiï¿½res et Andrï¿½ Clouqueur ï¿½ l'Ecole Normale de la rue d'Ulm, c'est une machine typique de son temps comme le montrent ses caractï¿½ristiques. Ses performances sont de 6,5Mc/s, ou 256 sites par 512 ï¿½ 50 Hz. Les sites peuvent contenir 16 bits qui sont mis ï¿½ jour linï¿½airement par une LUT (2 SRAM de 64Ko) et l'ï¿½tude en cours peut ï¿½tre visualisï¿½e sur un ï¿½cran VGA indï¿½pendant (synchronisation directe, pas de frame buffer). L'hï¿½te est un PC et les informations peuvent ï¿½tre post-traitï¿½es par un VAX en local [11].

Le RAP-1 a une structure proche de la CAM-6 mais ces deux architectures resten distinctes. La mï¿½moire centrale du RAP-1 est composï¿½e de VRAM, des puces DRAM de 64 Kbits conï¿½ues pour les cartes vidï¿½o pouvant lire et ï¿½crire une donnï¿½e en un cycle grï¿½ce ï¿½ deux ports sï¿½parï¿½s. Des circuits spï¿½ciaux d'adressage permettent la rï¿½ï¿½criture vers les sites voisins pour certaines lignes, ce qui permet de gï¿½rer les voisinages hexagonaux, de Moore ou de Von Neumann. La CAM-8 permet la rï¿½ï¿½criture du rï¿½sultat de chaque site vers n'importe quel autre site.

Le "RAP-1" signifie "Rï¿½seau d'Automates Programmable" et n'a plus qu'un intï¿½rï¿½t historique actuellement. Il est limitï¿½ architecturalement et ne permet pas de contrï¿½le fin ou d'actions complexes comme le permettent les logiciels. La performance, qui nous intï¿½resse ici, est largement dï¿½passï¿½e par les PC actuels. Voir l'article dans [20] pour plus de prï¿½cisions architecturales.

Une allï¿½e de Von Karman calculï¿½e sur RAP-1 et post-traitï¿½e.

V.3 : CAM-8 :

La CAM-8 est probablement la machine la plus intï¿½ressante actuellement. Elle est issue des recherches de Tomaso Toffoli et Norman Margolus au MIT oï¿½ ils ont conï¿½u plusieurs gï¿½nï¿½rations de "CAM" (Cellular Automaton Machine). Ils ont donc une expï¿½rience et une renommï¿½e qui leur ont permis de concevoir une architecture flexible et performante. En particulier, sa flexibilitï¿½ est bien supï¿½rieure par rapport au RAP-1 (dont elle s'inspire un peu), ce qui lui vaut d'ï¿½tre encore en usage. Dix ï¿½ quinze exemplaires ont ï¿½tï¿½ fabriquï¿½s depuis 1992 : un record pour le domaine !

Une boite CAM-8 avec une carte insï¿½rï¿½e sur laquelle on aperï¿½oit certains ASIC.
Description d'un ASIC (STEPchip)
(extrait du manuel de la CAM-8).

La CAM-8 est une machine complexe, dï¿½crite dans le manuel disponible sur le site qui lui est dï¿½diï¿½ (http://www-im.lcs.mit.edu/cam8/ps/hard_ref.ps). Pour rï¿½sumer, la machine est conï¿½ue sur plusieurs ï¿½chelles : systï¿½me, boï¿½te, carte et ASIC.

Le systï¿½me consiste en une ou plusieurs boites reliï¿½es entre elles dans un rï¿½seau torique 3D, ce qui permet d'en connecter en trï¿½s grand nombre en parallï¿½le sans que surgissent des problï¿½mes architecturaux ou logiciels.

Une boite contient 8 cartes reliï¿½es par un fond de panier. Le fond de panier n'est pas un bus mais une zone de cï¿½blage permettant de rï¿½aliser des topologies plus ou moins complexes. C'est la seule partie qui requiert une intervention physique. La mï¿½moire contenue dans une boï¿½te est ï¿½quivalente ï¿½ 16 mï¿½gaoctets.

Chaque carte contient des puces mï¿½moire (DRAM) et 16 circuits intï¿½grï¿½s spï¿½cialisï¿½s (ASIC) qui effectuent les "opï¿½rations" de la machine. La frï¿½quence d'horloge est de 25 MHz et les cellules sont traitï¿½s sur la carte avec une largeur de 16 bits par une LUT.

Les ASIC concentrent toute l'intelligence de l'architecture. L'utilisateur peut contrï¿½ler de nombreux paramï¿½tres comme la largeur des cellules, le nombre de dimensions ou les conditions aux limites (bouclage ou chambre close). Leur configuration nï¿½cessite de nombreux efforts logiciels.

Connexion du fond de panier d'une boite CAM-8 pour une configuration infinie. Seule une direction est montrï¿½e, sans bouclage aux bords.
Connexion de 4 boites pour un tore 2D.

Comme pour le RAP-1, un moniteur externe permet de visualiser l'activitï¿½ de la machine (c'est assez spectaculaire) mais le plus complexe reste la configuration de la machine par l'hï¿½te. Une suite de logiciels est en dï¿½veloppement depuis de nombreuses annï¿½es. De nombreuses applications ont ï¿½tï¿½ dï¿½montrï¿½es et la CAM-8 sert pour des recherches dans des domaines trï¿½s variï¿½s mais l'interface est encore rudimentaire.

La CAM-8 est trï¿½s flexible. Il y a quelques limitations mais elles s'inscrivent dans une architecture sophistiquï¿½e, destinï¿½e ï¿½ simuler virtuellement des espaces jusqu'ï¿½ 32 dimensions. L'espace mï¿½moire est adressï¿½ dans chaque carte en associant un ou plusieurs bits ï¿½ une dimension, ce qui permet de crï¿½er des gï¿½omï¿½tries quasi arbitraires oï¿½ chaque longueur est une puisance de 2 (256*256*256, 128*512, 4096*4096...).

Chaque carte effectue une consultation de table sur 16 bits pour chaque cellule mais on peut effectuer des opï¿½rations plus complexes (consultation multiple, LUT virtuelle...). Par exemple, pour le modï¿½le FHP, les 16 bits peuvent servir pour reprï¿½senter 2 sites ï¿½ 1 bit par directions ou 1 site ï¿½ 2 bits par directions. Avec 8 cartes ï¿½ 25 MHz, un boite CAM-8 soutient donc 400Mc/s en FHP3 ou 200Mc/s avec 2 bits par direction (Integer Lattice Gas ï¿½ 2 bits).

Le voisinage est configurable site par site : une carte peut accï¿½der ï¿½ des ï¿½lï¿½ments non contigus dans la mï¿½moire. Cela permet aussi bien de calculer dans des espaces ï¿½ N dimensions ou effectuer des interactions non locales. C'est ce dernier dï¿½tail qui fait une grande diffï¿½rence avec les autres machines.

Le site Internet du laboratoire de Norman Margolus n'est pas avare en dï¿½tails techniques. On peut y trouver les applications oï¿½ la CAM-8 excelle et mï¿½me un simulateur logiciel. Un article [23] dans la preprint archive montre une application de la CAM-8 aux simulations en 3 dimensions dans le rï¿½seau FCHC ï¿½ 24 bits. La capacitï¿½ ï¿½ effectuer des consultations successives de la LUT permet de "casser" l'opï¿½rateur de collisions en isomï¿½tries de 16 bits.

V.4 : EXA :

La sociï¿½tï¿½ EXA a ï¿½tï¿½ crï¿½ï¿½e par un professeur du MIT, Molvig. Elle utilise les techniques issues des gaz sur rï¿½seaux dans les milieux industriels. Son nom vient de l'ordre de grandeur du mï¿½me nom (mega, giga, tera, peta puis exa). C'est le nombre d'opï¿½rations nï¿½cessaires pour des simulations rï¿½alistes en 3D, hors de portï¿½e des ordinateurs classiques de l'ï¿½poque (vers 1990).

EXA vend ses services aux sociï¿½tï¿½s qui ont besoin d'ï¿½tudes sur des projets particuliers, dans les limites permises par les modï¿½les utilisï¿½s. Sa puissance de calcul consistait au dï¿½but en une station Silicon Graphics dotï¿½e de cartes accï¿½lï¿½ratrices dotï¿½es d'ASIC traitant les calculs boolï¿½ens. Le premier modï¿½le (Molvig/Vichniac, vendu sous le nom "DigitalPhysics") ï¿½tait une extension du modï¿½le pseudo 4D avec 2 vitesses, soit un modï¿½le thermique avec 48 bits par site. Peu d'informations subsistent sur ce matï¿½riel qui souffrait des limitations inhï¿½rentes aux modï¿½le boolï¿½ens.

Rapidement, la sociï¿½tï¿½ a ï¿½tendu ce modï¿½le en utilisant la technique de Bolzman (BGK ?) pour bï¿½nï¿½ficier de la montï¿½e en performance des calculateurs massivement parallï¿½les constituï¿½s de stations de travail (beowulfs). EXA dï¿½veloppe, utilise et vend un logiciel appelï¿½ Powerflow. Il existe peu de papiers dï¿½crivant le modï¿½le utilisï¿½ mais l'approche choisie est propriï¿½taire (secrï¿½te) et utilise des astuces contestables pour augmenter artificiellement le nombre de Reynolds simulable.

L'espace simulï¿½ est divisï¿½ en "voxels" (sous-divisions de l'espace 3D en cubes) de tailles variables dans l'espace simulï¿½. Cela permet d'adapter la quantitï¿½ de mï¿½moire et de calculs nï¿½cessaires en fonction de la vorticitï¿½ locale. La "granularitï¿½" sera beaucoup plus fine prï¿½s des parois et dans les zones turbulentes. Certains spï¿½cialistes ont objectï¿½ que cela brise la continuitï¿½ du milieu et de ses propriï¿½tï¿½s, empï¿½chant les turbulences de se propager d'un voxel ï¿½ un autre d'une taille (donc d'une viscositï¿½) diffï¿½rente. Les techniques qui y remï¿½dient sont secrï¿½tes et ne peuvent pas ï¿½tre examinï¿½es.

On pense que certains artifacts et dï¿½fauts sont compensï¿½s par des marges de sï¿½curitï¿½ et une analyse "intelligente" du partitionnement de l'espace. Une approche similaire au maillage dynamique ou progressif (en cours du calcul) permet de rï¿½duire l'impact du problï¿½me dans une majoritï¿½ des cas. Le reste est noyï¿½ dans le bruit numï¿½rique et l'intï¿½gration lors des mesures. Enfin, cet inconvï¿½nient et les ï¿½ventuels autres problï¿½mes sont souvent nï¿½gligeables par rapport aux avantages, lorsqu'ils sont comparï¿½s aux techniques classiques.

Les gaz sur rï¿½seaux n'ont pas d'avantage majeur en temps de calcul ou en utilisation mï¿½moire par rapport aux techniques ï¿½tablies, pour un cas identique. Par contre, la qualitï¿½ des rï¿½sultats est souvent supï¿½rieure : ils sont fiables ï¿½ quelques pourcents alors que les techniques classiques sont fiables ï¿½ quelques dizaines de pourcents. De plus, ils sont rï¿½solus explicitement dans le domaine temporel, ils peuvent donc capturer la dynamique d'un problï¿½me qui n'apparaitrait pas autrement (par exemple avec une rï¿½solution oï¿½ le terme temporel est ignorï¿½). Ensuite, les rï¿½sultats sont plus prï¿½cis. Enfin, contrairement aux autres techniques, la simulation n'a pas besoin de donnï¿½es issues de simulations rï¿½elles pour ajuster les rï¿½sultats des calculs : il suffit juste de fournir les gï¿½omï¿½tries et les paramï¿½tres du fluide (Re et Mach) pour obtenir le rï¿½sultat. Cette derniï¿½re qualitï¿½ a permis ï¿½ EXA de se distinguer en rï¿½solvant des problï¿½mes de turbulences complexes inaccessibles aux autres mï¿½thodes. On comprend donc que les techniques employï¿½es ne soient pas publiquement connues.

Le domaine d'utilisation reste limitï¿½ au bas subsonique (infï¿½rieur ï¿½ Mach 0.4), l'aï¿½ronautique n'est donc pas la cible de l'entreprise. Les ï¿½tudes portent sur les carï¿½nages et carosseries de motos, voitures, camions, jusqu'ï¿½ Re=6.10^6 avec un (trï¿½s) gros serveur. Le domaine a rï¿½cemment ï¿½tï¿½ ï¿½tendu aux ï¿½coulements internes et aux ï¿½changes thermiques. Il devient ainsi possible de simuler des injections de moteurs ï¿½ explosion ou des systï¿½mes de climatisation.

Dans la pratique, cette qualitï¿½ des calcul a un prix trï¿½s cher en expertise et en temps CPU. Pour donner un ordre de grandeur, un grand fabricant de voiture a dï¿½cidï¿½ d'acheter un cluster de 256 stations de travail dans le but unique d'utiliser Powerflow. Cette initiative a ï¿½tï¿½ suivie par la plupart des constructeurs europï¿½ens et amï¿½ricains. EXA loue aussi du temps CPU sur un cluster SGI Origin ï¿½ 8 CPU en mode batch (partagï¿½ entre plusieurs utilisateurs moins fortunï¿½s) et inaugure ainsi un nouveau mode de "service commercial" sur Internet (la mode est vraiment au "e-business" bien que le travail par lot ne soit pas une invention rï¿½cente).

Peu de dï¿½tails de programmation filtrent sur Internet ou sur le site web de la sociï¿½tï¿½. Une interview avec un ingï¿½nieur franï¿½ais a cependant permis de dï¿½gager certains points. EXA utilise un rï¿½seau FCHC avec des particules ï¿½ trois vitesses (0, 1 ou 2 sites par pas de temps) en virgule fixe. L'espace est divisï¿½ en "voxels" et en "surfels" de tailles variables (mais multiples les unes des autres pour simplifier le pavage de l'espace). Chaque type de zone ("surfel" ou "voxel") est traitï¿½ par un code spï¿½cial. Un voxel utilise environ 130 octets de mï¿½moire, un surfel en utilise 1300 et peut reprï¿½senter 12 ou 24 faces. Une simulation normale utilise facilement plusieurs millions de voxels, ce qui nï¿½cessite l'emploi d'ordinateurs multiprocesseurs disposant de plusieurs gigaoctets de mï¿½moire. Enfin, un pas de temps ï¿½quivalent ï¿½ une seconde nï¿½cessite 22000 pas de temps de calcul.

La phase critique de l'expertise est l'adimensionnement : la dï¿½termination des paramï¿½tres de calcul en fonction des paramï¿½tres rï¿½els. Le but est d'utiliser la puissance de calcul le plus efficacement possible. Les paramï¿½tres importants sont la puissance de l'ordinateur (mï¿½moire et vitesse), la vitesse du fluide et la taille de l'ï¿½prouvette. La vitesse du fluide dans l'expï¿½rience doit ï¿½tre maximale (environ 0.3) pour maximiser le nombre de Reynolds. Le nombre de Reynolds dï¿½pend aussi de la viscositï¿½ du fluide, qui est fixe pour chaque voxel, et de la longueur caractï¿½ristique du problï¿½me. L'adimensionnement dï¿½termine donc le nombre de voxels ï¿½ utiliser en fonction de la dï¿½finition du nombre de Reynolds et en ajustant les termes de l'equation de Navier-Stockes aux ï¿½quations caractï¿½ristiques du modï¿½le avec les termes non-linï¿½aires qui apparaissent [26]. Le temps de calcul dï¿½pendra du nombre de voxels, du nombre de pas de temps, de la complexitï¿½ du fluide et du nombre de processeurs. C'est un algorithme facilement parallï¿½lisable donc l'efficacitï¿½ reste satisfaisante avec plusieurs centaines de processeurs, comme le montre une fiche technique disponible sur le site web. Les plateformes de calcul utilisï¿½es sont couramment Sun et SGI. Les rï¿½sultats ou les vecteurs de calculs sont traitï¿½s sur des stations de travail graphiques dï¿½portï¿½es.

EXA a eu l'amabilitï¿½ de communiquer un exemple de calcul rï¿½alisï¿½ en 1998 pour donner un ordre de grandeur de l'efficacitï¿½ du logiciel. Le calcul portait sur les turbulences autour de la carosserie d'une voiture sportive afin d'ï¿½valuer l'efficacitï¿½ de volets de dï¿½flexion. Cela a nï¿½cessitï¿½ 22000 pas de temps soit 4 jours sur un serveur ï¿½ 8 processeur ï¿½ 167 MHz avec 11 millions de voxels et 1 million de surfels. Les entrï¿½es d'air ou les interactions des pneus n'ont pas ï¿½tï¿½ prises en compte mais le rï¿½sultat est saisissant.

Cette approche logicielle a beaucoup d'avenir car elle permet concevoir des vï¿½hicules plus silencieux et moins turbulents sans louer ou construire des souffleries rï¿½elles (sans compter le prix de la maquette). Powerflow permet de modï¿½liser des turbulences liï¿½es aux aspï¿½ritï¿½s d'une structure et donc de vï¿½rifier son impact sur le bruit qu'il gï¿½nï¿½re et sur le Cx de l'engin. Le temps de calcul peut ï¿½tre plus court que la construction et les mesures d'une maquette dans une soufflerie silencieuse. Toutefois, de nombreux problï¿½mes subsistent comme la limitation de la taille des fichiers sur les systï¿½mes UNIX : la taille limite traditionnelle de 2Go est vite atteinte et les efforts de dï¿½veloppement sont encore en cours.

V.5 : "Fourmi" :

Ce projet du dï¿½partement MIME n'est pas encore opï¿½rationnel. L'architecture est simple dans les grandes lignes et est entiï¿½rement dï¿½diï¿½e aux automates cellulaires 1 et 2D, sans ï¿½tre spï¿½cialement prï¿½vue pour un usage prï¿½cis. Ce projet est appelï¿½ ainsi car il part du principe que l'union fait la force, comme dans une fourmiliï¿½re : une fourmi isolï¿½e n'est pas trï¿½s productive alors qu'une armï¿½e de fourmis peut effectuer beaucoup de travail. C'est une architecture extensible par addition de modules : le prototypage s'effectue avec un seul module puis d'autres modules seront construits en nombre (donc moins chers ï¿½ l'unitï¿½) lorsque la technique est au point.

La "fourmi" est une machine SIMD divisï¿½e en deux : elle dispose d'un sï¿½quenceur (partie contrï¿½le) et d'une ou plusieurs cartes d'exï¿½cution. Chaque ï¿½lï¿½ment est configurable : le sï¿½quenceur est cï¿½blï¿½ et "exï¿½cute" un programme chargï¿½ en SRAM locale, tout en envoyant des signaux aux parties d'exï¿½cutions. Chaque carte "active" est composï¿½e essentiellement d'un FPGA et d'un bloc de DRAM adressï¿½e par le FPGA. Le FPGA est en technologie SRAM, il peut ï¿½tre reconfigurï¿½ ï¿½ tout moment par l'ordinateur hï¿½te (Sun SPARC). Les fonctions rï¿½alisables sont donc potentiellement infinies mais limitï¿½es par la taille et l'architecture du FPGA ainsi que par son langage de commande : le projet Fourmi a aussi pour objet de dï¿½velopper un langage de description des automates cellulaires. Le tout fonctionne ï¿½ quelques dizaines de mï¿½gahertz.

La pratique est beaucoup plus complexe, comme le confirme la durï¿½e du dï¿½veloppement. Le programme de commande traduit le langage de description en code VHDL, ce qui est loin d'ï¿½tre facile. Le bus VME, autour duquel est architecturï¿½e la machine, ne permet d'envisager qu'une dizaine de cartes au maximum. Les cartes sont reliï¿½es par un rï¿½seau unidimensionnel. Le dï¿½veloppement est freinï¿½ par le manque de moyens matï¿½riels, par le peu de personnes travaillant au projet et par la dï¿½pendence envers les fabricants de FPGA : de nouvelles versions de FPGA et de logiciels apparaissent plus vite que le projet et il est difficile de conserver d'anciennes versions car elles ne sont plus supportï¿½es.

La CAM-8 a ï¿½chappï¿½ ï¿½ ces problï¿½mes : la topologie est beaucoup plus flexible et en 3D, laissant envisager la construction de cubes de dizaines de boites de cï¿½tï¿½ (le problï¿½me est alors la dissipation thermique...). Le projet CAM-8 bï¿½nï¿½ficie aussi de subventions du dï¿½partement de recherche de l'armï¿½e amï¿½ricaine, ce qui permet de rï¿½soudre certains problï¿½mes de maniï¿½re plus triviale que lorsque le budget est dï¿½passï¿½ ou inexistant.

V.6 : Carte ISA :

Ce chapitre prï¿½sente la premiï¿½re ï¿½tude personnelle de matï¿½riel dï¿½diï¿½ au calcul de gaz sur rï¿½seau hexagonal, vers 1996, aprï¿½s la sortie de l'article de l'annexe B. Aucun accï¿½lï¿½rateur de cette structure n'a jamais ï¿½tï¿½ rï¿½alisï¿½. Le but ï¿½tait principalement d'effectuer les calculs et les mouvements complexes de donnï¿½es par de simples circuits ï¿½lectroniques sur une carte ISA avec un budget trï¿½s restreint. La plateforme cible ï¿½tait un i286 ï¿½ 12MHz dotï¿½ d'un bus ISA 16 bits. La vitesse thï¿½orique est donc limitï¿½e par la vitesse du bus ISA et la taille des expï¿½riences est limitï¿½e par le x86 en mode rï¿½el (64Ko).

La structure de la carte est dï¿½rivï¿½e d'une ï¿½tude des mouvements de donnï¿½es dans l'algorithme de l'annexe B. La carte ne pouvait ï¿½tre dotï¿½e de mï¿½moire spacieuse, elle devait donc dï¿½pendre de la mï¿½moire centrale de l'hï¿½te. Les composants doivent ï¿½tre simples, ï¿½conomiques et peu nombreux, sur un circuit imprimï¿½ ï¿½ 2 faces dessinï¿½ ï¿½ la main. Aucune exploitation des rï¿½sultats n'ï¿½tait prï¿½vue : pas de sommation car les particules ï¿½taient organisï¿½es en multisite et l'affichage ï¿½tait contrï¿½lï¿½ par la palette de la carte VGA.

L'ï¿½tude des dï¿½pendances des donnï¿½es a permis de dï¿½finir une stratï¿½gie : seules quelques lignes ont besoin d'ï¿½tre mï¿½morisï¿½es dans la carte, ce qui permet de ne contenir que quelques dizaines de kilooctets de SRAM ou de FIFO. Dans ce cas, le plus difficile est de synchroniser le contenu des diffï¿½rentes mï¿½moires : il faut que le logiciel collabore ï¿½troitement avec la carte pour permettre ï¿½ l'algorithme de fonctionner correctement.

Le schï¿½ma suivant dï¿½crit les dï¿½pendances de donnï¿½es :

Description des dï¿½pendances de donnï¿½es pour le modï¿½le multisite

Comme les mots transmis sont larges de 16 bits et puisque la gestion des lignes paires/impaires est inutilement complexe, le rï¿½seau a ï¿½tï¿½ tournï¿½ ï¿½ 90 degrï¿½s et les noeuds sont traitï¿½s par paires. Il faut donc 2 LUT et chaque cycle d'horloge traite deux sites. La figure suivante montre le nommage des directions, similaire ï¿½ la stratï¿½gie du deuxiï¿½me code de rï¿½fï¿½rence :

Deux stratï¿½gies existent : utiliser des FIFO ou des SRAM. L'ï¿½tude a portï¿½ d'abord sur les FIFO. Par convention, N sera le nombre de sites par ligne.

L'ordinateur et la carte sont asynchrones, l'ordinateur doit partager la bande passante entre le flux entrant dans la carte et le flux sortant. Pour des raisons de simplicitï¿½, la gestion de la DMA n'a pas ï¿½tï¿½ envisagï¿½e. Le programme de l'ordinateur hï¿½te est assez simple : il envoie un bloc puis en reï¿½oit un autre ï¿½ mettre au mï¿½me endroit. Il faut vï¿½rifer ï¿½ chaque fois que le buffer que l'on va accï¿½der est prï¿½t, grï¿½ce ï¿½ des sï¿½maphores prï¿½vus ï¿½ cet effet. La boucle interne doit ï¿½tre ï¿½crite en assembleur car elle utilise des instructions spï¿½ciale rep insw et rep outsw qui ne sont pas disponibles dans les langages de haut niveau :



        ; init de la boucle externe :
           push ds ; ds pointe vers le tableau
           pop es  ; ds = es = dï¿½but du tableau
           xor di,di ; di = 0
           xor si,si ; si = 0
           mov dx,inout_port ; adresse de la carte ISA
 
           mov bx,nb_lignes
        loop_bx:

          ; synchro 1:
             add dx,2
        loop_dx1:
               in al, dx
               and al,1   ; vï¿½rifie que le buffer d'entrï¿½e est prï¿½t
             jz loop_dx1
             sub dx,2

             mov cx,N/2
             rep outsw dx,si ; bloc DS:SI vers port DX

        ; synchro 2:
             add dx,2
        loop_dx2:
               in al, dx
               and al,2   ; vï¿½rifie que le buffer de sortie est prï¿½t
             jz loop_dx2
             sub dx,2

             mov cx,N/2
             rep insw dx,di ; port DX vers bloc ES:DI

           dec bx
           jnz loop_bx

        ; fin

Dans cet exemple, les phases sont synchronisï¿½es en utilisant un port de contrï¿½le, permettant de lire l'ï¿½tat interne de la carte. Nous allons voir plus loin qu'il est possible de s'en passer. La synchronisation entre le processeur et la carte peut ï¿½tre gï¿½rï¿½e par exemple en insï¿½rant des wait states sur le bus lors de la lecture et de l'ï¿½criture du port. Il faut aussi une pï¿½riode d'amorce du "pipeline" interne de la carte mais ce n'est pas traitï¿½ ici.

Si le processeur envoie 2 octets par cycle, s'il faut 2 cycles par site (ï¿½criture puis lecture) et si le bus envoie 16 bits par cycle en rafale, la bande passante maximale thï¿½orique est de 12MHz/2*2 soit 12 millions de sites par seconde ï¿½ 12 MHz. Les alï¿½as du bus ISA abaissent ce dï¿½bit dans la pratique, en particulier pour accï¿½der ï¿½ la mï¿½moire DRAM lente et pour garder la compatibilitï¿½ avec les cartes ISA 8 bits. Il faut en thï¿½orie 2 cycles pour un accï¿½s 16 bits et 3 cycles pour deux accï¿½s 8 bits en mode 16 bits. Cela donne beaucoup de temps ï¿½ la carte ISA pour traiter les informations par paquets 16 bits, ï¿½ 6 MHz maximum en thï¿½orie. Le chemin critique de l'accï¿½lï¿½rateur dispose donc de 160 ns au minimum pour effectuer son travail, ce qui est peu contraignant. Le processeur effectue deux fois plus de travail de mouvement que la carte elle-mï¿½me car sa bande passante est partagï¿½e par plusieurs flux : la carte doit donc pouvoir garder en mï¿½moire deux lignes (2*N sites) au minimum pour ï¿½viter de perdre des donnï¿½es.

En utilisant des FIFO toutes faites, on gagne en simplicitï¿½ de gestion : pas d'adressage de SRAM ï¿½ gï¿½nï¿½rer. La figure prï¿½cï¿½dente dit en a) qu'il faut conserver pour le buffer d'entrï¿½e 2N sites, soit 2 FIFO de N octets. Une ligne doit ï¿½tre constament gardï¿½e en matï¿½riel afin de simplifier le logiciel et les pointeurs. La deuxiï¿½me se vide au fur et ï¿½ mesure que le calcul avance.

Le calcul donne 4 bits pour la premiï¿½re ligne, 8 bits ï¿½ la suivante et les 4 derniers pour la troisiï¿½me ligne. De plus, de petits buffers doivent ï¿½tre correctement placï¿½s pour temporiser certains rï¿½sultats de un ou deux cycles. On modifie donc la structure de la figure a) pour exploiter des FIFO sur 8 ou 16 bits : on utilise des bits indï¿½pendants dans la mï¿½me FIFO puisque tous les flux sont synchrones. Il faut donc trois ï¿½tages de FIFOs ï¿½ N ï¿½tages, ou en tout 4 FIFOs de N octets. Dans la versions a), on s'aperï¿½oit aussi que le calcul s'effectue ï¿½ chaque lecture d'un mot en sortie : on peut donc ï¿½conomiser un ï¿½tage de FIFO. Les parties dï¿½licates sont la programmation des LUT, la gestion du "mï¿½lange" des bits et les buffers associï¿½s, ainsi que le contrï¿½le gï¿½nï¿½ral de la carte, non reprï¿½sentï¿½ ici. Le gï¿½nï¿½rateur de nombres alï¿½atoires peut ï¿½tre implï¿½mentï¿½ dans une simple PAL avec un registre ï¿½ dï¿½calage ï¿½ rï¿½troaction linï¿½aire.

Une autre optimisation porte sur l'utilisation des circuits : on peut rï¿½duire le nombre de circuits buffers 8 bits (des bascules latch non transparentes) ï¿½ seulement deux en traitant les bits indï¿½pendamment. Certains bits peuvent donc ï¿½tre utilisï¿½s ï¿½ diffï¿½rents degrï¿½s de dï¿½lai et il n'y a pas de broche inutilisï¿½e. Ainsi, quatre circuits suffisent ï¿½ "brasser" les bits, le reste du circuit imprimï¿½ doit gï¿½rer les autres fonctions : accï¿½s aux LUT pour leur configuration, dï¿½codage du bus ISA, synchronisation et validation des horloges de tous les circuits. Ce sont ces parties qui sont les plus complexes et qui sont susceptibles de demander du temps pour la mise au point.

L'architecture dï¿½crite dans ce chapitre n'a pas ï¿½tï¿½ implï¿½mentï¿½e pour des raisons financiï¿½res, de temps, de moyens mais surtout parce que les programmes qui ont ï¿½tï¿½ dï¿½veloppï¿½s ensuite sont beaucoup plus rapides que les 12Mc/s thï¿½oriques que l'accï¿½lï¿½rateur permettait d'atteindre. La version ï¿½ base de SRAM pour ï¿½muler les FIFOs (chï¿½res, voir RadioSpares) est plus compliquï¿½e car il faut adresser des SRAM : les composants discrets sont trop nombreux, les PAL sont trop petites et les FPGA dï¿½passent le budget.

V.7 : Anneau de strip mining :

L'idï¿½e de cette architecture est venue dans une discussion, ï¿½ la fin d'une prï¿½sentation par Amal Stri du projet Fourmi en 1998. C'est une application directe du principe de "strip mining" utilisï¿½ dans le programme : il y a deux niveaux de mï¿½moire de vitesse et de quantitï¿½ diffï¿½rentes afin de diminuer le coï¿½t total du systï¿½me. Une mï¿½moire de type DRAM est ï¿½ la fois spacieuse et ï¿½conomique, elle est ici contrï¿½lï¿½e par une puce spï¿½ciale qui effectue le rafraï¿½chissement et le transfert de blocs, alternant lectures et ï¿½critures en rafale. Ensuite, chaque "ligne" de strip mining est implï¿½mentï¿½e par un circuit qui peut ï¿½tre rï¿½pliquï¿½ ï¿½ volontï¿½ selon les besoins et le budget. Il peut consister en un gros FPGA ou tout simplement correspondre au circuit dï¿½crit dans le chapitre prï¿½cï¿½dent.

Ce type d'architecture a un intï¿½rï¿½t particulier : plus le nombre de circuits de calcul de lignes est grand, plus le calcul est rapide, indï¿½pendamment de la taille du tableau ï¿½ calculer. La partie calcul est sï¿½parï¿½e de la partie stockage et chacune peut avoir la taille dï¿½sirï¿½e. Il devient possible d'augmenter le nombre total de sites calculables en ajoutant une barette de DRAM disponible dans le commerce, ou d'augmenter la vitesse de calcul en fabricant d'autres cartes de calcul. Le contrï¿½leur de DRAM peut aussi gï¿½rer des communications plus lentes afin d'inclure l'anneau dans un anneau plus grand et implï¿½menter une architecture de strip mining du deuxiï¿½me ordre (avec un anneau d'anneaux).

L'affichage du rï¿½sultat peut ï¿½tre effectuï¿½ en lisant le trafic sur un des liens et en envoyant le flux vers un tampon d'affichage pour le synchroniser avec le balayage de l'ï¿½cran. Il faut donc que le flux de l'anneau contienne un "jeton" indiquant un retour de balayage vertical mais il est plus simple de gï¿½rer ce cas directement avec le contrï¿½leur de mï¿½moire : il doit contenir les pointeurs de dï¿½but et de fin du balayage de la DRAM et peut donc gï¿½nï¿½rer le signal de synchronisation sans complexitï¿½ inutile.

Une autre caractï¿½ristique intï¿½ressante est que l'anneau est unidirectionnel : chaque module a besoin d'un port d'entrï¿½e et d'un port de sortie identiques dont la bande passante (largeur et frï¿½quence) correspond ï¿½ la vitesse de calcul de chaque unitï¿½ (la vitesse est la mï¿½me pour un systï¿½me synchrone). Le contrï¿½leur de mï¿½moire doit donc contenir deux mï¿½moires tampons afin de garder un flux de donnï¿½es constant malgrï¿½ l'accï¿½s alternï¿½ (R/W) ï¿½ la DRAM.

Ce type de systï¿½me parallï¿½le exploite les caractï¿½ristiques du modï¿½le calculï¿½ et son extensibilitï¿½ est diffï¿½rente comparï¿½e aux autres systï¿½mes cellulaires. D'habitude la puissance est augmentï¿½e en ajoutant des modules qui contiennent ï¿½ la fois de la mï¿½moire et des circuits de calcul mais le prix de la DRAM au mï¿½gaoctet est beaucoup plus faible que de la SRAM de petite quantitï¿½. L'accï¿½s par blocs dans ce modï¿½le est aussi un facteur qui rend cette architecture possible : des accï¿½s alï¿½atoires pï¿½naliseraient la bande passante ï¿½ cause de l'interface compliquï¿½e des puces de DRAM. Ce systï¿½me peut donc ï¿½tre ï¿½tendu par ajout de composants mï¿½moire ï¿½conomiques et par ajout de modules de calcul (circuits imprimï¿½s ou FPGA).

Le problï¿½me de cette approche, malgrï¿½ le rapport performance/prix intï¿½ressant, est qu'il est limitï¿½ aux modï¿½les ï¿½ interactions courtes en 2D (voisinage de Moore ou de Von Neumann par exemple). Il ne peut ï¿½tre utilisï¿½ pour des modï¿½les uni- ou tridimensionnels et l'intï¿½rï¿½t est rï¿½duit en dehors des gaz sur rï¿½seaux : ce n'est pas une architecture "gï¿½nï¿½raliste". Si le domaine ï¿½ ï¿½tudier est limitï¿½ aux LGA 2D, c'est l'architecture parallï¿½le la plus recommendï¿½e, mï¿½me avec des modï¿½les non binaires : ILG, BGK...

V.8 : tableau de PAL :

L'exploration suivante est un "exercice d'ï¿½cole" destinï¿½ ï¿½ comprendre ï¿½ quel point le modï¿½le physique influence l'architecture matï¿½rielle. Les contraintes de prix, de flexibilitï¿½ et de rï¿½alisation sont ensuites utilisï¿½es pour modifier les choix.

Commenï¿½ons par un cas de figure "idï¿½al" car il reprï¿½sente exactement le modï¿½le FHP : chaque site est associï¿½ ï¿½ un circuit logique programmable, par exemple une PAL 16L8.


   \   /   \   /   \   /   \   /   \   /   \   /   \   /   \
--- PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL
   /   \   /   \   /   \   /   \   /   \   /   \   /   \   /
PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL ---
   \   /   \   /   \   /   \   /   \   /   \   /   \   /   \
--- PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL
   /   \   /   \   /   \   /   \   /   \   /   \   /   \   /
PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL ---
   \   /   \   /   \   /   \   /   \   /   \   /   \   /   \
--- PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL
   /   \   /   \   /   \   /   \   /   \   /   \   /   \   /
PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL ---
   \   /   \   /   \   /   \   /   \   /   \   /   \   /   \
--- PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL
   /   \   /   \   /   \   /   \   /   \   /   \   /   \   /
PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL --- PAL ---

Chaque lien correspond ï¿½ deux connexions (un bit dans chaque sens). Ce systï¿½me pourrait fonctionner ï¿½ 20MHz : le parallï¿½lisme massif permet d'atteindre environ 1Gc/s avec la configuration de circuits ci-dessus (un carrï¿½ de 8 par 8). La performance dans des applications rï¿½elles (500*500 environ) serait donc impressionnante mais les obstacles pratiques sont trï¿½s nombreux :

il faudrait un nombre considï¿½rable de circuits, sur une surface gigantesque (proportionnelle au nombre de sites)

la visualisation serait difficile (avec des LED ?)

les essais avec les compilateurs VHDL ont montrï¿½ que la complexitï¿½ des ï¿½quations ne permet pas de programmer une PAL normale avec les rï¿½gles FHP-3 "saturï¿½es"

les "obstacles" (murs) seraient soit cï¿½blï¿½s par des fils, soit programmï¿½s dans les PAL, mais ne pourraient pas ï¿½tre modifiï¿½s facilement et rapidement

l'arbre de l'horloge serait lourd ï¿½ gï¿½rer ; il faut faire un arbre binaire pour rï¿½partir le signal d'horloge de maniï¿½re synchrone sur tout le circuit (comme expliquï¿½ dans la documentation de la CAM-8).

la propagation de la valeur du gï¿½nï¿½rateur de nombres alï¿½atoires est aussi complexe que la propagation de l'horloge dans le circuit.

Finalement, cette approche est rï¿½servï¿½e ï¿½ des cas trï¿½s particuliers oï¿½ l'investissement en matï¿½riel est justifiï¿½ par une utilisation intensive, hors du cadre de la recherche. Une puce VLSI avec un rï¿½seau de 16 * 16 sites pourrait servir de base ï¿½ des gï¿½nï¿½rateurs de nombres pseudo-alï¿½atoires (de probabilitï¿½ 2/7) contrï¿½lï¿½s par clï¿½.

Une alternative serait d'utiliser des mï¿½moires SRAM rapides comme celles utilisï¿½es dans les caches L2 des PC. Elles sont relativement ï¿½conomiques, largement rï¿½pandues et ne sont pas limitï¿½es par la complexitï¿½ de l'ï¿½quation. Par exemple, partons de mon stock personnel : environ 100 SRAM 62256 15ns en boï¿½tier DIL ï¿½troit 28 broches, toutes rï¿½cupï¿½rï¿½es sur des cartes mï¿½res dï¿½fectueuses. Comme leur contenu peut ï¿½tre changï¿½ ï¿½ tout moment, le systï¿½me simulï¿½ peut ï¿½tre intï¿½ractif. Une SRAM de 32 Koctets contient plus de donnï¿½es que nï¿½cessaire pour une seule table (512 octets), un boï¿½tier peut donc en plus contenir les informations de 64 lignes diffï¿½rentes pour lesquelles les informations ne seraient pas homogï¿½nes (comme pour des parois plus ou moins glissantes, de informations sur la gï¿½omï¿½trie...). Il faudrait alors que l'hï¿½te optimise l'allocation de ces sous-tables mais ce n'est pas un problï¿½me inquiï¿½tant. La mï¿½moire est organisï¿½e par octets et les murs peuvent ï¿½tre traitï¿½s sï¿½parï¿½ment, il reste donc un bit libre dans les donnï¿½es, utilisable pour implï¿½menter FHP4 :

Il n'y a pas assez de puces pour constituer un tableau entier (un tableau de 10 par 10 n'est pas intï¿½ressant pour des applications normales), il faut donc balayer la surface ligne par ligne. Lï¿½ encore, une ligne de 100 sites n'est pas assez pour des cas classiques, il faudra donc plusieurs cycles pour balayer une ligne rï¿½elle. L'organisation des circuits est toutefois 1D : tous les circuits sont placï¿½s en ligne. Cela pose un gros problï¿½me : il faut mï¿½moriser les autres lignes, une moitiï¿½ des puces mï¿½moire sera alors dï¿½diï¿½e ï¿½ cette fonction et il faudra les adresser sï¿½parï¿½ment. Le tableau peut donc contenir 50 x 32K = 1,6 millions de sites qui peuvent ï¿½tre organisï¿½s par groupes de 50 sites. Une autre solution serait d'acquï¿½rir 100 puces FIFO de plusieurs milliers d'octets chacune pour simplifier l'adressage et le cï¿½blage mais ce sont des piï¿½ces chï¿½res. Le "brassage" des bits pour les rï¿½partir sur plusieurs ligne consï¿½cutives peut s'effectuer comme avec la carte ISA, avec des buffers discrets.

Le problï¿½me le plus inquiï¿½tant est la programmation les SRAM : il faudrait intercaler des transmetteurs qui sï¿½lectionnent la provenance des donnï¿½es dans le chemin critique, ce qui diminuerait la vitesse, augmenterait le coï¿½t et la consommation ï¿½lectrique. De toute faï¿½on, la sortie de ces puces mï¿½moires n'est pas "latchï¿½e" (la sortie ne peut ï¿½tre maintenue lorsque que l'entrï¿½e change). Un systï¿½me synchrone rapide n'est donc pas possible car il faut en plus alterner les cycles de lecture et d'ï¿½criture des SRAM de stockage. On peut considï¿½rer que la vitesse de consultation des LUT est de 15 ou 20 MHz, soit environ 1 milliard de sites par seconde avec 100 puces de SRAM. La consommation ï¿½lectrique est au minimum de : 100mA sous 5V x 100 = 50 Watts pour les SRAM seules.

La question reste en suspens, mais il est ï¿½videmment plus facile de programmer un ordinateur "classique" que de mettre au point un systï¿½me de ce style, mï¿½me avec des FPGA modernes, en maintenant des performances et une flexibilitï¿½ similaires.

Il apparaï¿½t que la crï¿½ation d'une machine dï¿½diï¿½e au calcul de FHP n'est pas aussi aisï¿½e que le modï¿½le le laisse penser au dï¿½part. L'ï¿½lectronique "cï¿½blï¿½e" reste pourtant le dernier recours lorsque la vitesse demandï¿½e justifie le manque de flexibilitï¿½ et le budget consacrï¿½ au projet. L'approche parallï¿½le en 1D ou en 2D permet de gagner un ordre de grandeur dans la vitesse de calcul. Une machine ï¿½ base de dizaines d'ASIC est une solution brute ï¿½ un problï¿½me trï¿½s prï¿½cis mais la nature des circuits intï¿½grï¿½s implique une perte de vitesse dï¿½s qu'il faut communiquer avec un circuit intï¿½grï¿½ voisin : une broche suivie d'une piste de circuit imprimï¿½ constituent une charge capacitive qui devient prï¿½pondï¿½rante ï¿½ trï¿½s haute vitesse. Il serait donc illusoire de croire ï¿½ une augmentation linï¿½aire de la vitesse de traitement lorsque l'horloge est accï¿½lï¿½rï¿½e : un systï¿½me synchrone basï¿½ sur l'architecture PAL ou sur un tableau d'ASIC sera limitï¿½ par la vitesse de communication entre les puces. Malgrï¿½ ses avantages, le calcul "cï¿½blï¿½" sera donc toujours limitï¿½ par les constantes fondamentales de la physique (comme la vitesse de la lumiï¿½re ou la mobilitï¿½ des ï¿½lectrons).

V.9 : Conclusion :

Il semble que l'avenir de ce type de machines se trouve dans les rï¿½seaux logiques reconfigurables sur site : les FPGA. Les nouvelles gï¿½nï¿½rations sont trï¿½s, trï¿½s rapides et peuvent mï¿½me contenir des microprocesseurs. Leurs architectures, comme pour les microprocesseurs, deviennent de plus en plus complexes et il est difficile de les utiliser ï¿½ 90% de leur capacitï¿½ thï¿½orique, sans parler du manque de transparence des constructeurs, du prix ï¿½levï¿½ des logiciels et de plateformes... Le projet Fourmi a explorï¿½ ces diffï¿½rents problï¿½mes.

Cependant les FPGA offrent un niveau d'abstraction qui permet de faire bï¿½nï¿½ficier l'utilisateur des performances d'une nouvelle plateforme au prix d'une recompilation du source VHDL ou Verilog. Des plateformes diverses existent dï¿½jï¿½, allant de la simple carte PCI aux systï¿½mes massivement parallï¿½les. Ces systï¿½mes reconfigurables se dï¿½mocratisent (lentement mais sï¿½rement) car ils touchent beaucoup plus d'applications : ils permettent de calculer rapidement tout ce qu'un ordinateur classique peut calculer. L'ordinateur "hï¿½te" se charge des tï¿½ches complexes, de l'interface avec l'extï¿½rieur, de la configuration, pendant que la partie de "calcul brut" est prise en charge par le systï¿½me reconfigurable.

Il faut toutefois remarquer qu'aucun standard n'existe actuellement. On peut spï¿½culer sur l'utilisation du VHDL pour programmer des automates cellulaires, Cellang n'a qu'un usage trï¿½s restreint et le reste reste au stade expï¿½rimental. Dans l'absence d'un outil dï¿½terministe et fiable pour programmer les FPGA, le prï¿½cieux matï¿½riel risque d'ï¿½tre sous-utilisï¿½ comme un ordinateur classique. Doit-on en venir aux ASIC ? C'est ce que prï¿½pare Norman Margolus [30] avec une puce mï¿½langeant circuits de mï¿½moire et de calcul, bï¿½nï¿½ficiant ainsi des toutes derniï¿½res technologies.

Les rï¿½seaux d'interconnexion entre les processeurs ï¿½lï¿½mentaires sont trï¿½s divers. Pour calculer des gaz sur rï¿½seaux en 2D, la mï¿½thode la plus pratique, ï¿½conomique et extensible est l'anneau dï¿½crit au chapitre 6. Les autres techniques semblent soumises aux caprices des ï¿½volutions technologiques. Les calculs en 3D sont moins faciles ï¿½ cï¿½bler de maniï¿½re flexible, il faut encore attendre que la technologie ï¿½volue. Un hypercube 4D semblerait convenir mais la seule expï¿½rience effectuï¿½e a utilisï¿½ une CAM-8. Les architectures adaptï¿½es aux rï¿½seaux en 2D ne peuvent pas ï¿½tre ï¿½tendues directement ï¿½ la 3D car c'est une projection d'un rï¿½seau 4D. De nombreuses recherches supplï¿½mentaires doivent ï¿½tre effectuï¿½es pour dï¿½terminer une architecture adaptï¿½e mais les techniques futures seront certainement extrapolï¿½es ï¿½ partir des techniques 2D comme l'anneau (issue de l'algorithme de strip mining).

Conclusion

Le travail effectué pour ce mémoire est une source d'enrichissements et de surprises inépuisables, dans des proportions imprévues au départ. L'annexe D montre que les programmes FHP, même les plus évolués, sont loin de se mesurer avec le programme développé dans ce mémoire, espérons donc que ces enseignements profiteront à de nombreuses personnes. Une conclusion simple et concise n'est pas possible car les remarques sont trop nombreuses. Au contraire, essayons de les placer dans un contexte plus général. Commençons par résumer les innovations dont chacun devrait tenir compte lors de la programmation de codes FHP ou similaires.

1 : Avancées pour le domaine des gaz sur réseaux

1.1 : Approche globale du problème :

Programmer des LGA ne se limite pas en l'expression d'un algorithme dans un langage particulier : le premier problème à surpasser avant de concevoir un programme efficace est de s'affranchir du niveau conceptuel des langages textuels. Bien que le premier charme des LGA soit d'être programmables "facilement", on vérifie aujourd'hui que les algorithmes "naïfs" ne sont plus adaptés aux ordinateurs actuels (à partir de 1995 environ) et nécessitent une connaissance approfondie du modèle physique et de l'architecture de la machine.

Pour programmer les LGA, il faut partir du modèle physique exprimé abstraitement, examiner de nombreuses options et comparer leurs intéractions dans un cadre choisi. L'interface entre le logiciel et le matériel, qui permet de contrï¿½ler la performance du programme, s'étend sur le système d'exploitation, sur l'algorithme, le modèle physique, l'application, la machine cible... Ce sont autant de détails, parfois contradictoires, qu'il faut considérer attentivement, longtemps avant de fixer des choix définitifs ou commencer à programmer.

La philosophie de programmation joue aussi un rï¿½le important : selon les objectifs, les moyens et les connaissances, des niveaux différents de performance pourront être atteints. Les objectifs doivent être réalistes et les moyens doivent être préalablement maitrisés, sinon le projet risque de ne pas aboutir. Il ne faut pas hésiter à constituer une large base de connaissances (bibliographie, discussions, rencontres, butinage sur Internet) afin de maitriser le sujet dans ses nombreux détails.

Lorsque suffisament d'éléments sont réunis et préparés, l'intransigeance et le souci du détail permettent de consolider l'édifice, qui ne manque pas de montrer des signes de faiblesse à mesure qu'il s'agrandit. La cohérence du programme devient de plus en plus difficile à gérer lorsqu'on ajoute des éléments : s'il y a N éléments dans un programme, l'ajout d'un autre élément nécessite N vérifications qui peuvent remettre en cause d'autres éléments. Le développement logiciel de ce projet a d'ailleurs été interrompu car il y a trop de parties à réécrire et les outils actuels ne permettent pas de les développer suffisamment rapidement. Ce n'est pas un problème lié au langage assembleur car des intéractions complexes apparaissent dans tous les langages.

La programmation d'un logiciel optimisé n'est pas seulement un travail de science fondamentale : ce mémoire a fait appel à des compétences en électronique, compilation, système d'exploitation. Il emprunte des méthodes utilisées entre autres par les codeurs de jeux vidéo, qui ont comme préoccupation commune l'utilisation la plus efficace possible de chaque ressource de l'ordinateur. Il faut pourtant faire attention aux parties théoriques car le résultat risque d'être inutile : l'utilisation du modèle FHP en dehors de ses limites raisonnables donne des résultats aberrants. L'utilisation d'un modèle trop primitif semble économique en complexité de calcul mais est sous-efficace en temps de calcul total sur la machine... Un codeur de jeu vidéo sera plus intéressé par l'effet visuel que par l'exactitude d'un calcul.

Pour résumer, il faut entre autres : être très attentif, être compétent dans de nombreux domaines, pouvoir faire le lien abstrait entre chaque partie, travailler à la fois sur le très haut et le très bas niveau. En réduisant le nombre de contraintes (par exemple : temps du projet trop court, moyens trop réduits, ressources trop faibles) il est possible de faire des programmes de meilleure qualité mais cela est rarement le cas car une contrainte est souvent compensée par une autre.

1.2 : Organisation des données :

La refonte de la structure des données et des algorithmes (principaux et annexes) est souvent la première voie à explorer pour améliorer fondamentalement un programme. Dans le contexte d'une approche globale, c'est à dire en tenant compte des détails d'implémentation, il faut essayer et comparer les différentes possibilités qui existent. Lors de ce projet, quatre organisations ont été examinées et on peut résumer leurs propriétés dans le tableau suivant :

type avantage(s) inconvénient(s)

tableau 2D d'octets
(LUT, multisite)
(chapitre III.4) simplicité de progammation/compréhension, adapté pour les ordinateurs 8/16 bits (ex.: i286) sous-efficace pour les microprocesseurs récents (mots large, coeurs OOO, occupation de la cache...)

tableau 2D de mots
/ 4 sites sur 32 bits
(multisite à traitement parallèle)
(chapitre III.6) plus efficace pour les coeurs 32 bits (i386-486-P53C), moins d'instructions pour le mouvement de bits individuels plus de manipulations d'octets individuels, donc plus contraignants pour les coeurs récents

multispin entrelacé dans un tableau
(chapitre IV.4) convient le mieux aux microprocesseurs modernes (registres larges, OOO, cache sur la puce) complexe
(mais ce mï¿½moire montre que c'est possible)

multispin (equation booléenne) sur plusieurs tableaux séparés convient naturellement aux calculateurs vectoriels nécessite trop de pointeurs (pression sur les registres et le compilateur pour les processeurs classiques, mauvaise localité spatiale, risque de cache thrashing avec certaines granularités)

Puisque l'étude porte sur les microprocesseurs modernes (Pentium MMX et Pentium II) il est donc recommandé d'utiliser la technique "multispin entrelacé" sur ces plateformes. Les autres techniques sont sous-efficaces, mettent une pression inutile sur l'allocation des registres (pointeurs et données) et utilisent mal la hiérarchie de la mémoire.

De plus, il est fortement recommandé d'utiliser des buffers temporaires comme décrits dans au chapitre III.3, afin d'éviter une occupation trop importante. Même si cela peut paraître peu important sur des ordinateurs actuels disposant d'au moins 64MO de mémoire, l'espace supplémentaire nécessaire à la collecte des statisques compense vite cette économie. De plus, le léger surcoï¿½t en complexité de programmation est justifié par une meilleure utilisation de la bande passante vers la mémoire. Par exemple, la stratégie de write back du Pentium est no-write-allocate : elle court-circuite la cache si la zone mémoire n'est pas déjà cachée, ce qui pénalise certains algorithmes selon leur ordre de lecture/écriture.

1.3 : Strip mining :

L'utilisation du strip mining dans le projet permet de gagner entre 25 et 50% du temps de calcul selon la taille des tableaux, alors même que le coeur du CPU est saturé par les calculs. Plus qu'une simple "astuce", cela montre bien que les microprocesseurs sont très dépendants de la localité spatio-temporelle des données car toute leur hiérarchie mémoire est conçue selon ce postulat optimiste.

Les premiers microprocesseurs ne disposaient pas de mémoire cache, et les machines dédiées ont des canaux spécialisés qui garantissent une certaine bande passante, mais les microprocesseurs actuels ont une bande passante vers la mémoire centrale qui est très réduite par rapport à leur fréquence de fonctionnement interne. A mesure que les architectures deviennent plus complexes, de nombreux paramètres rendent le travail plus difficile : il faut faire attention à la cachabilité des zones accédées, aux temps de latence, aux transferts par paquets, ï¿½ l'ordre et ï¿½ l'alignement des accès...

En concevant un algorithme, il faut donc absolument tenir compte de ces paramètres, avec la difficulté supplémentaire de la nature des traitements à effectuer. En effet, la fenêtre de strip mining doit respecter certaines propriétés spatio-temporelles (qui étaient mal identifiées au début du projet). D'autres types d'automates cellulaires, des traitements de signaux (images, sons) ou des opérations mathématiques complexes (inversions de matrices) ont des dépendances différentes entre les données et nécessiteront un algorithme de strip mining différent, qu'il faudra analyser sérieusement pour éviter que la mémoire centrale ne ralentisse le processeur. En règle générale, on peut considérer que tout balayage d'un tableau avec des intéractions limitées aux voisins peut et doit bénéficier du strip mining.

Il faut espérer que les prochaines générations de microprocesseurs banalisent encore plus les instructions dédiées au contrï¿½le de la mémoire cache. Le strip mining présenté ici est au départ un palliatif au manque d'instruction spéciale et fonctionne par "cache touching" (une partie de la ligne de cache est accédée, le reste est ensuite utilisé au maximum et on attend que le mécanisme de LRU vide la ligne automatiquement). Une amélioration simple consisterait à effectuer le travail de LRU grâce à une instruction explicite et gagner ainsi quelques pourcents sur l'espace réellement utilisé dans la cache (pour être remplacée, une ligne doit être inutilisée, elle prend donc de la place inutilement) et donc accélérer la vitesse du programme. Jusqu'à maintenant, la seule instruction disponible (WBINVD) vidait indifféremment toute la cache et ne procurait aucun bénéfice net (voir les tests en annexe C). Intel a amélioré la situation lors de l'introduction du Pentium III et des instructions SSE, on peut donc espérer que les prochaines versions du programme en bénéficieront.

Le Pentium II avait déjà changé le "paysage" de la mémoire cache par une architecture à bus séparés très efficaces et rendait ainsi la L2 presque aussi "rapide" que la L1. La mémoire principale n'avait pourtant pas été accélérée mais le schéma original de strip mining fonctionne très bien. Les choses se compliquent dans les cas où la taille des simulations nécessite l'emploi de liens encore plus lents : réseau local Ethernet ou disque dur. Il faut alors utiliser le strip mining au deuxième degré : la complexité et le gain de cette technique éprouvée au niveau de la carte mère peuvent être retrouvés au niveau d'un système à une échelle différente. Des études sont en cours pour le projet beo-kragen.

D'une simple réorganisation des ordres d'accès à la mémoire, le point de vue a évolué vers la gestion de tampons mémoire et de flux de données à l'échelle du système entier, prouvant que le programme est actuellement étudié à un niveau d'abstraction beaucoup plus élevé qu'à l'origine.

1.4 : Parois complexes :

L'utilisation de listes de modifications pour gérer les parois permet de bénéficier de toute la puissance intrinsèque du modèle FHP. Bien que cela soit plus difficile à programmer, les efforts sont justifiés par une grande flexibilité des parois tout en ayant une occupation raisonnable en temps CPU et en mémoire. Le projet a permis de programmer et de résoudre les couches de bas niveau, le reste de l'effort étant laissé à la discrétion d'autres programmeurs spécialisés dans d'autres disciplines (l'algorithme de Bresenham dans un repère rhombohédrique ne faisant pas l'objet de ce mémoire). Ce projet de maitrise prouve que les listes de modifications sont possibles et montre comment les réaliser (bien qu'on puisse toujours améliorer la technique). Il existe aujourd'hui moins de raisons de s'en passser.

1.5 : Programmation en assembleur :

La pratique de l'assembleur est souvent vue comme un exercice de haute voltige, inutile et peu pratique. Ce mémoire montre que ce n'est qu'une des nombreuses difficultés que l'on rencontre dans les exercices de programmation courante car la plus grande difficulté est souvent au niveau algorithmique (le coeur du calcul utilise un nombre très réduit de types d'instructions, ce qui invalide l'argument de complexité). Le reste de la "difficulté" est au niveau de l'interface, ce qui peut être résolu par de nombreux moyens autres que celui utilisé ici.

L'utilisation de l'assembleur ici correspond à une philosophie de contrï¿½le total sur les instructions que le microprocesseur va exécuter, et donc maitriser étroitement la performance du programme, quasiment au cycle près. Aucun autre moyen n'existe actuellement pour garantir la "pureté" d'un code exécutable. Les meilleurs compilateurs du monde ne permettent qu'un contrï¿½le limité sur le code généré, malgré l'existence de centaines d'options de compilation : il manque toujours celle dont on a besoin.

Non seulement les compilateurs actuels ne permettent aucun contrï¿½le du code à l'instruction près, mais il ne savent pas encore gérer automatiquement les instructions MMX ou SSE qui sont nécessaires pour accélérer les calculs avec les algorithmes multispin. L'utilisation d'un compilateur pour du code "final" est donc un effort superflu, car il ajoute un niveau d'abstraction parasite dans l'analyse du problème. Les espoirs de générations automatique de codes "preque parfaits" se sont évanouis devant l'ampleur du manque de réelle intelligence des outils. Ecrire le coeur du calcul à la main, à l'aide d'un simple outil disponible gratuitement sous GPL, s'est révélé finalement beaucoup plus efficace et plus facile que de forcer les compilateurs à créer du code qu'ils ne peuvent pas générer. De plus, cela a nécessité un important effort au niveau de la théorie derrière les calculs de collision, qui a permis la création d'une nouvelle formule.

Le code actuel a atteint un point critique qui nécessite de nombreux efforts pour le dépasser. Dans l'état actuel du projet, il est alors rentable de se concentrer sur les outils de codage "assisté", dans lesquels les techniques de codage développées pour ce projet peuvent être réinvesties. Le projet "GNL" permettra de recoder entièrement le source du projet, de le porter vers d'autres architectures, tout en permettant d'atteindre et de se maintenir à la puissance de crête de la plateforme cible. Si cet outil interactif avait existé au début du projet, le programme serait fonctionnel plus rapidement et plus facilement. Beaucoup de "travail sur papier", d'efforts et de temps aurait été économisé. Toutefois, le "travail sur papier"effectué pour ce projet a permis de mettre au point et tester en grandeur réelle des techniques à la base de GNL (allocation des registres, évaluation des accès à la mémoire etc).

1.6 : Une nouvelle formule :

L'une des découvertes les plus inattendues de ce projet est l'équation booléenne au coeur du calcul des collisions. C'est aussi un point très important du mémoire car il découle d'une analyse plus aprofondie et sous un autre angle que la formule (classique aujourd'hui) donnï¿½e au chapitre IV.7.

La nouvelle formule essaie de correspondre aux exigences du Pentium : peu de registres, bande passante réduite, pairage des instructions compliqué... alors que la formule classique nécessite de nombreux termes temporaires dans le graphe de dépendences, favorisant les architectures RISC avec de très nombreux registres. En comparaison, la nouvelle formule peut être utilisée sur des calculateurs vectoriels (par exemple CRAY classiques avec 8 registres vectoriels).

La nouvelle formule ne remplace pas l'ancienne, nous pouvons remarquer qu'elle la complémente et élargit le domaine d'application et d'utilisation du modèle FHP saturé. En l'absence d'analyse booléenne plus poussée, il est difficile et peut-être inefficace d'utiliser la formule de d'Humières si moins de 32 registres sont disponibles pour les données (c'est à dire que les pointeurs, compteurs de boucles etc. doivent ï¿½tre séparés ou très peu nombreux). Au contraire, si le rapport mémoire/calcul d'une machine particulière efface le problème des variables temporaires d'une manière ou d'une autre, la formule de d'Humières est plus efficace car le nombre total d'opérations booléennes est inférieur à la nouvelle formule.

Il reste encore à prouver que la vielle formule est optimale, ce qui est une tache difficile en raison de la spécialisation de chaque cas : quelles opérations booléennes sont admises ? XOR, ANDN, NAND, ORN ? La formule peut changer complétement en ajoutant ou en supprimant un opérateur et la pratique montre que les compilateurs VHDL sont incapables de répondre à cette question de manière satisfaisante. L'analyse brute est inefficace, il faudrait donc trouver une nouvelle méthode pour "casser" ce type de formule lourde en instructions simples.

Loin d'avoir résolu le problème, ce travail relance la question épineuse de l'efficacité des calculs. Il apporte un nouvel élément (une autre formule) ainsi qu'une nouvelle manière d'appréhender la question des collision saturées. Le long travail qui leur a permis de voir le jour n'aurait pas été nécessaire si les microprocesseurs courants avaient plus de bande passante vers la mémoire, plus de registres, et des outils plus efficaces pour "casser" le graphe de dépendances de données de manière satisfaisante.

Cependant, la formule de d'Humières ressemble un peu à l'algorithme de Bresenham dans le sens où avant son existence, le problème était considéré comme "difficile" (peu de personnes avaient envie de transformer le modèle en code informatique, en raison de sa complexité qui intéressait peu les physiciens). Lorsque le code a été publié, il a été réutilisé abondament et le problème n'a pas ressurgi car le code était estimé "satisfaisant" (quand il était correct...). Aujourd'hui, comme l'algorithme de Bresenham, la formule "canonique" ne satisfait plus les contraintes complexes imposées par certaines classes de machines. Espérons que d'autres personnes continueront les travaux dans ce domaine après ce mémoire.

1.7 : Intégration complète de l'algorithme de visualisation dans celui du calcul :

Tout comme pour le strip mining, intégrer les calculs de visualisation dans la boucle de calcul permet de bénéficier des propriétés de localité spatio-temporelles des modèles FHP et similaires. Les microprocesseurs comme le Pentium, limités en bande passante vers la mémoire externe, bénéficient de ce type de programme car ils évitent ainsi de saturer inutilement le bus externe par des cache miss à répétition. L'intégration des différents algorithmes, lorsqu'ils portent sur une même donnée, permet de rééquilibrer les caractères memory bound et CPU bound et d'entrelacer la latence des mémoires avec les lourds calculs. Les coeurs OOO (comme le PII ou l'Alpha 21264) ont principalement été conçus dans cette optique, l'exécution spéculative de dizaines d'instructions permet de continuer le programme en attendant une donnée venant de la mémoire centrale.

Lors de la conception d'un programme de calcul intensif, il est donc important de bien faire cohabiter la partie de calcul brut et les parties qui ne participent pas au calcul proprement dit : bien que le résultat ne change pas, il devient inutile s'il n'est pas présenté correctement à l'utilisateur. Le problème se complique avec l'introduction du strip mining, mais heureusement il se résoud naturellement dans notre cas précis, ce qui peut ne pas être vrai pour d'autres cas.

Le travail n'a pas abordé la collecte de statistiques, se limitant à la mesure de la densité en particules, mais la remarque reste valable : il faut autant que possible réunir toutes les parties du code autour des mï¿½mes données, afin de bénéficier des mémoires caches de données. Le code exécutable tient souvent largement dans la cache des instructions, la taille du code n'est pas actuellement un problème.

1.8 : Mesurer son code :

C'est un détail qui est tout le temps oublié, mais même sans le langage assembleur, même si peu de moyens sont disponibles, il est toujours important de connaitre à tout moment le temps d'exécution de chaque bloc d'instructions. Il faut toujours "profiler" son code et comparer ses performances entre chaque modifications.

Tous les détails qui rendent ces éléments cohérents sont très importants, car comme noté précédemment, l'ajout d'un détail peut remettre en cause le programme entier. La plus grande prudence est donc conseillée. Un de mes mots d'ordres est "coder proprement paie toujours" (proprement dans le sens de l'efficacité) car la mentalité actuelle dans le milieu informatique est que "les ordinateurs sont bien assez rapides comme ça, pourquoi se compliquer la tâche ?". Cela conduit à des situations où des programmes tournent ï¿½ 10% de la puissance nominale de l'ordinateur, sans que personne ne s'inquiète. Or selon le cas et avec du logiciel optimisé, on pourrait économiser 90% du prix d'achat sur le matériel, à performance égale. Cela semble inaproprié pour les calculs de ce mémoire, mais devient très important pour un serveur central ou institutionnel coï¿½tant des millions de francs.

2 : Conclusions des expériences

2.1 : FHP-3 est memory bound et CPU bound sur x86 :

Les mesures ont montré que l'on ne peut plus améliorer radicalement les performances de FHP-3, on se heurte toujours à une partie qui dépend trop des calculs ou de la mémoire. Le cas du x86 est dramatique car ni la mémoire ni les instructions ne sont conçues pour supporter et maintenir leur puissance théorique. Le cadre des applications bureautiques et ludiques, permettant l'expansion du marché de masse des particuliers, ne justifie pas une refonte ou un abandon de la vieille architecture du x86, même si Intel essaie de promouvoir l'IA64 pour les domaines où la recompilation est déjà une nécessité. L'IA64 réunit probablement le pire du VLIW et du SPARC en essayant de faire mieux que le x86 : nous ne sommes pas prêts de voir une architecture "sympatique" pour FHP dans le commerce avant longtemps.

2.2 : Il est possible de descendre à 3 cycles par octets :

Malgré une substancielle augmentation de la taille du kernel de calcul, par rapport au code multisite 32 bits étudié dans le passé, il est possible d'aller encore plus vite et d'être plus flexible grâce au code multispin entrelacé. Il est peu probable que l'on puisse descendre beaucoup plus bas, par exemple 1 cycle par cellule, car la mémoire freine le processeur de plus en plus si de très longs mots (128 bits ou plus) sont utilisés. De nombreuses améliorations peuvent toutefois êtres effectuées et ne manqueront pas de voir le jour. Les codes multisites sont donc bien morts.

2.3 : A condition d'effectuer de nombreux efforts, il est possible d'utiliser des PC pour des calculs lourds :

Comme ce mémoire le prouve, il est possible de compter sur le rapport performance/prix/disponibilité intéressant du PC si de nombreux points sont pris en compte et traités :

il faut pouvoir remettre en question de nombreux points acquis : algorithmes, structures de données, techniques de développement...
il est de plus en plus difficile de contrï¿½ler TOUS les aspects du calcul car les architectures logicielles et matérielles sont de plus en plus complexes
le résultat sera souvent proportionnel à l'effort, il faur donc pouvoir accorder beaucoup de temps et user sa patience sur des problèmes parfois incompréhensibles

Les PC sont souvent utilisés de nos jours pour des tâches réservées hier à des ordinateurs immenses et chers. La croissance des PC, si on regarde les premières générations, est disproportionnée (bande passante mémoire, parallélisme, ILP) et correspond à des besoins de rentabilité sur le marché de masse pour des individus, mais pas à des applications scientifiques.

2.4 : Un PC équivaut presque à une CAM8 :

Les mesures effectuées au MIT en janvier 2000 montrent que les PC de bureau de dernière génération sont presque aussi rapides qu'un bloc CAM8 (8 cartes à 25MHz). Les tout derniers microprocesseurs généralistes permettent de rivaliser avec des ASIC créés il y a plusieurs années. En terme de génération équivalente, si l'on considère la règle de Moore, l'optimisation poussée du code a permis probablement de gagner trois ou quatre années par rapport à un code non optimisé. Le code est 4 fois plus rapide que le plus rapide des codes testés, ce qui permet d'affirmer que l'effort a permis de gagner 3 ans. Ce gain permet d'utiliser une machine plus vieille à vitesse égale (donc moins chï¿½re) ou bien de gagner 3 ans sur la machine la plus récente. Cet aspect d'économie est valable si le code original était "bâclé", mais reste dans le cadre de la démonstration du fait qu'un codage consciencieux n'est pas une perte de temps à longue échéance.

2.5 : La loi de Moore est trompeuse :

La règle de Moore, découverte par le co-fondateur d'Intel dans les années 70, ne signifie que ce qu'elle dit : que le nombre de transistors est multiplié approximativement par quatre tous les trois ans.

Il est donc abusif de considérer qu'un programme fonctionnera quatre fois plus vite dans quatre ans. Les grands constructeurs prï¿½parent de nouveaux coeurs de plus en plus étranges et de moins en moins adaptés aux algorithmes actuels. Les détails architecturaux deviennent de plus en plus complexes et il est de plus en plus difficile de tous les prendre en compte lors de la conception d'un programme. Cela veut aussi dire en filigrane que pour tourner quatre fois plus vite dans quatre ans, il faudra complétement reprendre la conception du programme à partir de zéro. Les efforts à fournir afin d'accélérer un programme deviennent de plus en plus grands, à la mesure des efforts fournis pour augmenter le nombre de transistors sur les puces. Les compilateurs ne seront plus assez sophistiquï¿½s et il faut d'autres moyens pour programmer. Enfin, comme de nombreux exemples le prouvent, l'histoire des ordinateurs ne suit pas une courbe monotone sur du papier à échelle semi-logarithmique : de nombreuses révolutions nous attendent et personne ne pourra plus utiliser ses sources en C écrits il y a dix ans. Si l'avenir de l'informatique est garanti pour les vingt prochaines années, les chemins empruntés sont inconnus et il faut se prï¿½parer maintenant à la concrétisation de projets incroyables aujourd'hui.

2.6 : Le sujet des gaz sur réseaux booléens est loin d'être tari :

Alors que les études actuelles portent sur des modèles à virgule flottante sur des approximations de Bolzmann, la présente étude du modèle FHP est loin d'épuiser toutes les ficelles des informaticiens et des physiciens. FHP reste un "terrain de jeux" incontournable pour comprendre de nombreux problèmes et phénomènes de mécanique des fluides, de mécanique statistique, d'algorithmique, il est donc important de continuer les études dans ce domaine, non pour faire de FHP un outil, mais comme modèle à part entière, pour être étudié et approfondi (le manque d'études dans ce domaine étant le plus souvent dï¿½ à un manque de connaissance du sujet, décourageant les étudiants). Un autre piège est la simplicité apparente du modèle, qui séduit les débutants mais qui les perd ensuite. Il est certain que d'autres approches sont nécessaires.

3 : Sujets des recherches futures

Le programme, même s'il fonctionne, nécessite de nombreuses améliorations plus ou moins complexes, décrites ici :

3.1 : Mesurer la pression :

Le problème "annexe" le plus important, celui de la mesure de la densité en particules (donc de la pression), a été résolu dans ce mémoire (popcount parallèle réutilisé dans la phase de détection, puis addition semi-parallèle). Pourtant, un aspect intéressant des mesures en soufflerie n'est pas la mesure dans le fluide, mais sur les parois. Il faut donc mettre en place un dispositif "comptant les bits" qui sont réfléchies par une paroi. Cela peut nécessiter une simple "adaptation" des algorithmes des listes de modification, ou un nouveau type d'algorithme, mais le sujet est sérieux : il permettra d'implémenter un jour des "intéractions fluide/solide", comme la mise en mouvement d'un objet dur par le fluide qui l'entoure (balle dans un courant d'air, vibration d'une surface en fonction de turbulences...). C'est un domaine où les LGA n'ont pas été appliqués, malgré les potentiels certains de ce modèle. L'objection de Norman Margolus à propose des parois mobiles concerne la non-réversibilité du mécanisme, ce qui ne nous intéresse pas dans le cas des écoulements dissipatifs.

3.2 : Emission de particules :

Le présent programme manque cruellement d'un "générateur de particules" associé à son contraire ("avaleur" ?). Le problème est caractéristique des veines de soufleries : il faut créer un vent uniforme, qui puisse imposer une vitesse contrï¿½lable du fluide. Il faut donc "créer" et "supprimer" des particules à certains endroits, à une vitesse particulière, tout en conservant la pression totale (le nombre de particules dans la veine, voir la partie III).

Il n'y a pas de problème conceptuel notable, mais il faut tout de même le programmer. En attendant, l'utilisateur est obligé d'utiliser un nombre fixe de particules qu'il doit programmer en assembleur : des efforts de programmation subtanciels et nombreux sont encore à fournir. De plus, il faudrait mettre au point un algorithme de mesure du "vent" afin de rétrocontrï¿½ler ce mécanisme.

3.3 : Multi-CPU :

Le "stub" de bi-processing symétrique a été écrit mais n'est pas utilisé car le reste de l'algorithme n'est pas terminé. Quand ce sera le cas, il faudra adapter légèrement le code (principalement : copier/coller/renommer) puis enlever le code en commentaire (en faisant attention aux bugs qui ont déjà été trouvés).

Le véritable problème est dans le cadre d'un beowulf car de nombreux autres problèmes devront être résolus. Les prochaines années verront probablement apparaitre des codes d'exemples. Le programme devient encore plus compliquï¿½ lorsque l'espace d'adressage n'est plus partagï¿½.

3.4 : Extension du code et du modèle :

Le code développé ici est un modèle simple mais suffisament représentatif des problèmes à résoudre dans des cas réels, même avec des modèles différents. Il peut donc être adapté à des modèles "thermiques" (plusieurs vitesses de particules), multiphases (plusieurs "couleurs" de particules), compressibles, avec des géométries différentes (D2Q9 ou autres) et avec plus ou moins de particules immobiles (pour résoudre le problème de l'invariance galliléenne). Un gros effort de codage devra être effectué pour chaque cas. Cependant, cet effort est d'abord de l'ordre informatique, il faut donc que le recodage du projet tienne compte des besoins d'adaptation du programme pour anticiper la résolution des problèmes futurs. Le code actuel, étude de cas pour un sujet particulier, devra encore beaucoup mï¿½rir pour devenir une plateforme d'expérimentation encore plus générale.

3.5 : Langage script :

La définition et la programmation d'un langage script universel permettra l'automatisation des mesures et la description des objets à l'intérieur du domaine d'étude. Actuellement, la définition de la gï¿½omï¿½trie des objets est inclue dans le source en assembleur, ce qui impose un réassemblage à chaque changement de géométrie. Les opérations interactives (changement de taille du tunnel, pas à pas...) ne sont pas absolument précis et nécessite de programmer des mécanismes pour contrï¿½ler plus finement tous les paramètres.

Un format de fichiers et des mots-clés sont actuellement en stade de réflexion mais leur implémentation nécessite un effort trop important pour être effectué actuellement : il faut que d'autres problèmes plus importants soient résolus (tout d'abord l'exactitude des collisions).

3.6 : Evolution de la plateforme :

Les nouvelles instructions "SSE" introduites dans le Pentium III permettent d'envisager un doublement de la performance brute du programme (à fréquence d'horloge égale) avec peu de changements notables du code. Il faudrait tenir compte des tailles doublées des registres (128 bits au lieu de 64), de la configuration des MTRR et des instructions de gestion de la mémoire et des flux. Ces travaux sont déjà possibles mais seront encore plus faciles lorsque tout sera recodé avec GNL, et quand la plateforme (PIII) sera plus largement répandue (et moins chère). C'est donc une échéance de 1 à 2 ans.

4 : Applications

Avec des adaptations plus ou moins profodes, le programme FHP peut être utilisé dans de nombreux domaines :

4.1 : Acoustique :

Déjà utilisés dans ce domaine, les modèles de gaz sur réseaux (FHP, Bolzmann) ne sont pas encore très répandus malgré leur fort potentiel. Cela peut être résumé comme un problème d'"école", les chercheurs en acoustique étudiant les équations (directes) d'acoustique et non de mécanique statistique.

Les LGA sont très bien adaptés pour visualiser les ondes sonores et permettent des géométries arbitrairement complexes : elles surpassent les méthodes spectrales pour les cas non triviaux. Par exemple, ils sont utilisés pour étudier les turbulences autour des voitures, et donc déterminer et améliorer leur niveau de bruit aérodynamique (leur silence).

Les LGA peuvent permettre aussi d'effectuer des simulations d'instruments de musique. En l'absence d'interactions fluide/solide, les anche simples, doubles et lipales ne peuvent pas être simulées. Il reste cependant les vibrateurs de type "flï¿½te" (à biseau) qui peuvent être étudiés en attendant de meilleurs programmes. Ainsi, il sera possible d'étudier un instrument (pour l'instant en 2D) avec un PC suffisamment rapide, et de générer un son de flï¿½te véritablement réaliste, sans utiliser la moindre méthode de reproduction classique (analyse spectrale, analyser d'impédance du corps résonant, échantillonnage). Les applications en musique et en synthèse directe sont alléchantes. Le niveau de bruit des LGA boolï¿½ens comme FHP est toutefois trop important pour ce type d'applications, les modï¿½les en virgule flottante sont donc de rigueur pour ce type de problï¿½mes.

4.2 : Cryptographie :

Les LGA de type FHP ont des propriétés macroscopiques très intrigantes : contrairement àla majoritï¿½ des Automates Cellulaires classiques, ils ont la capacité de "décorrï¿½ler" un état initial et de le transformer en bruit "brownien" de manière fondamentalement non-linéaire. Le nombre de pas de temps dépend des propriétés du "signal" initial (configuration initiale des particules). Les gaz sur réseaux booléens sont donc très intéressants dans le domaine de la cryptographie, car ils sont potentiellement réversibles, ils sont peu compliqués à calculer, leur état initial est très difficile à retrouver en l'absence des paramètres du calcul et les possibilités d'utilisation sont très nombreuses. Ils peuvent être utilisés comme générateurs de nombres aléatoires ou comme "bruiteurs", avant ou après le calcul. Le brevet des cryptographie par automates cellulaires réversibles ne s'applique pas directement et le MIT travaille sur le sujet. L'efficacité pratique de cette technique reste à démontrer mais elle dépend principalement d'une utilisation judicieuse des LGA, donc l'efficacité potentielle se situe probablement entre DES et RSA. Même si ce n'est probablement pas une révolution pour la cryptographie, c'est un élément important parmi l'arsenal des techniques déjà disponible (courbes elliptiques, nombres premiers, transposition, substitution, permutation...) avec lequel il faudra dorénavant compter. Dans ce cadre, la vitesse de calcul est un élément absolument critique.

Il faut toutefois rester trï¿½s prudent dans ce domaine car aucun exemple n'a encore ï¿½tï¿½ cryptanalysï¿½. Malgrï¿½ leurs caractï¿½ristiques non linï¿½aires, leurs propriï¿½tï¿½s sont ï¿½tudiï¿½es depuis longtemps et ils disposent toujours d'une entropie caractï¿½ristique qui permet une attaque par les ï¿½quations de Bolzmann.

4.3 : Réalité Virtuelle / jeux vidéo :

L'accélération de l'algorithme permet d'envisager la simulation des phénomènes turbulents en "temps réel" ou même plus vite, ce qui est toutefois très subjectif selon le cas. Pour les jeux vidéo, où l'exactitude des calculs et la réalité scientifique des résultats importent peu, les gaz sur réseaux offrent une opportunité incomparable pour les mondes simulés. Les techniques courament utilisées sont des simplifications peu rigoureuses et parfois irréalistes (vent dans l'herbe, nuages de "plasma"...). Avec la montée en puissance des consoles de jeu vidéo, l'utilisation de LGA n'est plus qu'une formalité actuellement et pour le futur. Non seulement des phénomènes réalistes peuvent être visualisés, mais en plus les éléments (acteurs, objets) du jeu peuvent intéragir avec le phénomène. Actuellement, aucune application n'est envisagée dans ce domaine. Espérons que ce n'est qu'une "frilosité passagère" : l'effet de mode peut favoriser une utilisation et un développement très actifs dans ce domaine. Il "suffit" juste de lancer correctement l'idée.

4.4 : Education :

La simulation interactive de phénomènes de mécanique des fluides peut être aussi d'intérêt éducatif. En classes de physique et chimie, la disponibilité d'un "fluide virtuel" non nocif et parfaitement contrï¿½lable peut diminuer les risques de certaines expériences et permet donc aux élèves de manipuler eux-mêmes les produits. En classe de Technologie Industrielle, cela permet aussi de simuler des vérins hydrauliques ou des pompes avec un matériel moins encombrant, afin de tester des algorithmes de contrï¿½le de montée en charge de pompe ou de régulation par exemple.

4.5 : Industrie :

L'industrie commence timidement à adopter les gaz sur réseaux dans quelques domaines, pour des applications pratiques plus ou moins attendues. Le calcul "industriel" pour les carrosseries et les tuyauteries permet à la société EXA de s'imposer progressivement. De nombreux domaines sont encore en attente d'un miracle que les LGA peuvent produire dans la chimie (réactions d'advection/diffusion), le pétrole (stockage et infiltration dans les sables), la climatisation (où placer la bouche d'aération dans une pièce sans déranger les usagers ?), les peintures (viscosité et écoulements), les risques industriels (souffles d'explosions et écarts entre bâtiments), l'urbanisme (advection des gaz d'échappement), la propagation des flammes et de nombreux problèmes de tous les jours qui ne sont pas encore résolus de manière définitive par les méthodes classiques.

4.6 : Derniers mots sur les applications des LGA :

Aujourd'hui, les LGA ont fait l'objet de recherches scientifiques poussées dans des domaines où ils apportent un réel avantage par rapport à la dynamique moléculaire, aux techniques spectrales et aux équations classiques : le facteur dï¿½terminant est l'indï¿½pendance totale entre la complexitï¿½ du calcul et la complexitï¿½ des gï¿½omï¿½tries ï¿½tudiï¿½es.

Le premier domaine d'adoption concerne les fluides multiphases et la séparation des phases, la tension de surface, les fluides immiscibles, les interfaces solide/liquide/gaz. Ce domaine reste proche de la mï¿½canique statistique. L'image suivante reprï¿½sente une sï¿½paration de phase calculï¿½e par Rothman et Keller :

Un autre domaine qui bï¿½nï¿½ficie des avantages de LGA est l'infiltration et le mouillage en milieu poreux. Nous voyons sur l'image ci-contre l'infiltration de pï¿½trole (hydrophobe, orange, opaque) remplaï¿½ant de l'eau (bleue) dans un grain de sable de Fontainebleau, calculï¿½e en 3D par John Olson

Les LGA se sont montrés inadaptés pour les calculs aéronautiques à cause de la faible vitesse permise (< Mach 0,3) et du faible nombre de Reynolds. La simulation des allï¿½es de Von Karman est facile, comme nous avons pu le voir, mais l'explosion quadratique du temps de calcul rend les gaz sur rï¿½seaux classiques inadaptï¿½s pour des nombres de Reynolds supï¿½rieurs ï¿½ 10000. L'exemple d'EXA montre que des ordinateurs massivement parallï¿½les sont utilisï¿½s avec des temps de calcul similaires par les autres techniques. Les seuls avantages sont la plus gande finesse, la rï¿½solution dans le domaine temporel et la meilleure fiabilitï¿½ des rï¿½sultat, le temps de calcul n'est plus un critï¿½re dï¿½terminant.

5 : Limites du projet

Le modèle FHP3 a été plus difficile à implémenter que prévu, sa programmation nécessite des moyens sophistiquée et des connaissances solides qui sont très diffuses dans la bilbiographie classique. La technique prévue au départ pour l'équation booléenne n'a pas fonctionné (compilation VHDL puis GCC puis NASM) pour des raisons d'efficacité. Le travail a dû être effectué entièrement à la main, une nouvelle équation a été déduite à partir de zéro : cela a consommé la moitié du temps du projet qui s'est étalé sur deux ans. Le manque d'outils logiciels adaptés a aussi ralenti la progression.

Dans ces conditions, l'ambition initiale de "clore le sujet" n'a pu être atteinte, au contraire : ce travail a levé une grande quantité de questions de toutes sortes. Quelques-une ont été résolues mais la plupart est hors du domaine d'étude initial, elles sont plus théoriques ou trop complexes.

La limite du projet est surtout au niveau du temps d'étude car le sujet est inimaginablement vaste et peu de personnes travaillent actuellement dans ce domaine. L'autre limite, pratique, est très importante car le "budget" (matériel, financier) est quasiment inexistant (ce fut déjà une chance de disposer d'une plateforme biprocesseur). Enfin, les logiciels sont actuellement inadaptés à la tâche de programmation efficace en langage machine : beaucoup de temps a été investi dans le développement de techniques de programmation.

6 : Et maintenant ?

La première chose à faire est d'améliorer l'environnement de développement. Le projet GNL est l'aboutissement d'années de réflexion sur la pratique du codage en assembleur sur machines superscalaires. Les premiers fichiers sont écrits (l'interface et l'importation de fichiers C sont commencés) pour l'environnement Unix (le logiciel GNL est complétement portable). Il faut concevoir des API afin que de nombreux modules d'assistance au codage puissent communiquer avec l'utilisateur. Des modules d'entrée et de sortie doivent aussi être conï¿½us pour chaque langage et chaque processeur supporté.

Une fois qu'une version suffisamment complète de GNL sera prête, le programme de gaz sur réseaux de ce mémoire sera recodé, analysé, amélioré, porté et pourra accueillir les suggestions du début de ce chapitre. GNL ne se limite pas à ce projet de LGA, le but avoué est de remplacer une grande partie du codage textuel classique. Si on peut recoder entièrement le programme avec GNL et l'améliorer facilement, ce sera une sorte de première mise à l'épreuve du concept et permettra de l'appliquer à d'autres domaines sensibles : programmation de kernels de systèmes d'exploitations, de routines d'interruptions, de kernels de calculs, de moteurs d'IA ou de 3D pour les jeux vidéos, et même pourquoi pas pour le prototypage rapide d'algorithmes.

Enfin, à mesure que les processeurs superscalaires exécutent de plus en plus d'instructions en parallèle pour chaque cycle, il devient de plus en plus difficile de programmer des compilateurs pouvant extraire l'ILP d'un programme écrit en C. Les moyennes actuelles sont de l'ordre de trois instructions par cycle dans des conditions "idéales", ce qui est à la fois insuffisant pour augmenter substanciellement la performance des processeurs et trop compliqué pour les compilateurs. GNL expose le parallélisme d'un programme à de nombreux niveaux et permet donc de mieux profiter des processeurs futurs. GNL sera ainsi capable d'aider à l'adaptation du programme vers le Pentium II (les règles de pairage sont différentes).

Pour ce qui est des applications pratiques, le modèle FHP n'est pas aussi efficace pour des simulations à grands nombres de Reynolds. Je vais donc essayer d'appliquer mes connaissances et mes techniques dans le domaine des gaz sur réseaux non booléens comme le modèle Lattice Bolzmann ou BGK. Une voie de recherche à explorer est l'utilisation du modèle ILG (Integer Lattice Gas, sorte de compromis entre Bolzmann et FHP) avec un système de numération logarithmique (nombres entiers différent de Base-2, plus simples que les nombres en virgule flottante). La parallélisation de ce travail permettrait de simuler de larges systèmes efficacement, c'est l'objet du projet beo-kragen (beowulf de Kragen Sitaker).

Ressources bibliographiques

Si une thèse peut être consultée à Jussieu, sa référence est fournie.

[1] Bernard Ourghanlian "Les microprocesseurs Alpha" InterEditions, 1995, ISBN 2 7296 0565 7
Excellente introduction à ce processeur révolutionnaire, écrite en français par le directeur de développement de Digital. Ce n'est pas une documentation technique pure, car elle explique aussi le pourquoi du comment de chaque aspect et de chaque décision de la conception du modèle de programmation. Bon livre sur l'architecture RISC du futur.
[2] Henri Lilen - René-Véran Honorat "Microprocesseurs PowerPC" ed. Dunod, 1995, ISBN 2 10 002464 7
Ecrit en francais, ce livre présente le modèle de programmation de la famille PowerPC et s'attarde sur les membres commercialisés avant la sortie du livre. Plusieurs techniques architecturales sont expliquées comme l'exécution dans le désordre, mais la suite est plutï¿½t une traduction des documents anglais. On comprend donc le PPC sans vraiment en savoir plus...
[3] David A Patterson - John L Hennessy "Computer Organisation & Design: the hardware/software interface", Morgan Kaufmann, 1994, ISBN 1 55860 282 8
C'est LE "Patterson & Hennessy", qui explique clairement les fondements de l'architecture des presque tous les ordinateurs. Il raconte leurs aléas et leurs avancées et permet de mieux comprendre l'importance de la relation entre le logiciel et le matériel qui le fait tourner, en fonction de leur rapport performance/prix.
Il ne faut pas confondre ce livre avec leur précédent ouvrage "A quantitative approach" (le "QA") qui le précède.
[4] Gilles Deghilage "Architectures et programmation parallèles", Addison-Wesley, 1992, ISBN 2087908 023 1
"Approche pratique en environnement scientifique sur multiprocesseurs Silicon Graphics", ou comment tirer le meilleur de architectures MIMD, des compilateurs, des algorithmes... Les aspects théoriques et pratiques sont abordés et les résultats sont comparés aux autres plateformes existantes. Il introduit dans leur contexte les techniques de parallélisation de code comme le strip mining.
[5] Hans-Peter Messmer "Pentium et compagnie", Addison-Wesley, 1994, ISBN 2 87908 074 6
Bien qu'entaché de quelques erreurs et plein de détails inutiles, l'intérêt de ce gros livre est de présenter sous toutes ses coutures le monstre CISC de 3 millions de transistors, ainsi que ses relations avec ses voisins directs: contrï¿½leur de cache, de mémoire, de bus PCI... Cette synthèse met le doigt sur énormément d'aspects, électroniques, architecturaux ou de programmation, qui sont nécessaires pour développer efficacement, mais il vaut mieux se référer aux constructeurs et aux sites x86.org et PCguide.com pour avoir une information plus fiable.
[6] Alfred Aho - Ravi Sethi - Jeffrey Ullman et al. "Compilateurs : principes, techniques et outils", InterEditions, 1989, ISBN 2 7296 0295 X
Le "dragon book", c'est la raison pour laquelle je n'utilise pas de compilateur. C'est aussi la raison pour laquelle j'en utilise un. Seulement, je sais maintenant quand je peux m'y fier. Accessoirement, permettrait de faire un compilateur optimiseur pour le PII en MMX si cela en valait la peine...
[7] Michael Abrash "Le Zen de l'optimisation du code", Sybex, ISBN 2-7361-2128-7
Devrait être lu par toute personne considérant coder "correctement", bien que l'aspect "assembleur" puisse repousser les habitués du "tout C". Quand on va à la chasse à la performance, "on ne fait pas d'omelette sans casser d'oeufs", et l'auteur nous apprend à faire enfin fonctionner le merveilleux compilateur qui est entre nos deux oreilles. En plus, ce livre est facile à lire.
[8] Ronald J. Tocci "Circuits Numériques : théorie et applications", Dunod, 1992, ISBN 2-10-001576-1
Présente entre autres les techniques de base de simplification manuelle d'équations booléennes. Malheureusement insuffisant avec plus de 5 ou 6 variables d'entrée et plus d'une variable en sortie. De plus, l'analyse se réduit aux sommes de produits alors qu'on dispose souvent du XOR.
[9] Daniel H. Rothman et Stéphane Zaleski "Lattice-gas cellular automata", Collection Aléa Saclay, Cambridge University Press, 1997, ISBN 0-521-55201-X
Sous-titré "Simple models of complex hydrodynamics", ce livre anglais de physique statistique est écrit par deux spécialistes et fournit des bases importantes sur la théorie des gaz sur réseaux. Après un exposé complet, les domaines de recherche des auteurs transparaissent dans l'étude des infiltrations des milieux poreux et de la transition de phase. Niveau doctorat.
[10] Valérie Guimet "Analyse numérique et simulation de problèmes d'interaction fluide-structure en régime incompressible", thèse soutenue le 20 octobre 1998
Cette thèse pour le doctorat de Mathématiques Appliquées de l'université Paris VI explique des méthodes classiques de simulation de couplage entre des objets déformables (en 1D et 2D) et des fluides turbulents (en 2D et 3D). Bien que le domaine du calcul intensif soit abordé (ressources informatiques de l'ONERA), aucune explication pratique n'est donnée.
[11] Jean-Pierre Rivet "Hydrodynamique par la méthode des gaz sur réseaux", thèse #88NICE4215 en Mécanique fondamentale et appliquée
Dirigée par Uriel Frisch, cette thèse communique une grande somme de connaissances théoriques (par l'explication des modèles) et pratiques (par l'explication des algorithmes) sur les gaz sur réseaux bi et tridimensionnels. Le RAP-1 est décrit mais surtout des simulations tridimensionnelles sur CRAY-2 sont effectuées et expliquées. Pas de code source pourtant mais un intérêt certain pour l'efficacité.
[12] Pierre Audibert "Méthodes de grille pour le traitement des problèmes de mécanique des fluides", mémoire de maitrise de l'université Paris 8
Cet exposé présente clairement 3 méthodes différentes avec explications et programmes sources commentés. Bien que le modèle FHP soit utilisé en dehors de ses limites, le mémoire montre clairement les avantages et inconvénients pratiques et théoriques de chaque approche (les équations différentielles classiques et la méthode des tourbillons sont aussi présentées). L'efficacité est implicitement limitée par la plateforme (compatible PC sous MS-DOS, programmé en Turbo C).
[13] Yue Hong Qian "Gaz sur réseaux et théorie cinétique sur réseaux appliquée à l'équation de Navier-Stockes", thèse #90PA06 658 de mécanique et physique statistique
Dirigée par D. d'Humières et P. Lallemand, cette thèse commence par l'étude spectrale d'un gaz sur réseau unidimensionnel pour extrapoler vers 2 dimensions (FHP, D2Q9 etc) puis 3 dimensions (FCHC et similaires). L'intérêt est principalement de consolider et d'explorer les travaux théoriques effectués 5 ans plus tï¿½t.
[14] Umberto d'Ortona "Hydrodynamique et Gaz sur réseau", thèse
Explication claire, malgré quelques détails ambigus, des gaz sur réseau classiques dans les premiers chapitres. Les néophytes aprécieront de pouvoir comprendre certains détails et les solutions apportées. La thèse étudie entre autres les phénomènes de capillarité (interfaces entre une goutte d'eau et un autre fluide).
[15] Valérie Pot "Etude Microscopique du transport et du changement de phase en milieu poreux par la méthode des gaz sur réseaux", thèse #94PA06 233
Ces travaux font l'objet d'un chapitre entier dans le livre de Stéphane Zaleski. Beaucoup de formules et pas de code.
[16] Stéphane Zaleski "Les transitions de phase calculées", Pour la science #183, janvier 1993
Article de présentation (2 pages) annonçant les résultats encourageants de recherches sur la transition de phase en 3D, améliorant les techniques présentées par Jean-Pierre Rivet et pour des règles d'interaction non locales.
[17] Bernard Derrida "Dynamique d'un gaz sur réseau", Pour la science #184, février 1993
Cette "récréation informatique" présente un algorithme 2D pour simuler l'évaporation ou la condensation d'une goutte d'eau. Rien de commun avec FHP mais il simule une transition de phase (liquide/gaz) sans utiliser les intéractions non locales utilisées par Zaleski, ce qui fait de cet automate cellulaire une alternative intéressante.
[18] Pierre Lallemand "Les gaz sur réseau : un nouveau médium pour le calcul des écoulements", Revue du Palais de la Découverte, avril 1987, vol. 15, numéro 147
C'est cet article qui m'a fait découvrir le domaine des LGA. La théorie y est exposée ludiquement et le modèle FHPII est succintement expliqué, suggestivement mais sans aider pour la programmation pratique. En particulier les règles de collisions sont expliquées mais la mise en pratique n'est pas évidente (création de la table des collision).
[19] U. Frisch, B. Hasslacher, Y. Pomeau "Lattice gas automata for the Navier-Stockes equation", Physical Review Letters, 7 avril 1986, vol.56, pp 1505-1508.
C'est l'article de référence cité par tout papier ou document portant sur les gaz sur réseaux. Appelé dans cet article "HLG" pour "Hexagonal Lattice Gas", le modèle présenté retiendra les initiales des auteurs pour la postérité. Le passage du modèle HPP (carré) au voisinage hexagonal est expliqué, trois règles de collisions sont introduites (frontale, triangulaire et avec particule immobile) et il est prouvé que cela est suffisant pour correspondre aux équations de Navier-Stockes. Pas de code mais l'existence de calculateurs dédiés est évoquée (RAP-1 ?)
[20] Gary Doolen (éditeur) "Lattice gas methods for partial differential equations", Santa Fe Institute, Studies in the sciences of complexity, Addison-Wesley 1990, ISBN 0-201-15679-2 ou 0-201-13232-X
Probablement l'un des ouvrages les plus intéressants qui existe. Tous les acteurs du domaine de la première décade sont présents dans cette collection de papiers, traitant de tous les domaines, pratiques et théoriques. Par exemple on y trouve le modèle FHP4, sur 8 bits, qui restaure l'invariance galliléenne (en ralentissant le fluide). La variété des points de vue et des sujets abordés rend sa consultation impérative, mais pourtant il n'y a pas de code.
[21] J. A. Somers & P. C. Rem "Obtaining numerical results from the 3D FCHC lattice gas" dans Lecture Notes in Physics, T. M. M. Verheggen (ed.), "Numerical methods for the simulation of multi-phase and complex flows" (1990) Springer-Verlag, ISBN 0-387-55278-2
Les auteurs proposent une amélioration de la technique de J. P. Rivet pour réduire la taille de la table des collisions du modèle FCHC par une analyse poussée des 1152 isométries des collisions : la table contient seulement 106496 entrées mais le code Pascal est assez complexe. Performance de 2Mc/s sur un Transputer à 400 noeuds.
[22] Jean-Christophe Culioli "Introduction ï¿½ l'optimisation" (1994) Ed. Marketing/Ellipses, ISBN 2-7298-9428-4, ref 519.8 CUL
Sous-titre : "Analyse numï¿½rique de systï¿½mes complexes". Prï¿½sente les techniques de Newton-Raphson, de dichotomie, de programmation linï¿½aire et dynamique.

Autres papiers :

[23] Christopher Adler, Bruce M. Boghosian, Eirik G. Flekkoy, Norman Margolus, Daniel H. Rothman : "Simulating Three-Dimensional Hydrodynamics on a Cellular-Automata Machine"
à paraître dans Journal of Statistical Physics (1995)
rï¿½fï¿½rence preprint : chaos-dyn/9508001 ou comp-gas/9508001
[24] Quian et.al. : Lattice BGK Models for Navier-Stokes Equation,
Europhys.Lett., 17 (6), pp. 479-484 (1992)
[25] Norman Margolus : "Integer Lattice Gases",
Phys. Rev. E 55 (April, 1997) 4137-4147.
[26] Ales Alajbegovic, Chris Teixeira, David Hill, Andrew Anagnost, Sudheer Nayani and Ram Iyer : "The study of benchmark laminar flows using DIGITAL PHYSICS"
1997 ASME Fluids Engineering Division Summer Meeting, FEDSM'97,
June 22-26, 1997, FEDSM97-3648
[27] Jean-Pierre Boon, Uriel Frisch et Dominique d'Humiï¿½res : "L'hydrodynamiqe modï¿½lisï¿½e sur rï¿½seau"
dans La Recherche nï¿½ 253, avril 1993, volume 54, pages 390-399.
[28] Dominique d'Humiï¿½res, Pierre Lallemand : "Numerical simulations of hydrodynamics with Lattice Gas Automata in two dimensions"
dans Complex Systems 1 (1987) 599-632
[29] Dominique d'Humiï¿½res, Pierre Lallemand, Geoffrey Searby : "Numerical experiments on Lattice Gases : mixtures and galilean invariance"
dans Complex Systems 1 (1987) 633-647
[30] Norman Margolus (+?) : "An embedded DRAM architecture for large-scale spatial-lattice computations" (1999)
ï¿½ paraï¿½tre (?)
[31] Kristian Lindgren, Cristopher Moore et Mats G. Nordahl "Predicting Lattice Gases is P-complete"
Santa Fe Institute Working Paper 97-04-034.
[32] D. d' Humières and P. Lallemand : "Numerical simulations of hydrodynamics with lattice gas automata in two dimensions."
dans Complex Systems, 1:599, 1987.
[33] "GA-586ATE users manual, 1st edition"
manuel de carte mï¿½re pour PC, 1995.
[34] Intel : "Pentium II Processor Developper's Manual"
rï¿½fï¿½rence 243502-001, octobre 1997
[35] Bruce M. Boghosian, Jeffrey Yepez, Francis J. Alexander, Norman H. Margolus : "Integer Lattice Gases"
comp-gas 9602001 (15 fevrier 1996)
mise ï¿½ jour le 22 novembre 1998
[36] "Benchmark for the simulation of the incompressible flow around a cylinder", 1996
http://gaia.iwr.uni-heidelberg.de/~ture/papers.html
ou in Flow Simulation with High-Performance Computers II,
Notes on Numerical Fluid Mechanics, Vol 52, Vieweg 1996

[37] J. Hardy, Y. Pomeau & O. de Pazzis : "Time evolution of two-dimensional model system. I. Invariant states and time correlation functions", 1973
J. Math. Phys. 14, pp. 1746-1759.
[38] Fung Funh Lee : "A Scalable Computer Architecture for Lattice Gas Simulations", 1993
Technical Reports : CSL-TR-93-576
dï¿½crit "ALGE", un "superordinateur SIMD"
Mï¿½moire de Doctorat de Philosphie, Universitï¿½ de Stanford, dï¿½partements EE/CS

[39] Intel : "Intel Architecture Software Developerï¿½s Manual Volume 2: Instruction Set Reference", 1999
24319102.pdf
[40] Kohring, G.A. "Parallelization of short- and long-range cellular automata on scalar, vector, SIMD and MIMD machines" 1991
Inter. Jour. Modern Phys. 2, 755-772.
[41] Brosa, U. and Stauffer, D. "Vectorized multisite coding for hydrodynamic cellular automata" 1989
Jour. Stat. Phys. 57, 399-403.

Liens

Aujourd'hui une grande partie de l'information scientifique circule sur le Web, pour des raisons de coï¿½ts et de facilité d'accès. Une bibliographie est donc incomplète et il faut mentionner les très nombreuses ressources en ligne que l'on peut trouver plus ou moins par hasard, et qui ont été accumulées dans les "bookmarks" du navigateur.

Pour des raisons évidentes, les URL collectionnées ici ne sont ni exhaustives ni garanties pour leur fraîcheur, puisque le travail présenté dans le mémoire a commencé vers 1995, au début de l'émergence d'Internet comme média pour le grand public. Internet était cependant déjà utilisé et très utile pour la communauté des chercheurs sur les LGA et on peut remarquer que les sites comme les pratiques ont peu changé. Les URL ont été vérifiées en mai 2000 et on peut penser que la plus grande partie sera valable encore pendant plusieurs années.

Programmation PC et architecture :

Usenet :
news:comp.lang.asm.x86 (ou "clax")
C'est là que les "hackeurs", les "demo makers" et autres "code gurus" apprennent à écrire leurs premières lignes de code en assembleur, configurer les registres de la carte vidéo, lire et contrï¿½ler les périphériques. C'est ce newsgroup qui a engendré le travail coopératif sur NASM. Le "rapport signal/bruit" et le niveau peu avancé fait qu'on se tourne ensuite rapidement vers d'autres ressources plus pointues comme news:comp.arch.

[email protected] :
la "pmode-l", mailing list dédiée à la programmation avancée en mode protégé. On y apprend à passer en mode protégé "à la main" ou à profiter des trous de sécurité d'un certain système propriétaire grand public. Plus sérieusement, c'est un point de rencontre de tous les développeurs de kernel.

http://www.cryogen.com/Nasm/
Le site officiel de NASM, l'assembleur fait par et pour les gens qui programment les x86 en assembleur.

Contributeurs de NASM et autres gurus de la programmation en assembleur (ne sont ici que les meilleurs) :

http://www.geocities.com/SiliconValley/Peaks/8600/device.html,

http://www.erols.com/johnfine/ : John S. Fine" ([email protected])

Alex Verstak ([email protected])

http://bphantom.hypermart.net/ : "Black Phantom" ([email protected])

http://www.azillionmonkeys.com/qed/asm.html : Paul Hsieh ([email protected])

http://www.azillionmonkeys.com/qed/cpujihad.shtml : la jihad des CPU de 7ème génération

http://www.azillionmonkeys.com/qed/optimize.html : discussion sur la supériorité du codage en assembleur

http://www.azillionmonkeys.com/qed/p5opt.html : astuces de codage pour le Pentium par Paul Hsieh

Terje Mathisen ([email protected]) (voir sur comp.arch)

http://www.x86.org/,
http://www.sandpile.org/ :
ressources indépendantes sur les architectures x86 (à consulter absolument avant de programmer !)

http://www.ddj.com/ftp/ :
Dr. Dobb's Source Code archive : plein de morceaux croustillants !

http://www.simtel.net/simtel.net/msdos/index-msdos.html et http://oak.oakland.edu/simtel.net/ :
Simtel.net FTP shareware archive (certains avec source commentés)

http://www.agner.org/assem :
Les précieux conseils d'Agner Fog

http://www.cs.virginia.edu/stream/ :
John McCalpin ([email protected]) développe depuis 1991 le benchmark STREAM, permettant de comparer des architectures de manière totalement objective : en mesurant la bande passante de la machine, disponible à partir de sources en C non optimisés. On dispose ainsi non pas de la puissance de "crête" mais de la puissance "brute" du système, celle qu'un utilisateur moyen accède dans la pratique.

http://www.senet.com.au/~cpeacock :
page de Craig Peacock sur la programmation des interfaces et périphériques (PDF et HTML pour contrï¿½ler le port parallèle, le clavier, la souris, le port USB, les interruptions...)

http://www.cs.wisc.edu/~glew/ :
Andy Glew ([email protected]), impliqué dans l'acceptation du MMX par Intel et dans le coeur du P6, est une des figures de comp.arch. Ses opinions sur la programmation et les architectures des ordinateurs le placent en opposition de la culture "Patterson & Hennessy". Oui, il y a quelqu'un de compétent travaillant pour Intel... Si au moins il était écouté !

http://research.microsoft.com/~gbell/Computer_Structures__Readings_and_Examples/contents.html :
Gordon Bell (qui a créé le prix du même nom) a mis en ligne un de ses livres, introuvable actuellement, qui est une sorte de pierre de Rosette pour la paléoinformatique comparée. L'histoire des ordinateurs et l'étude de nombreux cas devrait être un module obligatoire dans une formation d'informaticien !

http://www.cs.cmu.edu/afs/cs/user/ralf/pub/WWW/files.html :
Ralph Brown a créé et entretenu LA référence sur l'architecture logicielle des PC, en réunissant et en documentant des milliers d'appels systèmes de MSDOS et d'autres logiciels similaires (Windows, TSR, Virus, utilitaires, DOS-extenders...). Indispensable.

Intel:
http://developer.intel.com/drg/pentiumii/appnotes/index.htm : Notes d'applications pour le PentiumII.
http://developer.intel.com/design/pentiumII/manuals/243502.htm : Manuel du développeur pour le PentiumII
http://developer.intel.com/design/mmx/manuals/ : Manuels pour développer avec les instructions MMX

VESA :
http://www.monstersoft.com/tutorial1/VESA_info.html
http://mirriwinni.cse.rmit.edu.au/~steve/vbe/vbe20.htm :
"VESA BIOS EXTENSION(VBE) Core Functions with DJGPP Code" ou comment accéder aux modes vidéo haute résolution en assembleur...

http://www.gdsoft.com/swag/downloads.html :
"SWAG" pour "SourceWare Archive Group", plein d'algorithmes et d'utilitaires pour Turbo Pascal/PC. Un des derniers vestiges de la culture "shareware" et "BBS". Au lieu de réinventer la roue, il suffit de la copier :-)

http://www.phoenix.gb.net/x86/ :
Page de Win32NASM, pour programmer en assembleur sous Windows, mais en mieux !

Automates cellulaires et Gaz sur Réseau :

Usenet :
news:comp.theory.cell-automata et news:comp.theory.dynamic-sys

http://www.cs.runet.edu/~dana/ca/cellular.html :
Page dédiée aux automates cellulaires et à Cellang

Page de Bruce Boghossian, travaillant pour Thinking Machines Corp (avant sa fermeture) et responsable de la CA-list
http://physics.bu.edu/~bruceb/
http://physics.bu.edu/~bruceb/MolSim/ : "Mesoscale Modeling of Amphiphilic Fluid Dynamics" (transition de phase en 3D)

Homepage d'Oleh Baran, travaillant sur les LGA :
http://www.physics.mcgill.ca/WWW/oleh/Welcome.html

pre-print archive :
Avant d'être envoyés à des publications périodiques sur papier, les chercheurs soumettent leurs papiers à ces sites permettant d'effectuer des recherches documentaires sur des sujets pointus. Les serveurs sont souvent chargés car les documents comme les pages sont générés à la volée à partir d'une base de donnée et transformés en une grande variété de formats (PS, PDF, DOC etc) avant d'être transférés.
http://www.arc.umn.edu/publications/preprints/, http://xyz.lanl.gov, http://xxx.lanl.gov/archive/cond-mat
miroir à Jussieu :
http://xxx.lpthe.jussieu.fr, http://fr.arXiv.org/, http://fr.arXiv.org/find/cond-mat/

http://www.ph.ed.ac.uk/~jmb/thesis/tot.html :
thèse de James M. Buick, calculant FHP-3 sur une CM200 à Edinburgh.

http://poseidon.ulb.ac.be/lga.html :
"CNLPCS: Unité Automates de Gaz sur Réseau". L'Université Libre de Bruxelles a un département actif dans le domaine des gaz sur réseaux, les systèmes dynamiques, non linéaires et adaptatifs.

Site web de la CAM8 :
http://www-im.lcs.mit.edu/
http://www.im.lcs.mit.edu/broch/ (quelques exemples hauts en couleurs)

http://zanzibar.mit.edu/ (serveur sporadiquement éteint)
dédié aux applications géophysiques des LGA (infiltration dans les roches etc)

http://www.wizard.com/~hwstock/saltfing.htm
Exposé des travaux de Haarlan Stockman. C'est probablement le seul scientifique qui soit aussi impliqué dans la vitesse de son code, car c'est aussi un codeur système engagé (il a écrit pour la première fois un code de calcul de l'ensemble de Mandelbrot en virgule fixe pour 386 en 1986, paru au Doctor Dobb's Journal)

http://www.fuji-ric.co.jp/complex/complex/LGA/result/flatplate.html : (en japonais)
"Behind Flat Plate Flow", travaux des laboratoires Fuji au Japon : même les Japonais utilisent les LGA !

http://www.tele.unit.no/akustikk/person/kristiansen/sudosparrow.html
"The Sudo/Sparrow lattice gas model" : application des LGA à l'acoustique.

http://www.obs-nice.fr/cassini/HTML_FR/rivet.html
"NON-LINEAR DYNAMICS AND TURBULENCE APPLIED TO FLUIDS IN ASTRO- AND GEO-PHYSICS"
L'observatoire de Nice a été parmi les premiers laboratoires, avec l'Ecole de Physique-Chimie de Paris, à travailler sur les modèles "FHP" et "FCHC" vers 1980. Ils ont activement participé à l'élaboration et à la validation de la théorie FHP (voir thèse 1982 à Jussieu).

http://www.tu-bs.de/institute/WiR/weimar/ZAscript/ :
"Simulation with Cellular Automata" par Jï¿½rg Weimar, une étude générale des possibilités et des recherches sur les automates cellulaires.

http://www.exa.com :
Spinoff du MIT, exploite une version contestée de Lattice Bolzman en 3D pour des applications industrielles. En pratique les résultats sont à la hauteurs des milliers d'heures-CPU qui sont souvent nécessaires à une simulation à grand nombre de Reynolds...

http://amber.aae.uiuc.edu/~m-selig/ads/coord_database.html
"UIUC Airfoil Coordinates Database" : base de donnée de profils vectoriels d'ailes d'avions. J'y ai contribué avec un repackaging des données avec visualisation sous X et MSDOS.

Divers :

http://www.santafe.edu/~moore/ :
page de l'auteur de : ``Predicting Lattice Gases is P-complete'' (avec Mats Nordahl) Santa Fe Institute Working Paper 97-04-034.
http://umunhum.stanford.edu/~morf/lattice.gas/lattice.gas.html
Lien vers la thèse de Fung Fung Lee ([email protected]), "A Scalable Computer Architecture for Lattice Gas Simulations", Ph.D. dissertation, Dept. of Electrical Engineering, Stanford University, Mai 1993.
http://www.cfd-online.com/Resources/docs.html
Nombreux liens vers des ressources en ligne classiques et professionnelles.
http://www.aoe.vt.edu/aoe/courses/webteach.html
Tout pour la mécanique classique appliquée à l'aéronautique !
http://www.aoe.vt.edu/aoe3114/calc.html
Calculatrice en Java pour étudier les phénomènes de mécanique des fluides "classique".
http://www5.informatik.tu-muenchen.de/forschung/visualisierung/praktikum.html (allemand)
L'université de Mï¿½nich a étudié les LGA au département de calcul intensif et de visualisation scientifique, cette page propose des films MPEG des simulations qu'ils ont effectué. Merveilleux.
http://raphael.mit.edu:80/Java/ : "the Java Virtual Wind Tunnel" ou la première expérience de mécanique des fluides intéractive sur Internet. Idéal aussi comme jeu ou pour tester la stabilité de Netscape : les codes (Euler, classiques) "explosent" parfois.

	
		OSZAR »

modï¿½le	FHP-1	FHP-2	FHP-3
Cs (vitesse du son en site par cycle)
g
f* (densitï¿½ idï¿½ale, en occupation du site)	0,187	0,179	0,285
Re* (Nombre maximal de Reynolds par site ï¿½ la densitï¿½ idï¿½ale)	0,387	1,08	2,22

Elï¿½ments finis : (extrait de [36])	FHP-3: (ULB, David Hanon, rï¿½seau de 800*200, Mach 0,45 et densitï¿½=0,28)
	t=0 t=100 t=7000

Pentium MMX :	Pentium II :
* jusqu'ï¿½ 2 instructions dï¿½codï¿½es par cycle * 2 caches internes (donnï¿½es et instructions) de 16 Ko * bus mï¿½moire externe : Socket 7 ï¿½ 66MHz (comme les Pentium ï¿½ 100 MHz)	* jusqu'ï¿½ 3 instructions dï¿½codï¿½es par cycle et traduites en 6 micro-instructions (ï¿½ops). * 2 caches internes (donnï¿½es et instructions) de 16 Ko et cache transactionnelle de 256Ko dans le module * bus mï¿½moire externe : Slot 1 ï¿½ 66MHz puis 100 et 133MHz, transactionnel


Ecoulement aprï¿½s 528 pas de temps : la deuxiï¿½me chambre se remplit lentement et les artefacts hexagonaux sont visibles.	T = 4501 : le flux commence ï¿½ se distordre.	T = 6010

T = 6316	T = 6931 : le flux est moins marquï¿½, noyï¿½ dans le bruit.	T = 8089 : la pression et la vitesse sont favorables pour faire disparaitre les artefacts hexagonaux mais le contraste est trop faible pour distinguer les ï¿½coulements.

type	avantage(s)	inconvénient(s)
tableau 2D d'octets (LUT, multisite) (chapitre III.4)	simplicité de progammation/compréhension, adapté pour les ordinateurs 8/16 bits (ex.: i286)	sous-efficace pour les microprocesseurs récents (mots large, coeurs OOO, occupation de la cache...)
tableau 2D de mots / 4 sites sur 32 bits (multisite à traitement parallèle) (chapitre III.6)	plus efficace pour les coeurs 32 bits (i386-486-P53C), moins d'instructions pour le mouvement de bits individuels	plus de manipulations d'octets individuels, donc plus contraignants pour les coeurs récents
multispin entrelacé dans un tableau (chapitre IV.4)	convient le mieux aux microprocesseurs modernes (registres larges, OOO, cache sur la puce)	complexe (mais ce mï¿½moire montre que c'est possible)
multispin (equation booléenne) sur plusieurs tableaux séparés	convient naturellement aux calculateurs vectoriels	nécessite trop de pointeurs (pression sur les registres et le compilateur pour les processeurs classiques, mauvaise localité spatiale, risque de cache thrashing avec certaines granularités)

[1]	Bernard Ourghanlian "Les microprocesseurs Alpha" InterEditions, 1995, ISBN 2 7296 0565 7 Excellente introduction à ce processeur révolutionnaire, écrite en français par le directeur de développement de Digital. Ce n'est pas une documentation technique pure, car elle explique aussi le pourquoi du comment de chaque aspect et de chaque décision de la conception du modèle de programmation. Bon livre sur l'architecture RISC du futur.
[2]	Henri Lilen - René-Véran Honorat "Microprocesseurs PowerPC" ed. Dunod, 1995, ISBN 2 10 002464 7 Ecrit en francais, ce livre présente le modèle de programmation de la famille PowerPC et s'attarde sur les membres commercialisés avant la sortie du livre. Plusieurs techniques architecturales sont expliquées comme l'exécution dans le désordre, mais la suite est plutï¿½t une traduction des documents anglais. On comprend donc le PPC sans vraiment en savoir plus...
[3]	David A Patterson - John L Hennessy "Computer Organisation & Design: the hardware/software interface", Morgan Kaufmann, 1994, ISBN 1 55860 282 8 C'est LE "Patterson & Hennessy", qui explique clairement les fondements de l'architecture des presque tous les ordinateurs. Il raconte leurs aléas et leurs avancées et permet de mieux comprendre l'importance de la relation entre le logiciel et le matériel qui le fait tourner, en fonction de leur rapport performance/prix. Il ne faut pas confondre ce livre avec leur précédent ouvrage "A quantitative approach" (le "QA") qui le précède.
[4]	Gilles Deghilage "Architectures et programmation parallèles", Addison-Wesley, 1992, ISBN 2087908 023 1 "Approche pratique en environnement scientifique sur multiprocesseurs Silicon Graphics", ou comment tirer le meilleur de architectures MIMD, des compilateurs, des algorithmes... Les aspects théoriques et pratiques sont abordés et les résultats sont comparés aux autres plateformes existantes. Il introduit dans leur contexte les techniques de parallélisation de code comme le strip mining.
[5]	Hans-Peter Messmer "Pentium et compagnie", Addison-Wesley, 1994, ISBN 2 87908 074 6 Bien qu'entaché de quelques erreurs et plein de détails inutiles, l'intérêt de ce gros livre est de présenter sous toutes ses coutures le monstre CISC de 3 millions de transistors, ainsi que ses relations avec ses voisins directs: contrï¿½leur de cache, de mémoire, de bus PCI... Cette synthèse met le doigt sur énormément d'aspects, électroniques, architecturaux ou de programmation, qui sont nécessaires pour développer efficacement, mais il vaut mieux se référer aux constructeurs et aux sites x86.org et PCguide.com pour avoir une information plus fiable.
[6]	Alfred Aho - Ravi Sethi - Jeffrey Ullman et al. "Compilateurs : principes, techniques et outils", InterEditions, 1989, ISBN 2 7296 0295 X Le "dragon book", c'est la raison pour laquelle je n'utilise pas de compilateur. C'est aussi la raison pour laquelle j'en utilise un. Seulement, je sais maintenant quand je peux m'y fier. Accessoirement, permettrait de faire un compilateur optimiseur pour le PII en MMX si cela en valait la peine...
[7]	Michael Abrash "Le Zen de l'optimisation du code", Sybex, ISBN 2-7361-2128-7 Devrait être lu par toute personne considérant coder "correctement", bien que l'aspect "assembleur" puisse repousser les habitués du "tout C". Quand on va à la chasse à la performance, "on ne fait pas d'omelette sans casser d'oeufs", et l'auteur nous apprend à faire enfin fonctionner le merveilleux compilateur qui est entre nos deux oreilles. En plus, ce livre est facile à lire.
[8]	Ronald J. Tocci "Circuits Numériques : théorie et applications", Dunod, 1992, ISBN 2-10-001576-1 Présente entre autres les techniques de base de simplification manuelle d'équations booléennes. Malheureusement insuffisant avec plus de 5 ou 6 variables d'entrée et plus d'une variable en sortie. De plus, l'analyse se réduit aux sommes de produits alors qu'on dispose souvent du XOR.
[9]	Daniel H. Rothman et Stéphane Zaleski "Lattice-gas cellular automata", Collection Aléa Saclay, Cambridge University Press, 1997, ISBN 0-521-55201-X Sous-titré "Simple models of complex hydrodynamics", ce livre anglais de physique statistique est écrit par deux spécialistes et fournit des bases importantes sur la théorie des gaz sur réseaux. Après un exposé complet, les domaines de recherche des auteurs transparaissent dans l'étude des infiltrations des milieux poreux et de la transition de phase. Niveau doctorat.
[10]	Valérie Guimet "Analyse numérique et simulation de problèmes d'interaction fluide-structure en régime incompressible", thèse soutenue le 20 octobre 1998 Cette thèse pour le doctorat de Mathématiques Appliquées de l'université Paris VI explique des méthodes classiques de simulation de couplage entre des objets déformables (en 1D et 2D) et des fluides turbulents (en 2D et 3D). Bien que le domaine du calcul intensif soit abordé (ressources informatiques de l'ONERA), aucune explication pratique n'est donnée.
[11]	Jean-Pierre Rivet "Hydrodynamique par la méthode des gaz sur réseaux", thèse #88NICE4215 en Mécanique fondamentale et appliquée Dirigée par Uriel Frisch, cette thèse communique une grande somme de connaissances théoriques (par l'explication des modèles) et pratiques (par l'explication des algorithmes) sur les gaz sur réseaux bi et tridimensionnels. Le RAP-1 est décrit mais surtout des simulations tridimensionnelles sur CRAY-2 sont effectuées et expliquées. Pas de code source pourtant mais un intérêt certain pour l'efficacité.
[12]	Pierre Audibert "Méthodes de grille pour le traitement des problèmes de mécanique des fluides", mémoire de maitrise de l'université Paris 8 Cet exposé présente clairement 3 méthodes différentes avec explications et programmes sources commentés. Bien que le modèle FHP soit utilisé en dehors de ses limites, le mémoire montre clairement les avantages et inconvénients pratiques et théoriques de chaque approche (les équations différentielles classiques et la méthode des tourbillons sont aussi présentées). L'efficacité est implicitement limitée par la plateforme (compatible PC sous MS-DOS, programmé en Turbo C).
[13]	Yue Hong Qian "Gaz sur réseaux et théorie cinétique sur réseaux appliquée à l'équation de Navier-Stockes", thèse #90PA06 658 de mécanique et physique statistique Dirigée par D. d'Humières et P. Lallemand, cette thèse commence par l'étude spectrale d'un gaz sur réseau unidimensionnel pour extrapoler vers 2 dimensions (FHP, D2Q9 etc) puis 3 dimensions (FCHC et similaires). L'intérêt est principalement de consolider et d'explorer les travaux théoriques effectués 5 ans plus tï¿½t.
[14]	Umberto d'Ortona "Hydrodynamique et Gaz sur réseau", thèse Explication claire, malgré quelques détails ambigus, des gaz sur réseau classiques dans les premiers chapitres. Les néophytes aprécieront de pouvoir comprendre certains détails et les solutions apportées. La thèse étudie entre autres les phénomènes de capillarité (interfaces entre une goutte d'eau et un autre fluide).
[15]	Valérie Pot "Etude Microscopique du transport et du changement de phase en milieu poreux par la méthode des gaz sur réseaux", thèse #94PA06 233 Ces travaux font l'objet d'un chapitre entier dans le livre de Stéphane Zaleski. Beaucoup de formules et pas de code.
[16]	Stéphane Zaleski "Les transitions de phase calculées", Pour la science #183, janvier 1993 Article de présentation (2 pages) annonçant les résultats encourageants de recherches sur la transition de phase en 3D, améliorant les techniques présentées par Jean-Pierre Rivet et pour des règles d'interaction non locales.
[17]	Bernard Derrida "Dynamique d'un gaz sur réseau", Pour la science #184, février 1993 Cette "récréation informatique" présente un algorithme 2D pour simuler l'évaporation ou la condensation d'une goutte d'eau. Rien de commun avec FHP mais il simule une transition de phase (liquide/gaz) sans utiliser les intéractions non locales utilisées par Zaleski, ce qui fait de cet automate cellulaire une alternative intéressante.
[18]	Pierre Lallemand "Les gaz sur réseau : un nouveau médium pour le calcul des écoulements", Revue du Palais de la Découverte, avril 1987, vol. 15, numéro 147 C'est cet article qui m'a fait découvrir le domaine des LGA. La théorie y est exposée ludiquement et le modèle FHPII est succintement expliqué, suggestivement mais sans aider pour la programmation pratique. En particulier les règles de collisions sont expliquées mais la mise en pratique n'est pas évidente (création de la table des collision).
[19]	U. Frisch, B. Hasslacher, Y. Pomeau "Lattice gas automata for the Navier-Stockes equation", Physical Review Letters, 7 avril 1986, vol.56, pp 1505-1508. C'est l'article de référence cité par tout papier ou document portant sur les gaz sur réseaux. Appelé dans cet article "HLG" pour "Hexagonal Lattice Gas", le modèle présenté retiendra les initiales des auteurs pour la postérité. Le passage du modèle HPP (carré) au voisinage hexagonal est expliqué, trois règles de collisions sont introduites (frontale, triangulaire et avec particule immobile) et il est prouvé que cela est suffisant pour correspondre aux équations de Navier-Stockes. Pas de code mais l'existence de calculateurs dédiés est évoquée (RAP-1 ?)
[20]	Gary Doolen (éditeur) "Lattice gas methods for partial differential equations", Santa Fe Institute, Studies in the sciences of complexity, Addison-Wesley 1990, ISBN 0-201-15679-2 ou 0-201-13232-X Probablement l'un des ouvrages les plus intéressants qui existe. Tous les acteurs du domaine de la première décade sont présents dans cette collection de papiers, traitant de tous les domaines, pratiques et théoriques. Par exemple on y trouve le modèle FHP4, sur 8 bits, qui restaure l'invariance galliléenne (en ralentissant le fluide). La variété des points de vue et des sujets abordés rend sa consultation impérative, mais pourtant il n'y a pas de code.
[21]	J. A. Somers & P. C. Rem "Obtaining numerical results from the 3D FCHC lattice gas" dans Lecture Notes in Physics, T. M. M. Verheggen (ed.), "Numerical methods for the simulation of multi-phase and complex flows" (1990) Springer-Verlag, ISBN 0-387-55278-2 Les auteurs proposent une amélioration de la technique de J. P. Rivet pour réduire la taille de la table des collisions du modèle FCHC par une analyse poussée des 1152 isométries des collisions : la table contient seulement 106496 entrées mais le code Pascal est assez complexe. Performance de 2Mc/s sur un Transputer à 400 noeuds.
[22]	Jean-Christophe Culioli "Introduction ï¿½ l'optimisation" (1994) Ed. Marketing/Ellipses, ISBN 2-7298-9428-4, ref 519.8 CUL Sous-titre : "Analyse numï¿½rique de systï¿½mes complexes". Prï¿½sente les techniques de Newton-Raphson, de dichotomie, de programmation linï¿½aire et dynamique.

[23]	Christopher Adler, Bruce M. Boghosian, Eirik G. Flekkoy, Norman Margolus, Daniel H. Rothman : "Simulating Three-Dimensional Hydrodynamics on a Cellular-Automata Machine" à paraître dans Journal of Statistical Physics (1995) rï¿½fï¿½rence preprint : chaos-dyn/9508001 ou comp-gas/9508001
[24]	Quian et.al. : Lattice BGK Models for Navier-Stokes Equation, Europhys.Lett., 17 (6), pp. 479-484 (1992)
[25]	Norman Margolus : "Integer Lattice Gases", Phys. Rev. E 55 (April, 1997) 4137-4147.
[26]	Ales Alajbegovic, Chris Teixeira, David Hill, Andrew Anagnost, Sudheer Nayani and Ram Iyer : "The study of benchmark laminar flows using DIGITAL PHYSICS" 1997 ASME Fluids Engineering Division Summer Meeting, FEDSM'97, June 22-26, 1997, FEDSM97-3648
[27]	Jean-Pierre Boon, Uriel Frisch et Dominique d'Humiï¿½res : "L'hydrodynamiqe modï¿½lisï¿½e sur rï¿½seau" dans La Recherche nï¿½ 253, avril 1993, volume 54, pages 390-399.
[28]	Dominique d'Humiï¿½res, Pierre Lallemand : "Numerical simulations of hydrodynamics with Lattice Gas Automata in two dimensions" dans Complex Systems 1 (1987) 599-632
[29]	Dominique d'Humiï¿½res, Pierre Lallemand, Geoffrey Searby : "Numerical experiments on Lattice Gases : mixtures and galilean invariance" dans Complex Systems 1 (1987) 633-647
[30]	Norman Margolus (+?) : "An embedded DRAM architecture for large-scale spatial-lattice computations" (1999) ï¿½ paraï¿½tre (?)
[31]	Kristian Lindgren, Cristopher Moore et Mats G. Nordahl "Predicting Lattice Gases is P-complete" Santa Fe Institute Working Paper 97-04-034.
[32]	D. d' Humières and P. Lallemand : "Numerical simulations of hydrodynamics with lattice gas automata in two dimensions." dans Complex Systems, 1:599, 1987.
[33]	"GA-586ATE users manual, 1st edition" manuel de carte mï¿½re pour PC, 1995.
[34]	Intel : "Pentium II Processor Developper's Manual" rï¿½fï¿½rence 243502-001, octobre 1997
[35]	Bruce M. Boghosian, Jeffrey Yepez, Francis J. Alexander, Norman H. Margolus : "Integer Lattice Gases" comp-gas 9602001 (15 fevrier 1996) mise ï¿½ jour le 22 novembre 1998
[36]	"Benchmark for the simulation of the incompressible flow around a cylinder", 1996 http://gaia.iwr.uni-heidelberg.de/~ture/papers.html ou in Flow Simulation with High-Performance Computers II, Notes on Numerical Fluid Mechanics, Vol 52, Vieweg 1996
[37]	J. Hardy, Y. Pomeau & O. de Pazzis : "Time evolution of two-dimensional model system. I. Invariant states and time correlation functions", 1973 J. Math. Phys. 14, pp. 1746-1759.
[38]	Fung Funh Lee : "A Scalable Computer Architecture for Lattice Gas Simulations", 1993 Technical Reports : CSL-TR-93-576 dï¿½crit "ALGE", un "superordinateur SIMD" Mï¿½moire de Doctorat de Philosphie, Universitï¿½ de Stanford, dï¿½partements EE/CS
[39]	Intel : "Intel Architecture Software Developerï¿½s Manual Volume 2: Instruction Set Reference", 1999 24319102.pdf
[40]	Kohring, G.A. "Parallelization of short- and long-range cellular automata on scalar, vector, SIMD and MIMD machines" 1991 Inter. Jour. Modern Phys. 2, 755-772.
[41]	Brosa, U. and Stauffer, D. "Vectorized multisite coding for hydrodynamic cellular automata" 1989 Jour. Stat. Phys. 57, 399-403.