Génomes

accueil, panorama, gènes

en travaux décembre 2009

Plan

Sources générales:
BMG - Biologie moléculaire du gène, Watson et al., Pearson Education, 2009
AGM - Analyse génétique moderne, Griffiths et al., De Boeck Université, 2001
MB - Microbiologie, Prescott, Harley, Klein, DeBoeck Université, 1995
BMC - Biologie moléculaire de la cellule, Alberts et al., Médecine-Sciences-Flammarion, 1994
PBMBC - Principes de biologie moléculaire en biologie clinique, Ameziane, Bogard et Lamoril, Elsevier, Campus référence, 2006

 

Web:
De nombreuses sources sont en libre accès sur internet, tout le problème consiste à savoir l'utilisation que l'on peut en faire (et le temps que l'on peut y consacrer).

Entrez

Un incontournable: le "moteur de recherche sur les sciences du vivant" (en anglais) qui fournit essentiellement des données moléculaires, y compris phylogénétiques


Une base hébergée par l'INIST avec des articles en français fort accessibles:
http://atlasgeneticsoncology.org// GeneticFr.html

CECI N'EST PAS UN COURS mais la présentation d'OUVERTURES ; de façon illustrative, de nombreux liens de cette page pointent vers de lourdes pages de banques de données génomiques (et s'ouvrent dans une nouvelle fenêtre par défaut); mais le but de cette page reste de poser des questions et non de présenter des résultats.


1 - Qu'est-ce qu'un génome ?


2 sens ... :

 

 

Qu'est-ce qu'un gène ?

génome stricto sensu =
ensemble des gènes1 d'un organisme

génome lato sensu =
ensemble du matériel génétique d'un organisme

Au sens strict on ne devrait parler que de génome d'un être vivant, mais, par extension, on parle du "génome" d'un organite (« génome mitochondrial ») ou d'un virus (« génome viral ») alors qu'il s'agit clairement des acides nucléiques (ADN et ARN) sans que l'on puisse parler de matériel "génétique".

1un gène est une unité fonctionnelle (synthétique) de l'ADN qui correspond à un produit (ARN ± protéine).

Par « matériel génétique » on entend « acides nucléiques (ADN et ARN) et produits associés directement » (comme les protéines se fixant sur les séquences régulatrices ou encore les histones structurant l'ADN eucaryote...). C'est une définition "technique" (chimique) d'une grande utilité pratique. Elle a des implications théoriques lorsque l'on s'efforce de comprendre la fonction de grandes portions du génome, sans rechercher les gènes.

... correspondant plus ou moins à deux approches de la génomique - science des génomes - :

La génomique fonctionnelle en cherchant les fonctions des génomes peut s'intéresser au gènes mais aussi au transcriptome et au protéome. Elle ne se différencie guère alors de la génétique fonctionnelle excepté par le fait qu'elle travaille sur de plus grandes portions d'ADN...

La génomique structurale cherche à connaître l'organisation du génome chez un organisme (localisation, disposition, éléments associés, sous-parties...).

Mais la génomique peut aussi aller plus loin que ce clivage et ne pas se contenter des outils et du niveau de compréhension de la génétique. L'approche mathématique fonctionnelle rejoint alors l'approche structurale (morphologique) "à la René Thom". C'est une des voies nouvelles à explorer. On a dans ce cas deux niveaux possibles: les molécules (chromatine par exemple) et les organites (comme les chromosomes).


1.1 "Génomes" viraux : des fragments de génomes d'organismes à l'origine de maladies

Des systèmes génétiques variés pour des rôles variés

Un exemple de virus (le VIH) est étudié rapidement en terminale S à l'occasion du cours sur l'immunité

Il est hors de question de présenter ici, de façon un tant soit peu complète, l'extrême diversité du matériel génétique des virus. Ce qui importe est bien leur signification biologique.

Les virus sont des assemblages nucléoprotéiques organisés. Ce ne sont pas des êtres vivants (ne possèdent pas d'ADN et d'ARN simultanément, n'ont aucun métabolisme et, enfin, ne peuvent se multiplier sans cellules vivantes). Leur taille se situe approximativement entre celles d'un ribosome, pour les plus petits et d'une bactérie comme E. coli pour les plus grands.

Lors de la phase extracellulaire, la particule virale complète est qualifiée de virion. Les formes de l'enveloppe sont souvent régulières et permettent d'élaborer une classification.

Lors de la phase intracellulaire, seul l'ADN ou l'ARN viral pénétrant la cellule (provirus), il devient à la fois très simple, mais aussi très inexact de tenter de classer les virus à l'aide de leur « génome ».

Du fait de leur extrême variété et de leur grande similitude avec du matériel génétique d'une cellule hôte, comment savoir si un ADN ou un ARN trouvé dans une cellule est bien vraiment étranger et provient d'une particule virale ? Aussi, la réponse - évidente -, qui met en avant la séquence, est-elle très incomplète.
En fait la réponse pratique est qu'
un virus (un provirus ici) doit être impliqué dans une maladie, sinon c'est juste un petit élément génétique de rôle plus ou moins inconnu.


Des fragments de matériel génétique.... mais pas des génomes

Certains petits ARN circulaires simple brin (de taille comprise entre 0,25 et 0,37kb; 1kb = 1.000 bases azotées, c'est-à-dire 1.000 nucléotides) trouvés dans le noyau de certaines cellules de plantes en un grand nombre d'exemplaires (200 à 10.000) sont qualifiés de viroïdes. Ils semblent responsables d'une dizaine de maladies dont par exemple, la maladie des tubercules en fuseau de la pomme de terre.

On trouve ensuite des provirus, de plus grande taille :
- les plus petits ont environ 106 daltons
(1 dalton est la masse d'un atome d'hydrogène) - ce qui correspond à la taille nécessaire pour 3 à 4 protéines -, comme celui du phage MS2;
- les plus grands ont 1,6.108 daltons - et peuvent encoder plus de 100 protéines - comme celui des herpès virus.


Beaucoup d'ADN viraux contiennent des bases inhabituelles (cytosine remplacée par la 5-hydroxyméthylcytosine...). De nombreux ARN viraux (à chaîne positive) ressemblent fortement aux ARNm (avec coiffe 5' et queue polyA...). L'ARN viral du virus de la mosaïque du tabac ressemble à un ARNt (et peut même accepter un aa).

Tous les types de provirus existent : ADN double brin, ADN simple brin, ARN simple brin, ARN double brin. Certains provirus sont linéaires, d'autres circulaires, certains sont fragmentés en plusieurs sous-unités (identiques ou non), d'autres présentent une alternance de zones simple- et double-brins, certaines extrémités des brins doubles pouvant se réunir (pontage).

Enfin, certains ARN sont des chaînes positives (identiques à un ARNm viral et qui pourraient être traduites directement en protéines, mais qui cependant peuvent être d'abord rétrotranscrites en ADN), d'autres sont des chaînes négatives (complémentaires de l'ARNm viral).

 

 

 


Exemples de types d'acides nucléiques viraux (d'après Microbiologie, Prescott, Harley, Klein, DeBoeck Université, 1995, Tab.17.1)

Pas de virus sans cellules... les virus seraient-ils des signaux intercellulaires ?

Il n'est pas rare que l'on se contente du raisonnement analogique qui associe virus et êtres vivants : puisque le génome de ces derniers "code" pour les protéines, les acides nucléiques viraux codent probablement aussi pour les éléments de la capside protéique ou au moins sont nécessaire à son assemblage. Or, on est loin du compte. Certains éléments sont apportés par la cellule hôte sans que l'on puisse identifier un signal de commande venant du virus. Certaines séquences virales donnent des produits dont on ne connaît pas le rôle et l'auto-assemblage entre acides nucléiques et protéines de la capside- mécanisme qui semble être la règle - n'est plus ou moins compris que pour quelques virus.


Le virus n'est pas une entité AUTONOME. Le rôle de la cellule hôte n'est donc pas d'héberger un virus qui serait autonome. C'est vraiment la cellule qui, en présence du virus, modifie son métabolisme et parfois synthétise et libère de nouveaux virions. Le virus pourrait donc être considéré comme un signal entre cellules.

Il existe une autre thèse, plus difficilement acceptable, et qui pourtant reste fortement présente dans l'imaginaire de beaucoup, selon laquelle les virus auraient évolué à partir des procaryotes (évolution rétrograde). Ils seraient en quelque sorte d'anciens parasites devenus très réduits. Les données actuelles nous écartent franchement de cette hypothèse, même si, comme dans toute théorie évolutive, il ne peut y avoir de preuve définitive (le passé est inaccessible à l'expérience).


Quelques exemples...


La structure caractéristique d'un phage lambda : capsule, queue et bras.

Toutes les données sur les génomes sont maintenant informatisées et internationalisées sur le consortium pour le génome : même si chaque membre garde ses propres bases de données, chacune avec ses spécificités :

- la page NCBI sur les virus est à l'adresse: http://www.ncbi.nlm.nih.gov/ genomes/ GenomesHome.cgi? taxid=10239
- en Europe c'est l'
EMBL qui héberge ces services comme la base de données sur les génomes : (ce site ne fonctionne pas bien sous Safari, mais correctement sous Firefox, du moins selon mon expérience ; on a plus de facilité pour observer les données générales, mais il n'y a pas de représentation graphique directe, comme dans la base NCBI).

Remarque:
les données de séquençage publiées n'ont pas toutes la même valeur scientifique, certaines sont franchement de mauvaise qualité... De plus, la prolifération des séquences incomplètes dans les bases de données rend le travail de recherche in silico de plus en plus difficile (voir nouvelle dans La Recherche: Les données de séquençage méritent un classement, Cécile Michaut, LR, 436, décembre 2009, 32-33,
réf publication)


Les virus preuvent nettement être séparés en virus de cellules procaryotes et virus de cellules eucaryotes :

Les bactériophages (ou « phages ») sont les virus qui sont propagés par les bactéries. Ce sont les mieux connus, car ils ont été étudiés en premier notamment par les Américains du fameux "groupe du phage" initié autour de Max Delbrück dans les années 1940-1950 au Cold Spring Harbor Laboratory.


Les virus de cellules eucaryotes sont essentiels notamment du fait de leur intervention comme agent pathogène dans de nombreuses maladies virales des animaux (grippe, herpès, VIH...) mais aussi des plantes (mosaïque...), ces derniers restant moins fréquents et nécessitant souvent un vecteur animal de transmission.

Certains virus peuvent contenir des séquences répétées et des introns**. Ci-dessous l'exemple le virus herpès humain 5 155573622. Les gènes sont indiqués par des rectangles de couleur verte ; 235.646 nucléotides, 79% d'ADN codant, 165 protéines et 2ARN non traduits, pas de pseudogènes.

*sens de transcription de l'ADN en ARN. En fait le complexe enzymatique (ARNpolymérase) qui polymérise les ribonucléotides triphosphate à partir d'un brin d'ADN qui lui sert de matrice, travaille toujours dans le même sens (3'->5') et donc (puisque l'ADN est constitué de deux brins antiparallèles, c'est-à-dire orientés dans deux sens opposés), lorsqu'il change de brin, il change automatiquement de sens. Lorsque deux gènes sont transcrits dans deux sens différents cela signifie qu'ils sont transcrits à partir de deux brins différents d'ADN.

 

**intron : séquence de l'ARN qui est excisée lors de la maturation (épissage) des ARN, principalement chez les eucaryotes. Par abus, on désigne par intron des séquences (de l'ADN) intragéniques non codantes (qui vont être transcrites en introns mais non traduites en protéines). Moyen mnémotechnique : intron = intercalé, exon = exprimé.

Voici le génome d'un petit phage MS2 d'une entérobactérie:
- fichier séquence EF204940: 3.569 bases - ARN simple brin positif - 4 protéines (une protéine de maturation, une protéine de la capside, une protéine de lyse et une réplicase)
- fichier graphique:

Les 4 protéines sont indiquées par des rectangles rouges, les flèches indiquant le sens de lecture. On notera qu'un gène est chevauchant sur deux autres gènes.

La fonction zoom maximal (+ à gauche) permet de visualiser les brins d'ADN, le triplet de bases de l'ADN correspondant à chaque codon de l'ARNm et les aa associés.

Dans le fichier GenBank chaque portion d'ADN ou locus est décrite avec sa fonction et le produit qu'il code. Des hyperliens sont évidemment établis avec les séquences et les données existantes pour chaque produit. C'est un exemple de la qualité, mais aussi la complexité des résultats auxquels les biologistes moléculaires sont arrivés.

Pour comparer voici le génome d'un phage lambda (10 fois plus grand) cultivé sur une souche d'entérobactérie
Base Génomes
Entrez 10119 :(ADN double brin linéaire, 48.502 paires de bases, 73 protéines codées - 87% de l'ADN est codant)

Les produits sont en rouge. Les ARNm en bleu. On notera le nombre de gènes, leur chevauchement, la variation du sens de transcription* et l'absence d'introns**. Enfin, selon les différentes maturations des ARNm (pas moins de 11 variantes en bleu) on obtient des produits différents (épissage alternatif connu depuis 1977 chez les virus).

? De nombreux produits sont annotés, soit avec un point d'interrogation, soit comme "related" ou"hypothetical", soit enfin comme "putative" ce qui signifie, dans tous ces cas, que le produit est SUPPOSÉ, mais qu'il n'a pas été expérimentalement contrôlé (?) comme effectivement produit par le gène supposé. Ces suppositions se font à l'aide des programmes informatiques de reconnaissance automatique de séquence. Cela signifie donc seulement que ce gène présente une forte analogie de séquence avec un gène CONNU.


1.2 Génomes procaryotes : la diversité de la machinerie synthétique

Du point de vue structural :
un ADN peu condensé mais rarement nu

L'organisation de la cellule procaryote a été vue en 2nde :

Pour une image au MET voir par exemple le site de Markus Drechsler (E. coli au MET en coloration négative à l'uranylacétate).

On considère ainsi que l'ADN est composé d'une grande boucle (appelée à tort parfois "chromosome bactérien") et de petits ADN circulaires: les plasmides.

Mais chaque cellule procaryote contient plusieurs exemplaires de son ADN (environ 6 pour Escherichia coli).

Quelques cas rares présentent un ADN double brin linéaire (Borrelia burgdorfei). Comme dans le cas des génomes linéaires viraux des protéines particulières sont observées au niveau de l'extrémité 5' de chaque brin.

Le nucléoïde est la structure qui contient l'ADN procaryote qui n'est ainsi pas réparti dans tout le cytoplasme. Pour une bactérie comme Escherichia coli, ce nucléoïde contient environ 40 % d'ADN (un peu d'ARN) et 60 % de protéines (non-histones: les protéines associées au nucléoïde sont d'une part les NAPs (Nucleoid Associated Proteins), ensuite les topoisomérases et enfin les protéines SMC (Structural Maintenance of Chromosomes, qui interviennent aussi chez les eucaryotes)). L'ADN procaryote n'est ni nu, ni libre, mais n'est pas non plus organisé en chromosome, pas plus qu'il ne possède de nucléosomes comme chez les eucaryotes.

Cependant, on pense depuis quelques années que le nucléoïde bactérien est probablement aussi organisé en macrodomaines (à l'image de la chromatine chez la cellule eucaryote). La structure du nucléoïde bactérien n'est plus considérée comme unique et stable; et l'idée que sa dynamique puisse permettre le positionnement variable des différents domaines en fonction de l'âge et de l'état métabolique de la cellule est une hypothèse envisagée, même si l'on se refuse encore habituellement à considérer la position des domaines au sein du "chromosome" comme modifiable; il reste encore du chemin pour en venir à considérer que c'est la cellule qui, en fonction de son métabolisme, synthétise et positionne ses gènes.

 

 


Organisation cellulaire du "chromosome" d'E.coli en macrodomaines
(au sein du modèle de la boucle unique circulaire d'ADN)

 

voir publications de l'équipe de Frédéric Boccard, CNRS

A. Le cercle représente la carte génétique du "chromosome". Les barres colorées représentent les différents macrodomaines (Ori, Right, Ter et Left) et les barres noires interrompues schématisent 2 régions moins structurées. L'origine de réplication oriC, les sites migS et dif sont indiqués.

B. Un modèle pour l'organisation du "chromosome" chez E. coli où des supertours de l'hélice d'ADN sont figurés.
Chaque domaine correspond à la présence de facteurs qui présentent une localisation relativement stable dans le nucléoïde. Des sites aussi éloignés qu'une distance de 1 Mb (sur une longueur totale de 4,6 Mb) peuvent ainsi être réunis dans le même domaine. Les régions entre les macrodomaines pourraient permettre une certaine flexibilité de l'organisation du nucléoïde. (tiré de Boccard et al., 2004, 2005: image comparable accessible :
http://www.nature.com/ emboj/journal/ v23/n21/ pdf/7600434a.pdf)


Cependant il existe des bactéries avec un ADN presque pur, dépourvu de protéines. Il va sans dire que leur métabolisme génétique est loin d'avoir été aussi étudié que celui du modèle coliforme.

L'ADN procaryote est attaché, au moins pendant la phase de division cellulaire, à la membrane cellulaire et/ou à la paroi.

La théorie de la duplication de l'ADN de la cellule procaryote au cours d'un cycle cellulaire a été élaborée à partir des expériences historiques de Meselsohn et Stahl en 1958. Cependant, il reste encore bien des points mystérieux, notamment du fait de la taille des bactéries et donc des difficultés d'observation (voir page présentant cette publication).
Il existe sans conteste une phase de synthèse d'ADN (par copie à partir d'une matrice, ADN et/ou ARN) qui est permanente et correspond à la phase de croissance de la cellule bactérienne. La synthèse est réalisée simultanément par de nombreux complexes enzymatiques de type ADNpolymérase. Après de nombreuses divisions (environ 100) la croissance cesse et la cellule bactérienne meurt
(voir les expériences sur le vieillissement dans le cours de seconde : c'est l'âge du cytoplasme qui permet d'évaluer l'âge de la bactérie).

La base de données des génomes procaryotes du NCBI contient un très grand nombre de génomes cartographiés :
- page générale d'accueil avec phylogénie

- liste des organismes avec accès aux banques de génomes:
.

Une cyanobactérie (Acaryochloris marina MBIC11017) avec un génome de 6.503.724 nucléotides dans GenBank 158303474.

Vue d'ensemble du génome : 6396 gènes (6254 codant des protéines et 73 des ARN), 19 pseudogènes, 83% de l'ADN codant

Escherichia coli souche BL21(DE3 )
-
GenBank CP001665: description et séquence complète (fichier de plusieurs Mo : un ADN double brin de 4.570.938 nucléotides - 4.440 gènes (4.228 de protéines, 112 d'ARN), 100 pseudo-gènes, 86% de l'ADN codant)
- présentation graphique :

Lactobacillus casei (ATCC334) :
2.895.264 nucléotides, 2.909 gènes correspondant à 2.751 protéines et 76 ARN, 82 pseudogènes, 82% d'ADN codant

Vue d'ensemble
Entrez

Remarque:
pour montrer l'état encore imparfait de nos connaissances regardez la seule autre souche (
BL23) dont le génome complet a été séquencé; elle semble contenir 3.044 gènes mais aucun gène d'ARN n'a été reconnu (ni aucun pseudogène).... je rappelle que les reconnaissances de gènes se font de façon semi-automatique par comparaison de séquences.

Du point de vue fonctionnel


Expression


Stabilité et transmission

L'ADN procaryote contient des gènes organisés linéairement SANS INTRONS sauf très rares exceptions (intron est employé ici abusivement pour désigner de l'ADN non codant intragénique transcrit en intron*). Mais il existe de l'ADN intergénique (typiquement 10%). La quasi totalité de l'ADN génique du procaryote est codant ou -autrement dit - est transcrit en ARN, puis éventuellement traduit en protéines. Mais qu'en est-il de l'ADN intergénique ? Il semble qu'il ne soit pas transcrit (il est donc a fortiori non codant). Mais cela est difficile à démontrer et l'on est pas sûr de ne pas se tromper. Il pourrait être transcrit sans donner de produit fonctionnel, comme cela est le cas pour les "introns" des eucaryotes par exemple.

Certains gènes sont chevauchants. Chaque brin peut être transcrit séparément; la transcription du même locus dans des sens différents (et donc sur des brins différents) donnant des produits différents ... Bref, l'expression de l'information génétique procaryote est complexe.
Tous les gènes connus codent pour un produit (c'est la définition d'un gène) : soit pour un ARNm et donc, indirectement, pour une protéine, soit pour un ARN autre, non traduit mais qui participe à une fonction cellulaire (ARNr, ARNt...).

Il est important de comprendre que notre vision du fonctionnement cellulaire comme résultat de l'expression d'une information génétique (le fameux programme génétique) vient pour une grande part du modèle bactérien. Toute nouveauté dans le modèle devrait nous inciter à remettre en question sa pertinence.
Peut-on dire que tous les gènes et uniquement les gènes rendent compte de la totalité du fonctionnement et de l'organisation cellulaire procaryote ? La réponse est évidemment négative. Le modèle molécularo-génétique est franchement dépassé. La forme de la cellule et la plupart des structures sont sans aucun doute tout simplement héritées, par un mécanisme catastrophique de duplication-séparation dont le substrat n'est pas un sac rempli d'enzymes en solution, mais bien un solide structuré par son eau interstitielle et dont la forme résulte des dynamiques qui l'habitent
(voir au-delà de la cellule).

 

 

 

 


Quelques analyses de travaux historiques:
*
F. Griffith (1928) et d'Avery, McLeod, McCarthy (1944) sur les pneumocoques
*
G. Beadle et E. Tatum (1941s)
*
Meselson et Stahl (1958)

Jusqu'à peu on considérait que l'ADN était stable et transmis à deux bactéries-filles, de façon idéalement identique, après une reproduction conforme, aux erreurs près, en phase S de croissance du cycle cellulaire (voir cours). Le point central était donc qu'un génome (par analogie à la vie !!!) était une unité qui pouvait être dupliquée et transmise mais non pas fabriquée de novo. Le dogme était « la cellule ne fabrique pas ses gènes mais en hérite, les duplique et les mute ».

Ainsi seuls trois types de changements étaient considérés comme possibles :
- les duplications de portions d'ADN (et donc de gènes) qui sont une variante de la duplication complète du génome en phase de synthèse ;
- les mutations (dues à des erreurs intervenant principalement au cours des phases de réplication) ;
- les transferts de gènes entre organismes ou transferts latéraux : le premier connu fût la transformation bactérienne, qui est un transfert d'ADN entre bactéries, avec recombinaison (partielle ou totale) de génomes entre une bactérie donneuse et une bactérie receveuse.

Depuis que l'on a découvert chez un grand nombre d'organismes des systèmes enzymatiques de transcription inverse, il n'est plus aussi certain que ce soit l'ADN qui représente la forme la plus stable d'une information génétique.
Si la synthèse d'ADN nécessite toujours une matrice, celle-ci pourrait donc aussi bien être de l'ARN que de l'ADN. Il n'y aurait plus un seul matériel génétique stable (l'ADN) mais bien un matériel dynamique formé par les acides nucléiques en synthèse permanente en fonction de l'activité synthétique de la cellule.

Depuis le début de la mise en place du paradigme de l'information génétique déterministe et stable, il n'a pas manqué de voix pour présenter des travaux qui allaient dans un sens différent (voir la discussion dans la page sur les mutations).
Il est possible que depuis une dizaine d'années on assiste à un changement des mentalités du fait de la redécouverte de l'indéterminisme. En effet, les résultats s'accumulent dans le sens d'une nouvelle dynamique de synthèse-modification des gènes. Un génome dynamique dont les éléments sont sans cesse synthétisés, modifiés et éventuellement transmis. L'idée d'un génome vu comme des "plans" s'éloigne pour céder la place à une vision dynamique où
l'ADN est un élément - qui reste majeur parmi tous les autres - du métabolisme en perpétuel remaniement. La cellule fabrique son ADN au gré de ses synthèses...


1.3 "Génomes" des organites eucaryotes : des fragments originaux de la machinerie synthétique cellulaire au sein de compartiments spécialisés

Un fragment de génome mais sans redondance dans le génome nucléaire ...

 

 

 

... des compartiments cellulaires pour un métabolisme spécifique et pourvu d'un matériel génétique spécifique en rien autonome.

L'appellation "génome" pour les organites est tout aussi usurpée que pour les virus et peut mener à un préjugé erroné d'une composition du "génome" suffisante pour expliquer les éléments d'un organite autonome (selon la théorie de "l'information génétique"). Or un organite n'est pas un organisme et n'est donc pas autonome (même si une théorie dite endosymbiotique propose de les faire dériver de procaryotes symbiotes de la cellule eucaryote - voir remarque ci-dessous). Son "génome" code pour des produits utilisés dans l'organite lui-même mais aussi pour des produits utilisés autre-part dans la cellule. Enfin la plupart des protéines nécessaires à la croissance (et à la division) de ces organites sont synthétisées à partir de gènes nucléaires. Le "génome" de l'organite n'est donc qu'un petite partie du génome de l'organisme.

Le "génome" des organites est toujours composé d'ADN double brin (généralement circulaire mais des formes linéarisées sont connues). Chaque organite contient de multiples copies de son ADN. Certains gènes contiennent des introns. Aucun des gènes du "génome" de l'organite ne se trouve au sein du génome nucléaire (il n'y a pas de redondance).

Il est à noter que, si chaque organite possède des ribosomes, l'activité de transcription-traduction au sein de leur matrice reste très réduite. Les complexes enzymatiques de type ARNpolymérase sont d'origine strictement nucléaires, mais peuvent bien sûr être hérités.

Donc la question du sens du "génome" de l'organite reste entière. Peut-être est-ce justement l'occasion de proposer d'autres rôles au "génome", puisque qu'il n'est pas utilisé pour accéder à une information de structure ni même de fonction. Pourquoi une information pour quelques protéines et ARN utilisés dans l'organite (ou pas pour certains, voir ci-dessous) et pourquoi ces molécules ? Si la composition de ce "génome" ne peut pas être comprise à partir de son rôle informatif dans les synthèses (ARN et protéines), on ne peut qu'imaginer des mécanismes de structuration en rapport avec la dynamique des organites eux-mêmes. Après tout, le chondriome, par exemple, n'est qu'un compartiment dynamique supplémentaire qui peut très bien être mis en balance avec le compartiment du reticulum qu'est le noyau. La ségrégation d'un "génome" en leur sein pourrait résulter du même type de dynamique.


Chondriome d'une levure de bière (l
égendes)

La dynamique de ces organites est une donnée récente et reste à explorer. Cela est particulièrement vrai pour les mitochondries, qui sont plutôt organisées en chondriome (tubules mitochondriaux anastomosés) dans de nombreuses cellules. Certains films montrent bien ce passionnant phénomène (voir ci-contre et cours de seconde).

Les chloroplastes ne sont pas à l'abri de ces remaniements ; on sait depuis fort longtemps qu'ils sont susceptibles de se diviser plus ou moins activement, de se transformer en diminuant ou en augmentant le nombre de leurs thylakoïdes et grana, et enfin de se spécialiser (amyloplastes) au cours de la vie de la cellule qui les renferme.

La plupart des cellules meurent lorsqu'elles perdent leur mitochondries et/ou leur chloroplastes mais le nombre de ces organites par cellule varie grandement en fonction de l'âge ou du métabolisme cellulaire.


"génomes" de mitochondries sur la base NCBI (groupe Champignons/Métazoaires)

 

 

 

On peut comparer le "génome" mitochondrial d'Homo sapiens et d'H. sapiens neanderthalensis

Homo sapiens - "génome" mitochondrial complet (251831106) : ADN circulaire double brin, 16.569 nucléotides, 37 gènes (13 de protéines et 24 d'ARN (2ARNr, 22ARNt)), 68% d'ADN codant

Le protéome de la mitochondrie humaine (13 gènes):
* transporteurs d'électrons et de protons de la chaîne respiratoire (11 gènes)
- seules
7 chaînes protéiques (1, 2, 3, 4, 4L, 5 et 6) du premier complexe (la NADH déshydrogénase qui contient plus de 22 chaînes protéiques) sont codées par le "génome mitochondrial"
- le "génome" mitochondrial possède
un seul gène pour le cytochrome b appartenant au second complexe cytochrome b-c (qui contient au moins 8 chaînes polypeptidiques) ;
- la mitochondrie possède
3 gènes pour 3 sous-unités du cytochrome c oxydase (sous-unités I, II et III) du troisième et dernier complexe qui contient 9 chaînes polypeptidiques.
*
deux sous-unité (6 et 8) de l'ATP synthase F0 qui contient au moins 9 sous-unités (les sous-unités F0 sont transmembranaires et agissent comme un transporteur de protons et les sous-unités F1 forment la tête qui synthétise l'ATP).


2 ARNr (12S et 16S) et 22ARNt codés par le "génome" mitochondrial

L'intérêt des études sur le "génome mitochondrial" repose pour une grande part sur la recherche médicale concernant la transmission strictement maternelle des gènes (moléculaires) mitochondriaux (et donc de gènes héréditaires qui seraient associés - voir chapeaux encadrés du cours pour cette distinction). En effet, on pense que, lors de la fécondation, aucune mitochondrie du spermatozoïde de l'homme ne pénètre dans le cytoplasme de l'ovocyte féminin.

Comparaison des "génomes" mitochondriaux de 1933 eucaryotes sur la base NCBI : on notera le nombre de protéines, d'ARN, et la taille des "génomes"....

Les chiffres sont ceux des bases de données mais correspondent, la plupart du temps, à une synthèse de nombreux résultats, plus ou moins cohérents; l'ADN mitochondrial n'est pas toujours double brin, ni circulaire, et parfois très fragmentaire ou répétitif dans un organite donné... Il va sans dire que le "génome" mitochondrial peut être fort variable entre cellules et même entre mitochondries d'une même cellule chez un organisme.

Diversité des "génomes" mitochondriaux

(j'ai volontairement choisi quelques-uns qui s'écartaient du modèle humain pour donner un panorama de la diversité)

référence
base
Entrez
taille
(en nucléotides)
nombre de
protéines
codées
nombre
d'ARN
codés


protistes

(30 taxons connus environ)

Paramecium aurelia (une paramécie autogame)

NC_001324
40.469 
46 
8
(4ARNr, 4ARNt)

Plasmodium falciparum (parasite, agent du paludisme)

NC_002375
5.967

(cyto b, 2 s-u cyto oxydase)
-

Plasmodium juxtanucleare

NC_008279
6.014
15

Dictyostelium discoideum (amibe acrasiale)

NC_000895
55.564
42 
21


champignons

(près de 1900 taxons connus en comptant les animaux)

Aspergillus niger (moisissure)

NC_007445
31.103
16 
27

Candida orthopsilosis (rare, "génome" mitochondrial de Candida albicans non connu)

NC_006972
22.528
15 
26

Rhizopus oryzae (moisissure)

NC_006836
54.178
24
27

Saccharomyces cerevisiae

NC_001224
85.779
19 
27

Ustilago maydis (charbon du maïs)

NC_008368
56.814
26 
25


plantes

(50 taxons connus environ)

Chondrus crispus (algue rouge)

NC_001677
25.836
29 
28

Fucus vesiculosus (algue brune)

NC_007683
36.392
38 
28

Marchantia polymorpha (hépatique à thalle)

NC_001660
186.609
76 
32

Nicotiana tabacum (le tabac)

NC_006581
430.597
156 
27

Arabidopsis thaliana

NC_001284
366.924 
117 
24
(3ARNr, 21ARNt)


animaux

(près de 1900 taxons connus en comptant les champignons)

Anacropora matthai (corail)

NC_006898
17.888
13 
4
(4ARNt)

Heterorhabditis bacteriophora (ver nematode)

NC_008534
18.128
12 
24

Taenia solium (ver solitaire du porc)

NC_004022
13.709
12 

24

Architeuthis dux (céphalopode géant)

NC_011581
20.331
18
25

Anopheles funestus (moustique)

NC_008070
15.354
24

Anopheles gambiae (moustique transmettenat le paludisme)

NC_002084
15.363
13
24

Alligator mississippiensis

NC_001922
16.646
13 
24

Apus apus (hirondelle)

NC_008540
17.037
13 
24

Canis lupus (loup gris)

NC_008092
16.729
13 
24

Homo sapiens

NC_012920
16.569
13 
24
(2ARNr, 22ARNt)

Un très grand nombre d'animaux étudiés possède un "génome" mitochondrial très voisin de celui de l'homme. Mais il y a des exceptions.
On a rapproché champignons et métazoaires. Mais plusieurs champignons comme la levure de bière, Saccharomyces cerevisiae, s'éloignent assez nettement du modèle humain.

Les plantes étudiées (très peu nombreuses) ont clairement un "génome" mitochondrial plus grand avec parfois un assez grand nombre de protéines codées (dont la plupart restent hypothétiques).

Les protistes présentent la plus forte diversité des "génomes" mitochondriaux.

On a donc l'impression très nette que l'interprétation de la variabilité repose directement sur l'amplitude de la connaissance. Cette dernière est-elle suffisante pour avoir une vue d'ensemble ? J'en doute.

De plus, il existe un raisonnement trompeur. Rien n'est plus simple comme idée que de proposer la transmission d'un "génome" ancestral puis la perte (ou le gain) de certains gènes dans différents phylums. Cette vision simpliste, que l'on pourrait qualifier de moléculariste tout autant qu'évolutionniste synthétique (en référence à la théorie synthétique de l'évolution) , n'est pas étayée par l'observation, mais reste une grille de lecture. On peut douter de sa pertinence tant que l'on n'a pas progressé sur la signification métabolique du "génome" mitochondrial.

Les gènes d'ARN sont évidemment limités en type et il n'est pas surprenant qu'ils soient absents (0) ou présentant la panoplie assez complète d'ARNt (22), à quelques unités près.

Plus surprenant, le fait qu'ils soient réduits à 4 ARNt (chez Anacropora matthai) et avec 4 ARNr (chez Paramecium aurelia).


Des mutants à respiration non fonctionnelle ?

Les mutants "petite" de la levure de bière sont des souches chez qui on observe des lésions plus ou moins importantes dans l'ADN mitochondrial (voire même l'absence d'ADN). Leur nom provient du fait que les cellules restent toujours de petite taille en culture. Ces mutants apparaissent spontanément avec une fréquence de l'ordre de 1% des colonies. Pour sélectionner les souches que l'on considère comme de phénotype "petite" on utilise un milieu sélectif où les cellules ne peuvent se développer sans respiration (10g d'extrait de levure, 0,25g de glucose, 25 mL de glycérol, 20g d'agar, 980mL d'eau / à comparer avec un milieu complet contenant, en moins le glycérol, et en plus 2-30g d'extrait de levures, ± bactopeptone ± extrait de malt). On considère que le glycérol ne pouvant être fermenté les cellules "petite" ne se développent pas (TP de biologie des levures, Didier Pol, Ellipses).
L'analyse génétique des mutants aurait mis en évidence de très nombreuses variantes d'altérations du "génome" mitochondrial jusqu'à sa disparition complète.

 

Une fois encore la méthode sélective est bien incapable de prouvez quoi que ce soit au sujet d'une relation entre le génotype et le phénotype (voir page sur les mutations pour un approfondissement). Que les souches "petite" sélectionnées présentent des altérations de leur ADN mitochondrial ne prouve pas que ce sont ces altérations qui sont la cause du phénotype. On est même en droit de penser qu'au contraire leur modification métabolique est la cause de leur déficit en ADN.

Mais on observe un autre phénomène qui ne va pas non plus dans le sens d'une causalité génotype mitochondrial -> phénotype. Les études fonctionnelles réalisées sur les mitochondries de souche "petite" , même celles présentant une régression de leurs crêtes, ont montré que les éléments de la chaîne respiratoire sont presque au complet et que les mitochondries semblent fonctionnelles. On a souvent interprété ce fait par l'écrasante domination du génome nucléaire pouvant pallier une déficience mitochondriale (Biologie moléculaire de la cellule, Alberts et al. Flammarion-Médecine-Sciences, p 713). Mais on s'est bien gardé de remettre en question le modèle déterministe génotype -> phénotype indûment appliqué ici à la mitochondrie.

Il est évident que cette interprétation est loin d'être la seule possible. Il ne faut pas oublier que l'on ne sait pas comment la cellule "fabrique" ses mitochondries: toute mitochondrie étant héritée.
Comme les théories ne sont pas légion, je cite à nouveau la théorie des catastrophes qui est encore un bon moyen de présenter une ouverture. Dans le cadre de la naissance d'un tel organite par une sorte de plissement métabolique, la présence de l'ADN, cœur des dynamiques, serait bien encore une fois la marque des métabolismes et non l'inverse. Ce serait à cause de la déficience métabolique que les mitochondries seraient mal formées et contiendraient peu d'ADN, le seul qui corresponde aux dynamiques en place
(voir des ouvertures dans le cours de première).


"Génomes" de plastes sur la base NCBI

Les chiffres sont ceux des bases de données mais correspondent, la plupart du temps, à une synthèse de nombreux résultats, plus ou moins cohérents; l'ADN plastidial n'est pas toujours double brin, ni circulaire, et parfois très fragmentaire ou répétitif dans un organite donné... Il va sans dire que le "génome" plastidial est fort variable entre cellules et même entre chloroplastes d'une même cellule chez un organisme.

Diversité des "génomes" chloroplastiques

référence
base
Entrez
taille
(en nucléotides)
nombre de
protéines
codées
nombre
d'ARN
codés


Euglena gracilis

NC_001603
143.171
67
48

Chlorella vulgaris

NC_001865
150.613
174
36


Porphyra purpurea (algue rouge)

NC_000925
191.028
209
44

Chara vulgaris ("algue" characée)

NC_008097
184.933
105
43

Marchantia polymorpha (hépatique à thalle)

NC_001319
121.024
89
45


Cycas taitungensis

NC_009618
163.403
122
46


Brachypodium distachyon (Graminée)

NC_011032
135.199
81
46

Hordeum vulgare (orge commun, Graminée)

NC_008590
136.462
83
56

Saccharum officinarum (canne à sucre)

NC_006084
141.182
117
46

Zea mays (le maïs)

NC_001666
140.384
111
46

Epifagus virginiana (parasite Orobranche)

NC_001568
70.028
25
31

Pinus koraiensis (un pin rare coréen)

NC_004677
117.190
273 
40

Pinus contorta

NC_011153
120.011
67
32

Daucus carota (la carotte)

NC_008325
155.911
85
51

Nicotiana tabacum (le tabac)

NC_001879
155.943
98
45

Platanus occidentalis

NC_008335
161.791
85
45

Arabidopsis thaliana

NC_000932
154.478
85
44

Le "génome" chloroplastique de la plante modèle Arabidospsis thaliana n'est pas particulièrement représentatif mais ne constitue pas non plus une exception; il est détaillé ci-dessous.

C'est l'Orobranche parasite Epifagus qui présente le "génome" le plus réduit.

Là encore, trop peu de taxons sont connus (170 dans la base NCBI) pour que l'on puisse dégager des traits généraux.

Une diversité importante mais des synthèses très limitées

Arabidopsis thaliana a un "génome" chloroplastique de 154.478 nucléotides sous la forme d'un ADN circulaire double brin (mais, là encore, des formes linéaires sont connues, et il y a une grande variabilité de matériel entre les organites: le "génome" circulaire présenté est en quelque sorte une représentation moyenne théorique qui ne tient notamment pas compte des nombreux exemplaires de chaque gène...).
51% d'ADN codant
129 gènes (85 de protéines et 44 d'ARN).

ADN d'un chloroplaste d'A. thaliana ; représentation graphique dans la base GenBank :

En comparaison du "génome" mitochondrial le "génome" chloroplastique est incontestablement plus riche mais sans que l'on aie une structure différente : 7 ARNr (2x16S, 2x23S, 2x4,5S, 5S) et 37 ARNt (dont certains en double).

Les protéines codées par les gènes chloroplastiques appartiennent à la chaîne photosynthétique, on retrouve aussi des sous-unités de l'ATPsynthase, mais aussi des protéines ribosomales, ou encore des sous-unités de l'ARNpolymérase, absentes dans la mitochondrie...


Chloroplastes sans ADN...

Les lignées d'Euglènes présentant une régression chloroplastique, une fois cultivées à l'obscurité, sont parfois interprétées avec le même type de raisonnement simpliste que celui réalisé pour les colonies "petite" de levure de bière (Biologie moléculaire de la cellule, Alberts et al., Flammarion-Médecine science, 713).

On notera que chez Acetabularia près de 50% des plastes ne contiennent pas d'ADN. L'interprétation actuelle, bancale, est qu'il existerait une incompatibilité génomique entre les "génomes" nucléaire et plastidial (voir page spéciale).

Plutôt que de remettre en cause le modèle on fait intervenir un génome nucléaire à la rescousse pour expliquer les déficiences du "génome" plastidial. C'est encore une fois abuser de la comparaison entre organite et organisme.

L'organite ne représente qu'une toute petite part du métabolisme (une région très limitée de l'espace des régulations métaboliques de la cellule) et rien n'empêche que l'on y observe des zones de discontinuité métabolique conduisant à une absence de synthèse d'ADN. Ce qui tend d'ailleurs à proposer de séparer la genèse de la forme de l'organite avec la synthèse d'ADN qui est associée à son fonctionnement.


Remarque:
En ce qui concerne la théorie endosymbiotique, il ne faut pas oublier qu'une bactérie compte, avec un génome de taille moyenne et une vraie autonomie, pas moins de 4.200 gènes, alors qu'un organite est limité à quelques dizaines ou centaines de gènes pour un ADN près de 100 fois moins long ! Les arguments de similitude ne manquent pas, mais il est regrettable que l'on passe trop facilement de la reconnaissance d'une théorie séduisante au rejet d'autres hypothèses plus complexes. Parmi celles-ci, je pense par exemple à des dynamiques de type "répliques" (ou redondantes) au sein de la cellule, provoquant l'apparition de structures "cellulaires" internes (des plissements, en quelque sorte, de l'espace métabolique, "à la René Thom", comme ce dernier a pu en proposer dans le cas de l'organogenèse
- voir page sur les modèles thomiens) ; les similitudes génomiques venant alors non pas d'une origine "évolutive" (au sens d'historique de filiation), mais d'une similitude de métabolisme (non moins justifiable par l'évolution mais au support moins évident : des fonctions et non plus de la matière). retour


Projet de biologie théorique

Générer des structures (boules, bâtonnets, tubes anastomosés...) par des plissements de l'espace métabolique des régulations. On notera que la genèse de ces formes pourrait être identique entre des unicellulaires procaryotes et des organites eucaryotes (ce sont en effet les mêmes formes).
Finalement, cela revient à présenter la forme de vie primitive : la cellule procaryote, d'en lister les fonctions minimales et les formes qu'elles engendrent et appliquer cela à la mitochondrie comme un compartiment de l'espace des régulations d'une cellule eucaryote, nettement plus complexe... À moins qu'il ne faille plutôt considérer que le procaryote est pluricellulaire et que la cellule procaryote n'est que la mitochondrie, ou le chloroplaste,.... du procaryote pluricellulaire.... La pluricellularité des procaryotes n'est peut-être pas équivalente de celle des eucaryotes....


1.4 Génomes nucléaires eucaryotes : ordre et désordre

Notre vision du génome nucléaire est progressivement passée du modèle bactérien de génes ordonnés linéairement à une pagaille dans laquelle on tente de remettre de l'ordre, mais peut-être pas de la même façon à toutes les échelles ET DIMENSIONS.
Ainsi, pour l'ADN nucléaire, deux visions se superposent en créant des confusions car l'ADN n'y est pas étudié à la même échelle ou dimension :
- d'une part l'ADN chromosomique, avec une vision davantage héréditaire et une DIMENSION CYTOLOGIQUE ;
- d'autre part l'ADN moléculaire à DIMENSION BIOCHIMIQUE, composé de gènes, unités de fonction synthétique, tout comme chez les bactéries et les fragments de génomes des virus et organites; l'ADN extrait, coupé et séquencé des biologistes moléculaires...
Ces deux niveaux restent actuellement non fusionnés. L'informatique donne d'ailleurs une fausse vision d'unité étant donné la capacité à zoomer quasi-instantanément d'une échelle à l'autre (le problème est que l'on zoome dans le modèle et non dans le réel). La juxtaposition linéaire de données n'est pas justifiée par les résultats expérimentaux, mais elle résulte d'une position théorique qui n'est même plus discutée. En pointant les incohérences on peut tenter d'y remédier.

1.4.1 - L'ordre à l'échelle de la chromatine et du chromosome


1.4.1.1 - l'ADN nucléaire n'est pas nu et parfois très condensé grâce à des protéines


À l'exception de l'ADN mitochondrial et plastidial (voir ci-dessus), l'ADN des cellules eucaryotes est compacté (séquestré) , en dehors des phases de division, au sein d'un organite : le noyau, que l'on peut considérer comme une citerne délimitée par la double membrane du réticulum endoplasmique (percée de pores). Il y a donc un lien fort entre synthèse d'ADN et formation et maintien de la forme du réseau endoplasmique (dynamique).

Lorsque la cellule est au repos (et non en phase M de son cycle cellulaire) le contenu nucléaire, nommé chromatine, se présente comme une masse plus ou moins homogène, basophile (qui prend facilement les colorants basiques), où l'on peut distinguer un certains nombre de nucléoles (zones ayant une affinité encore plus marquée pour les colorants basiques).

 

voir page sur les chromosomes

La chromatine contient environ 50% d'ADN et 50% de protéines.

Au microscope électronique à transmission on peut distinguer deux types de chromatine :
- l'euchromatine, claire au ME (peu colorable au tétroxyde d'osmium)
- et l'hétérochromatine, plus colorable, sombre au ME.

Le modèle habituellement retenu est celui d'une fibre chromatinienne unique, plus ou moins condensée.
L'euchromatine correspondrait alors à la forme relâchée d'un filament d'ADN, actif métaboliquement, s'enroulant périodiquement autour de petits cylindres (nucléosomes).
L'hétérochromatine, plus riche en protéines , correspondrait à une forme condensée inactive métaboliquement, du même nucléofilament. Les nucléosomes y seraient plus ou moins empilés.


La structure des nucléosomes est connue. Ils sont composés de sous-unités de protéines du groupe de histones, qui sont les protéines basiques responsables de colorations de la chromatine sur les préparations observées au MO.
Mais il existe aussi des protéines acides qui se fixeraient au couple ADN-histone. Parmi elles les protéines régulatrices de l'expression des gènes. D'une façon générale ces protéines "fonctionnelles" sont beaucoup moins bien connues que les histones qui ne semblent intervenir que par leur structure, même si certains ont émis l'hypothèse que la compaction de l'ADN grâce aux histones était évidemment une forme de contrôle par la cellule de l'activité génique par le simple fait de l'accessibilité des gènes, fortement diminuée pour de l'ADN enroulé autour d'un tore.

En travaux

Nouvelles données sur les nucléosomes BMG


voir page sur les chromosomes

En phase de division (M) l'enveloppe nucléaire se fragmente (chez la plupart des organismes, mais pas chez de nombreux unicellulaires) et le contenu nucléaire apparaît sous forme de chromosomes (masses allongées colorables au MO et au ME) qui se déplacent dans la cellule, se fragmentent, puis sont repartis dans les cellules filles issues de la division cellulaire (voir mitose).

Le chromosome contient davantage de protéines que la chromatine : environ 1/3 d'ADN pour 2/3 de protéines (pour moitié basiques, de type histones, pour une autre moitié, acides, non histones).

On considère habituellement que le chromosome est issu de la condensation de la chromatine, mais la structure du chromosome reste très hypothétique. Il reste fondamentalement à expliquer l'origine du doublement de la quantité de protéines entre la chromatine et le chromosome.

Le problème de l'accessibilité de l'ADN par la machinerie métabolique qui assure son expression (sous forme d'ARN par transcription) n'est pas un problème résolu. Certains gènes sont clairement transcrits lors de la phase de division. Des hypothèses de décondensation partielle ont été émises, à l'instar des chromosomes "en écouvillon" que l'on observe dans des cellules qui présentent une forte activité de synthèse protéique (ovocyte II des amphibiens par exemple).

Cependant, tout l'ADN ne se condense pas en chromosomes. En effet, le ou les nucléoles restent souvent séparés et sont plus ou moins répartis entre les cellules filles. Il existe aussi une certaine quantité d'ADN extrachromosomique chez certaines espèces. Il semble que cet ADN contienne surtout des gènes codant pour des ARN ribosomiaux.


1.4.1.2 - l'ADN nucléaire est fragmenté et territorialisé

L'ADN nucléaire n'est pas composé d'une seule molécule (3.000.000.000 de nucléotides chez l'homme ce qui correspond à environ 1 m d'ADN on comptant 10,5 pb par tour et 3,4 nm par tour d'hélice) mais fragmenté. Lors de la division (mitose) l'ADN est principalement présent dans les chromosomes, ce qui rend évident sa fragmentation. Lors de la phase de repos (interphase) il existe aussi une territorialisation qui peut faire penser que cette fragmentation persiste.


Habituellement on considère que la norme pour une cellule est de posséder n chromosomes (n nombre haploïde), ou 2n (2n = nombre diploïde). Mais de très nombreuses cellules présentent des ploïdies variées: 3n, 4n, 6n... (ces ploïdies peuvent toucher toutes les cellules mais pas toujours). On connaît des polyploïdies qui peuvent atteindre des milliers de copies. Dans ce cas il peut exister des chromosomes très particuliers comme les chromosomes polytén(iqu)es de certains tissus d'insectes (1024 copies accolées, pense-t-on, de chaque filament d'ADN pour chaque chromosome, le nombre de chromosome restant inchangé).

Des territoires nucléaires chromosomiques...

Selon l'interprétation la plus habituelle chaque chromosome apparaissant lors de la mitose correspond à une unique et gigantesque molécule d'ADN. Chaque cellule aurait ainsi le même nombre de molécules d'ADN que de chromosomes (à la différence près, bien sûr, qu'un chromosome prophasique à 2 chromatides contiendrait 2 molécules d'ADN identiques répliquées lors de la phase S du cycle cellulaire). Voilà pour le "dogme". Mais les choses sont sans aucun doute plus complexes.

On a effectivement reconnu, notamment à l'aide des systèmes immunofluorescents de marquage chromosomique, que chaque chromosome condensé correspondait bien a un territoire nucléaire.

simulation

Paysage nucléaire,
voir page sur les chromosomes

Mais ce n'est pas pour autant que l'on sait comment on passe d'un état à l'autre et surtout comment se présente et s'organise l'ADN à chaque niveau.

Les chromosomes correspondent sans aucun doute à des territoires nucléaires associés à un paysage métabolique qui pourrait donc être mis en relation avec une région de l'espace des régulations. Chaque chromosome serait la trace d'une région de l'espace métabolique.

La structuration de l'ADN serait alors la signature du type de métabolisme associé à chaque paysage.

Repliement de la fibre chromatinienne qui pourrait se condenser en chromosome lors de la division


Un exemple de mélange des techniques.... un travail colossal d'une nombreuse équipe alliant biochimie, technique de séquençage massivement parallèle et outils statistiques... pour un résultat pas si convaincant

 

N.B. le terme "chromosome" est souvent employé de façon abusive pour désigner la chromatine ou fibre chromatinienne...

Les études les plus récentes concernant l'organisation nucléaire du génome tentent de concilier les méthodes de la métagénomique avec la morphologie. Voici quelques éléments d'un article récent qui me paraît représentatif:
Comprehensive Mapping of Long-Range Interactions Reveals Foldind Principles of the Human Genome, Erez Lieberman-Aiden, Nynke L. van Berkum et al.
(19 co-signataires, tous issus de laboratoires américains), Science, 326, 9 octobre 2009, 289-293 (une version PDF est accessible ici début décembre 2009, voir aussi brève de La Recherche, décembre 2009, 436, p 20)

L'objectif :
cartographier la conformation (3D) des "chromosomes" humains au sein du noyau en fixant les boucles d'ADN voisines (par le formol ou formaldéhyde qui est utilisé comme fixateur dans d'innombrables procédés depuis le fin du XIXème siècle). Puis l'ADN fixé est extrait, coupé et séquencé par une méthode globale. On espère ainsi repérer la position de chaque séquence dans le génome entier. On aurait donc une idée du voisinage de chaque région chromatinienne lors de la phase nucléaire.
Il est à noter que cette technique, pour aveugle qu'elle soit et nécessitant une grande part de confiance dans la technique, permettrait de repérer aussi bien des interactions entre fibres chromatiniennes correspondant à des chromosomes différents qu'entre des fibres au sein d'un futur chromosome.

La méthode (Hi-C) :

« Here, we report a method called Hi-C that adapts the above approach to enable purification of ligation products followed by massively parallel sequencing. Hi-C allows unbiased identification of chromatin interactions across an entire genome.We briefly summarize the process: cells are crosslinked with formaldehyde; DNA is digested with a restriction enzyme that leaves a 5! overhang; the 5! overhang is filled, including a biotinylated residue; and the resulting blunt-end fragments are ligated under dilute conditions that favor ligation events between the cross-linked DNA fragments. The resulting DNA sample contains ligation products consisting of fragments that were originally in close spatial proximity in the nucleus, marked with biotin at the junction.
A Hi-C library is created by shearing the DNA and selecting the biotin-containing fragments with streptavidin beads. The library is then analyzed by using massively parallel DNA sequencing, producing a catalog of interacting fragments.»

* méthode avec dépôt de brevet en cours.....

Nous présentons ici une méthode* nommée Hi-C qui modifie l'approche précédente afin de permettre la purification de produits liés ainsi qu'un séquençage massivement parrallèle. Hi-C permet d'identifier de façon impartiale les interactions de la chromatine au niveau du génome entier. Résumons brièvement le procédé: les cellules sont fixées avec le formaldéhyde ; l'ADN est digéré par une enzyme de restriction qui laisse un bout;collant 5'; le bout-collant 5' est complété et un résidu biotinylé est ajouté ; et les fragments à bouts francs sont ligaturés dans des conditions de dilution qui favorisent la liaison entre les fragments d'ADN pontés. L'échantillon d'ADN qui en résulte contient donc des éléments ligaturés qui étaient situés auparavant dans le même voisinage au sein du noyau, et qui sont maintenant marqués par de la biotine au niveau de leur jonction.
Une banque Hi-C est créée en coupant l'ADN et en récupérant les fragments contenant la biotine au moyen de couches de streptavidine. La banque est ensuite analysée par séquençage massivement parallèle et fournit ainsi un catalogue des fragments voisins.

Résultats :
Pour ce qui concerne les interactions entre chromosomes, le résultat obtenu est représenté ci-dessous sous la forme d'un graphique
(fig 2B partielle reproduite ci-dessous). La couleur de chaque carré est proportionnelle à l'écart entre le modèle théorique où les interactions intra et interchromosomiques sont identiques et les résultats obtenus: le rouge indique un nombre de contacts supérieur et le bleu un nombre de contacts inférieur à ce qui est attendu dans le modèle.

Ce résultat n'est pas nouveau mais sa cohérence avec les modèles actuels fournit un argument en faveur de la validité de la méthode Hi-C.

On notera ainsi que les petits chromosomes riches en gènes (n° 16, 17, 19, 20, 21 et 22) interagissent préférentiellement entre eux selon le modèle obtenu à partir de la FISH, ce qui est cohérent avec l'Hi-C. On notera aussi que le chromosome 18, petit mais pauvre en gènes n'interagit pas fréquemment avec les autres chromosomes, ce qui est aussi concordant avec le modèle obtenu par FISH qui le place à la périphérie du noyau.


Interactions intrachromosomiques (à l'échelle de fragments de 1 Mb) pour le chromosome 14 (bras long seul) après digestion avec l'enzyme de restriction HindIII ; l'intensité du rouge correspond au nombre de lectures (0 à 50) ; barres tous les 10 Mb sur le chromosome (d'après fig.1B)
Des résultats similaires ont été obtenus en répétant la technique avec la même enzyme puis avec une autres enzyme de restricttion (Ncol).

Au sein d'un même chromosome les interactions sont mesurées en fonction de la taille des fragments considérés. Une fois encore les résultats confortent les données obtenues par FISH.

La probabilité de contact entre deux loci au sein d'un même chromosome diminue en fonction de la distance entre les deux sites ; on observe peut-être un plateau vers 90 Mb; pour les interactions interchromosomiques, la référence est représentée par la droite 3 et l'on note que le chromosome 1 est susceptible, de façon globale, d'établir davantage de liaisons avec le chromosome 10 (droite 2 située au-dessus de 3) qu'avec le chromosome 21 (droite 4 située au-dessous de 3)
(d'après fig.2A).


couverture du n°326 de Science: polymère de chromatine représenté en courbe de Hilbert (couleurs voir figure à droite). Les auteurs proposent que la fibre chromatinienne soit repliée sans faire aucun nœud au sein de globules (fractaux) tous les 500 kb - 7 Mb.

Un traitement mathématique relativement complexe est ensuite utilisé pour interpréter les résultats afin de supprimer l'effet de proximité entre deux loci (les résultats sont normalisés par rapport à une matrice qui ne tient compte que de la distance); puis une analyse en composantes principales permet de proposer une partition de chaque chromosome en domaines de deux types : chromatine ouverte (open) et chromatine fermée (closed).


Carte de corrélation du chromosome 14 obtenue à une résolution de 100 kb; la première composante principale est en corrélation avec la distribution des gènes pour la chromatine ouverte ; les marqueurs de la chromatine active (H3K36) corrèlent bien mieux que ceux de la chromatine inactive (H3K27), ce qui tend à indiquer que ce sont bien les zones de chromatine ouverte qui seraient actives
(d'après fig.3G).

Modèle :
Une étude de corrélation fine au sein de chaque chromosome a permis de proposer des domaines de 500 kb à 7 Mb environ qui correspondraient aux domaines de chromatine fermée. Mais le modèle de globule d'équilibre (equilibrium globule) proposé par certains auteurs pour l'organisation de la chromatine dense ne cadre pas avec les données et un modèle de globule fractal est proposé (figures ci-dessus).


Architecture du génome aux trois échelles (d'après fig.4D).


Un polymère déplié de 4,8 Mb de long en haut. Deux modèles de globule. Le modèle de globule d'équilibre a été rejeté ici au profit du modèle de globule fractal sans aucun nœud
(d'après fig.4C).

« Of course we cannot rule out the possibility that other forms of regular organization might lead to similar findings.»

« Bien sûr nous ne pouvons exclure la possibilité que d'autres formes d'organisation régulière puisse mener à des résultats identiques».

C'est tout le problème de ces modèles, certes cohérents avec les résultats, mais il existe un grand nombre de formes qui pourraient donner des résultats identiques, à commencer par des boucles d'ADN courtes et non pas une unique molécule de dimension faramineuse. Les techniques mises en jeu ici exigent une confiance très forte dans le modèle initial pour que les résultats puissent être interprétés dans un sens cohérent. La question de savoir si l'on a pas construit un château de cartes n'est pas une question oiseuse mais un véritable problème de signification en biologie moléculaire : voir page suivante pour un approche des techniques. Les points les plus délicats restent le rôle réel du formol (technique d'immunoprécipitation de la chromatine ou ChIP) et toutes les étapes de coupure-ligation-extraction jusqu'au séquençage au hasard (shotgun sequencing).

Le gène, unité fonctionnelle synthétique


1.4.2 - Le désordre à l'échelle des fonctions : gènes et autres séquences
On ne répétera jamais assez que le gène n'est pas défini par sa structure mais par sa fonction. Trop souvent on parle de gène de façon hypothétique sans avoir vérifié in vivo qu'une séquence correspondait effectivement a un produit. Sans produit (ARN et/ou peptide) il n'y a pas de gène. Les études in silico ont multiplié les gènes hypothétiques et ont conduit à brouiller notre compréhension de la structure et surtout de la dynamique du génome. Ceux qui travaillent sur des réseaux effectifs de gènes savent combien est complexe la dynamique des fonctions faisant intervenir les gènes et leurs produits.

1.4.2.1 - L'ADN nucléaire est plus ou moins pauvre en gènes


Des chiffres qui reposent sur des estimations

Génomes nucléaires de quelques espèces-modèle eucaryotes
espèce
taille
(nucléotides)
nombre de gènes estimés*
nombre de chromosomes

Saccharomyces cerevisiae (levure de bière, champignon)

13.500.000
6.200
16 x 2

Cænorhabditis elegans (ver nématode)

100.000.000
13.500-20.000
6 x 2

Arabidopsis thaliana (arabette, plante à fleur)

120.000.000
25.000
10 x 2

Triticum æstivum (blé, Graminée)

16.000.000
inconnu
21 x 2

Culex pipiens (insecte - moustique)

3 x 2

Drosophila melanogaster (insecte - mouche)

180.000.000
14.700
4 x 2

Homo sapiens

3.000.000.000
20.000-100.000
23 x 2

* les estimations du nombre de gènes varient fortement d'une source à l'autre, principalement parce que la plupart des gènes estimés sont uniquement supposés à partir de la reconnaissance automatique de similitudes de séquence avec des gènes connus, et ensuite parce que un certain nombre de gènes sont dupliqués, parfois un grand nombre de fois.

Séquençage de chromosomes eucaryotes complets

UNE BELLE PAGAILLE !

Comparaison de la densité génique de l'ADN de 4 organismes au voisinage du gène de l'ARNpolymérase (une région de 65kb est représentée).
Redessiné approximativement d'après BMG, fig 7.2 -
Je ne sais pas si ces données sont réelles ou juste une illustration avec des chiffres théoriques de densité moyenne et d'organisation du génome.... je penche pour l'illustration.

Le nombre de gènes nucléaires varie entre 5.000 et 50.000 sans rapport avec la complexité des organismes

Si l'on utilise le même paramètre (nombre de gènes/taille du génome; ce qui ne tient pas compte bien sûr des gènes chevauchants...) la densité génique des virus est de l'ordre de 1 à 1,5 gène/kb et celle d'une mitochondrie humaine 2 gènes/kb... De telles valeurs indiquent peut-être un changement de signification de la répartition des gènes au sein de l'ADN pour ces "génomes". Cela conforte l'idée que ces fragments d'ADN NE SONT PAS DES GÉNOMES. La fabrication de ces acides nucléiques n'est peut-être pas réalisée par le même type de mécanisme que celui des cellules vivantes.

Dans le cas d'organismes vivants - et les procaryotes sont probablement à classer à part -, la complexité de la structure du génome reflète la complexité de l'organisme et des dynamiques GLOBALES, et non pas seulement cellulaires (voir aussi tableau sur fond jaune ci-dessus).

On pourrait penser que plus un organisme est complexe plus il devrait posséder de gènes, mais ce n'est pas ce que l'on observe au niveau cellulaire : le nombre de gènes par cellule n'est pas si différent entre organismes (les procaryotes mis à part avec de l'ordre de 500 à 6.000 gènes) avec des chiffres estimés entre 5.000 et 50.000 gènes. Leur nombre oscille entre un facteur 1 à 10 selon les organismes, mais indépendamment de la taille ou de la complexité des organismes.


Nombre typique de gènes (mais attention on ne tient pas compte des duplications, voir ci-dessous)
bactérie
2.000<< 6.000
unicellulaire eucaryote
de l'ordre de 6.000
pluricellulaire eucaryote
12.000 << 25.000


La complexité morphologique ne demande donc probablement pas davantage de gènes. Par contre, on observe que le morcellement des gènes (introns, insertion de séquences répétées) semble être un paramètre qui augmente manifestement avec la complexité des organismes et du nombre de leurs cellules.

La première hypothèse, la plus évidente, serait alors que le morcellement augmente lors de chaque division. Plus un organisme possède de cellules plus son ADN serait fragmenté. Cela reste à démontrer. Corrélativement il ne semble pas (même si l'exploration précise n'a sans doute jamais été faite) qu'entre une cellule embryonnaire et une cellule différenciée la masse d'ADN soit si différente, du moins de façon constante et avérée (on rapporte de nombreux cas de polyploïdies ou au contraire d'ADN manquant, dans les cellules différenciées, mais aucune généralisation ne peut être faite actuellement).

Une autre idée séduisante reste celle de l'évolution. les organismes les plus simples étant supposés être apparus d'abord, la complexité des génomes reflétant alors l'évolution des organismes. Mais, attention, il ne s'agit pas ici d'évolution par ajout ou modification de gènes, mais bien par ajout des séquences intercalaires et/ou répétées... Il est clair que ce ne sont pas les organismes les plus évolués (au sens de distance phylogénétique maximale et non d'éloignement dans le temps) qui ont le plus de gènes.

le morcellement des gènes en exons-introns

La découverte des introns désormais classique repose sur la comparaison (par réalisation d'un hybride ADN-ARN) entre la longueur du gène transcrit et la longueur de l'ARNm traduit. Ce dernier étant sensiblement plus court dans de très nombreux cas. On nomme introns les séquences de l'ARN (issues de la transcription d'un gène) non codantes qui sont, la plupart du temps excisés, c'est-à-dire coupées, lors de la maturation de l'ARNmet avant sa traduction au sein des ribosomes. Les exons sont alors les séquences codantes du transcrit primaire qui, bout-à-bout, composent l'ARNm.

La répartition et le rôle des introns reste un mystère.


nombre d'introns = nombre d'exons - 1 ; 1 exon signifie qu'il n'y a pas d'intron (redessiné approximativement d'après AGM fg 2-5)


Relations entre le
nombre moyen d'exons par gène (+), la taille des gènes (o) et la longueur des ARNm (carré) pour quelques organismes (graphique tracé dans LoggerPro à partir des données du tableau 2-1 de AGM)


1.4.2.2 - L'ADN nucléaire contient des séquences fortement répétitives mais aussi des gènes répétés

Éléments répétés à deux échelles

Pour se rendre compte de la signification des éléments répétés (voir plus bas pour les sigles) à deux échelles différentes voici deux représentations fort éloignées:

À l'échelle d'un chromosome :

d'après AGM, fig 12-13, fortement modifié
Les plus petits chromosomes humains représentent 2% de la longueur totale du génome et les plus grands 8% environ. Pour une longueur totale estimée à 3.000.000 kb, ce schéma représente donc un segment d'ADN compris entre 60.000 et 240.000 kb (à comparer avec les 54 kb de l'énorme gène de l'HGO ci-dessous).
Je fais partie de ceux qui pensent que la différence d'échelle nécessite un changement de théorie et donc que l'organisation LINÉAIRE présentée ici est un artefact.

À l'échelle d'un gène :
Répartition des éléments répétés (Alu, autres SINE, LINE et transposons LTR et SSR) au sein du grand gène (54 kb, 54.314 bases précisément) de l'HGO (voir page sur l'alcaptonurie pour des données sur la maladie)

D'après AGM, fig. 12-14 modifiée
On notera que certains éléments répétés sont situés dans l'un des 14 exons (en vert plus foncé; ce qui ne peut conduire qu'à un arrêt de la traduction au niveau de la séquence complémentaire répétée au sein d'un ARNm transcrit à partir d'un tel gène), même si la plupart sont situés dans les introns (en vert plus clair).

Les éléments répétés correspondent à près de 50% du génome mais l'on ne tient pas compte des gènes répétés

Génome humain
(3.200 Mb - 100%)
ADN intergénique
(répété (46,6%) et non répété (15,9%))
(2.000 Mb - 62,5%)
Séquences répétées dispersées
(1.400 Mb - 43,8%))
ADN microsatellite
(ADN répété en tandem)
(90 Mb - 2,8%)
ADN unique, régions régulatrices, miARN
(510 Mb - 15,9%)
Gènes
(48 Mb - 1,5%)
Séquences associées aux gènes
(1.152 Mb - 36,0%)
Introns, UTR
Fragments de gènes
Pseudogènes

Organisation du génome humain
(d'après BMC, fig 7.4, modifiée)


Des questions non résolues:
- ces répétitions sont-elles stables (les mêmes dans deux cellules chez un individu ?, chez deux individus de la même espèce ? à toutes les étapes du développement ? du vieillissement ?)...?

régions intergéniques - 75%
séquences répétées - 55%
séquences intergéniques répétées dispersées (45%)
SINE (13%)
LTR
LINE (~20%)
transposons
séquences intergéniques répétées en tandem (10%)
satellites (5%)
mini-satellites (1%)
micro-satellites (3%)
séquences intergéniques uniques - 20%
Gènes : séquences codantes et régions de régulation - 2%
Introns, promoteurs et pseudogènes - 23%

Autre source, autres données: PBMBC, Fig 1.2, non modifiée

Un ensemble très hétérogène

 

séquences répétées des télomères
Les télomères sont composés de séquences repérées ou répétitions télomériques TTAGGG chez l'homme (TTGGGG chez le cilié Tetrahymena) qui sont ajoutées par l'enzyme nommée télomérase qui interviendrait dans le vieillissement... (378AGM).

séquences répétées des centromères
On ne connaît la structure que de quelques centromères (voir ci-contre). La plupart possèdent des séquences répétées.

taille
composition
Saccharomyces cerevisiae
0,125 kb
3 groupes de séquences non répétées (CDE I-II-III)
Saccharomyces pombe
40 - 100 kb
seule une zone centrale de 5-7kb n'est pas composée d'ADN répété
Drosophile melanogaster
~ 400 kb
composés principalement d'ADN répété
Homo sapiens
240 kb à plusieurs Mb

Taille et composition de quelques centromères
(in BMG fig 7.8)

O-O-O-O-O-O-O
répétitions "en tandem"= les unes à la suite des autres comme des cyclistes sur un vélo "tandem" qui pourrait avoir un grand nombre de selles; cependant les répétions en tandem n'imposent pas l'absence d'autres séquences courtes s'insérant entre les éléments du tandem multiple...

O.....O-O........O...O............O
l'ADN répété qui n'est pas disposé en tandem est dit "dispersé".

origines de réplication répétées
Des séquences "origine de réplication" se retrouvent typiquement toutes les 30-40kb, la plupart du temps dans des régions non-codantes. Ce sont précisément les sites où commence la séparation des deux brins et la réplication. Les origines de réplication sont inclues dans ce que l'on appelle un réplicateur, ensemble des séquences cis suffisantes pour permettre l'initiation de la réplication. Dans le modèle du réplicon (Jacob, Brenner et Cuzin, 1963) la réplication nécessite aussi un initiateur ou protéine initiatrice, seule spécifique de la séquence à répliquer. Ces modèles ont été élaborés à partir d'organismes modèles procaryotes et eucaryotes unicellulaires et ne sont pas extrapolables sans une grande prudence à tous les organismes et a fortiori à l'homme.

séquences répétées péricentromériques = ADN satellite
* l'ADN hautement répétitif mais à séquence simple entourant le centromère ou ADN satellite. Aisément séparable sur gradient de densité de chlorure de césium par centrifugation, l'ADN satellite contient de courtes séquences (généralement moins de 10 bases) répétées en tandem (la zone de répétition peut s'étendre jusqu'à quelques centaines de kilobases). Par marquage immunofluorescent on a mis en évidence que l'ADN satellite se trouve majoritairement dans l'hétérochromatine du noyau au repos qui entoure le centromère par des bandes très fortement colorées dans les préparations pour la ME (au tétroxyde d'Osmium).
Chez la drosophile la séquence répétée est AATAACATAG, pour la souris elle est CCCTAA.
Leur fonction est inconnue.


autres séquences répétées de fonction inconnue

* les répétitions en tandem en nombre variable (variable number tandem repeats = VNTR) ou ADN minisatellite. Leur fonction est inconnue.

* ADN microsatellite = régions dispersées composées d'un nombre variable de dinucléotides répétées en tandem. Cet ADN a fourni de nombreux marqueurs moléculaires pour la cartographie de génomes de grande taille. Leur fonction est inconnue.


gènes répétés

organisateur nucléolaire
250 à 150 copies en tandem de gènes d'ARNr sont regroupées dans l'organisateur nucléolaire chez le drosophile; un organisateur nucléaire humain abrite environ 25 copies d'ARNr.

ARNt
Dans le génome humain, on connaît environ 50 sites chromosomiques correspondant aux différents ARNt, chaque site contenant 10 à 100 copies du même gène d'un ARNt.

histones
Les gènes d'histones sont organisés en tandem chez certaines espèces ... comme l'oursin; chez la drosophile l'organisation en tandem est doublée d'inversions :

pseudogènes
Certains exemplaires de gènes, souvent déjà répétés, sont devenus non fonctionnels et sont qualifiés de pseudogènes (ils ne sont pas transcrits). Les pseudogènes sont des éléments moyennement répétés dispersés dans le génome. Comme ils ne contiennent pas les introns présents dans le gène fonctionnel d'origine on pense qu'ils sont été synthétisés par rétrotranscription puis insérés dans l'ADN.
(Exemple classique des chaînes ß de la globine: http://www.chups.jussieu.fr /polys/biochimie/ BMbioch/ POLY.Chp.13.2.html)


Gènes d'histones (< et > : sens de transcription) d'après AGM fig 12-4

oursin

>H3>H2A>H1>H4>H2B>H3>H2A>H1>H4>H2B>H3>H2A>H1>H4

drosophile

>H2A<H4>H3>H1<H2B>H2A<H4>H3>H1<H2B>H2A<H4>H3>H1<H2B>H2A<H4>H3>H1<H2B

séquences mobiles (répétées)

elles correspondent à des séquences d'ADN qui sont fortement apparentées à de nombreux provirus (ch 13 AGM); ces séquences peuvent représenter la majorité de la masse d'ADN répété d'une cellule.

transposons
* les transposons ou séquences transposées sont considèrées comme capables de se déplacer et de se propager dans le génome en s'auto-réplicant.

rétrotransposons
* les rétrotransposons se propagent d'eux-mêmes à l'aide d'une transcriptase inverse (ils s'insèrent dans le génome sous forme d'ADN mais sont issus d'un ARN);
- les SINE (short interspersed elements = éléments courts dispersés) contiennent notamment les séquences Alu du génome humain (contiennent un site cible pour l'enzyme de restriction Alu). Les séquences Alu sont présentes en centaines de milliers d'exemplaires, sous forme complète ou partielle, et correspondent à environ 5% du génome humain. La séquence complète comprend 200 nucléotides environ et ressemble à l'ARN 7SL. On pense que ces séquences ont été rétrotranscrites à partir de l'ARN et se sont insérées dans le génome.
- certains retrotransposons ressemblent fortement aux génomes viraux (présence des
gènes comme gag, pol et env): par exemple les éléments copia de la drosophile (séquences de 5kb, avec gag et pol, présentes en 50 exemplaires environ par génome), les éléments Ty de la levure (éléments de 6kb, avec gag et pol, présents en 30 copies complètes environ par génome), et les LINE (long interspersed elements = longs éléments dispersés) de mammifères (1à 5kb avec séquence similaire au gène pol, en 20.000 à 40.000 exemplaires chez l'homme).


ADN intercalaire s.s.

L'ADN intercalaire (spacer en anglais) correspond en gros à l'ADN dans lequel on a pas pu identifier ni gène, ni éléments répété, ni élément mobile.... C'est de l'ADN en attente de compréhension...


1.4.2.3 - Des exemples


génome de Cænorhabditis elegans

 

 

 

 

Source:
Cænorhabditis elegans :
un organisme modèle en biologie, M-A. Félix, M. Labouesse et L. Ségalat, Hermann 2002

Premier génome métazoaire séquencé en 1998. Chromosomes sans centromères (fait rare mais pas unique) mais avec des télomères classiques (de séquence TTAGGC). Nombreuses séquences répétées dispersées entre les gènes et dont la fréquence augmente le long des bras des autosomes. 2,7% de régions répétées en tandem, 3,6% de régions répétées et inversées. Il existe aussi des régions répétées dispersées correspondant en majorité à des éléments transposables défectifs. Chaque chromosome (sauf le sexuel X) comporte une polarité qui apparaît lorsque l'on analyse la distribution de petites séquences répétées (MITE: miniature inverted-repeat transposable element); ces courtes séquences présentant une distribution asymétrique le long des chromosomes. Grande variété de transposons de type bactérien ainsi que plusieurs sortes de rétrotransposons.

L'analyse automatique par reconnaissance de séquence donne environ 20.000 gènes codants pour des protéines; les exons représentant 27% du génome et les introns 14%.

Plusieurs centaines d'autres gènes: 659 ARNt, ARNs(U1 à U6 formant le spliceosome ), ARNs leader (SL1 et SL2), plus des ARNr, ARNtélomériques et des snARNs. Plusieurs dizaines de gènes forment de petits ARNs non traduits.

Les analyses semi-automatiques des protéines ont permis de reconnaître 20 familles qui représentent 3.000 gènes (650 reconnus par exemple pour les chimiorécepteurs, 410 domaines de type protéine kinase, 240 domaines en doigt de zinc de type C2-C2, 170 domaines de type collagène...).
La comparaison des séquences entre C. elegans et Saccharomyces cerevisiae montre qu'environ la moitié des gènes de le levure ont un homologue chez le ver nématode, seuls un quart des gènes du vers étant représentés chez la levure.


en travaux

génome de l'homme

The Human Genome Project (HGP)

Human Genome Ressouces


1.4.2.4 - Le matériel génétique est hérité mais sans cesse remanié

ADN-ARN en interaction

ADN et ARN sont hérités avec :
- le cytoplasme (ARN uniquement),
- les organites (ADN et ARN)
- et les chromosomes (ADN) lors de la division.

Il est loin le temps où l'on pensait que le seul matériel génétique à être transmis était l'ADN.

Si on continue à n'enseigner le plus souvent que les seules hérédités chromosomique et mitochondriale (et chloroplastique), les travaux qui rétablissent l'importance de l'hérédité cytoplasmique sont nombreux.

Mais étant donné la difficulté de prouver expérimentalement ce type d'hérédité, tout comme l'extrême difficulté à établir des modifications génomiques qui auraient lieu lors du développement ou lors du vieillissement, on se contente souvent du modèle ancien alors que tout chercheur sait pertinemment que l'ADN (eucaryote) provient (probablement) au moins autant de l'ARN que de l'ADN par héritage entre cellules.

une molécule unique ou un amas de molécules d'origine variée ?

 

ADN -> ARN (longs et courts)


ARN longs -> ARN courts (comme ARNm)
ARN longs -> ADN (pseudogènes)
ARN courts -> ADN ( retrotransposons)
ADN + protéines histones -> chromatine ?
chromatine + protéines -> chromosome
ADN -> ADN réplication catastrophique
ARNm -> polypeptides
ARN + polypeptides -> particules (ribosomes, complexes enzymatiques)
polypeptides + polypeptides -> complexes
polypeptides + lipides -> structures planes (membranes) et vésicules....

Comment concilier les résultats de la génétique moléculaire et un modèle qui ne considère pas que chaque chromosome possède une unique molécule d'ADN stable et transmise par hérédité ?

Tant que l'on aura pas une idée précise du métabolisme de l'ADN, on ne pourra pas comprendre l'organisation nucléaire. Que l'on ait de petits ADN circulaires extrêmement mobiles (plus ou moins empilés) ou des territoires organisés contenant des molécules liant l'ADN... de toute façon il faudra se libérer du modèle héréditaire trop centré sur les unités mutables d'un groupe de liaison que sont les gènes héréditaires (voir cours spécialité). Il faudra abandonner la colinéarité ADN-gènes héréditaires pour sortir de l'impasse gène hériditaire-gène moléculaire. Commencer par le métabolisme de l'ADN pour ne s'attaquer qu'ensuite à son arrangement dans le chromosome... il est possible que le modèle actuel soit assez proche de la réalité mais avec de très nombreux petits ADN... Le tout est d'arriver à proposer un modèle dynamique (qui utilise les fonctions) et non structural (qui repose sur des interactions entre molécules plus ou moins figées dans l'espace).

Le métabolisme des acides nucléiques et la synthèse protéique...

C'est l'importance relative de ces différents phénomènes qui importe pour avoir une vue d'ensemble. La retrotranscription est-elle un phénomène rare ou bien est-ce le principal mode de fabrication de "gènes" ? Pourquoi n'y a-t-il pas de réplication de l'ARN ? Ce mécanisme n'existe-t-il vraiment pas ou bien ne le connaît-on pas ?

En travaux


1.5 Synthèse comparative
Une question est de savoir s'il y a un génome, un modèle de génomique, ou bien des génomes, tellement différents qu'ils correspondent à des réalités biologiques différentes. Voici une réponse pas forcément définitive...
Le problème fondamental vient de ce qu'un gène n'est pas défini par sa structure mais bien par sa fonction. Si l'on veut savoir si une portion d'ADN correspond à un gène il faut trouver un ou plusieurs transcrits (ARN) qui lui correspondent et essayer de savoir comment ils ont été obtenus (et reconstituer ainsi la transcription). Étant donné la diversité et la complexité des mécanismes de transcription (et surtout de maturation des ARN connus actuellement), c'est un travail fort difficile et sans beaucoup de certitudes. La plupart du temps on obtient une solution, que l'on peut nommer modèle, mais cette solution n'est probablement pas unique (elle reste donc un modèle) et rien ne prouve son universalité (même si de nombreux chercheurs utilisant le même modèle rendent sa conception familière... ce qui renforce (subjectivement) le paradigme (la confiance) mais non pas sa validité scientifique). Nous verrons dans le chapitre "méthodes" que la plupart des gènes rapportés depuis une dizaine d'années le sont par des recherches "in silico" (dans les bases de données informatisées) à l'aide d'analogies de séquences et non comme des résultats issus d'expériences in vivo.

Les "génomes" viraux et des organites ne sont pas des génomes mais des fragments

 

 

 

Schéma le plus parlant (voir ci-dessus) :

Des génomes procaryotes :
- linéaires ou circulaires
- fragmentés en petits éléments plus ou moins mobiles (plasmides...) et un élément principal
- tous les éléments sont plus ou moins répliqués (typiquement une dizaine d'exemplaires dans une cellule)
- plus ou moins liés à des protéines
- avec des gènes alignés
- les gènes sont peu répétés
- avec très peu d'ADN extragénique
- les gènes peuvent être reliés de façon simple (théorie de l'information génétique : transcription ± traduction) à des molécules ayant une fonction chimique locale (enzymatique, structurale...), idéalement avec la totalité des molécules de chaque cellule
- dupliqués et transcrits EN ENTIER en permanence (sauf lors des divisions)

Des génomes eucaryotes :
- très longs
- très fortement liés à des protéines
- fragmentés
- intégrés, lors de la phase de division, dans une structure ordonnée : le chromosome
- certains éléments sont mobiles et d'autres restent extra-chromosomiques
- avec de très nombreux gènes répétés (fonctionnels ou non) ; les gènes les plus utilisés sont répétés un grand nombre de fois (ARNt par exemple)
- avec une très grande quantité (au moins 50%) d'ADN composé de séquences répétées regroupées ou dispersées ; la fonction de ces séquences n'est pas connue
- on est loin de pouvoir relier de façon simple chaque molécule synthétisée par la cellule à un gène : les gènes se chevauchent et peuvent être transcrits de façon différente pour donner différents produits dans différents environnements : un gène n'a pas des signaux de début et de fin uniques
- l'ADN est synthétisé EN ENTIER juste avant une division cellulaire, mais aussi en permanence à partir d'ARN (mais on est loin de pouvoir estimer la part exacte de cette synthèse)
- l'ADN est transcrit en permanence non pas gène par gène, mais par grands morceaux et les ARN subissent de profondes transformations (coupures, associations...) avant de fournir les différents types d'ARN fonctionnels (ARNm, ARNt, ARNs.....)


Tableau de synthèse des quelques "génomes" pris en exemple dans cette page
particule / organite / organisme
taille (nucléotides ou p.b. si double brin)
nombre de gènes estimés
nombre de protéines
autres caractéristiques


particules
phage MS2 d'une entérobactérie

3.569

4

4
ARN simple brin
Virus herpès humain 5

235.646

167

165
ADN double brin,
2 gènes d'ARN non traduits
organismes procaryotes
cyanobactérie (Acaryochloris marina)

6.503.724

6396

6254
73 gènes d'ARN, 19 pseudogènes, 83% de l'ADN codant
Escherichia coli

4.570.938

4.440

4.228
112 gènes d'ARN, 100 pseudo-gènes, 86% de l'ADN codant
Lactobacillus casei

2.895.264

2.909

2.751
76 ARN, 82 pseudogènes, 82% d'ADN codant
organites
mitochondrie d'Homo sapiens

16.569

37

13
ADN circulaire double brin, 24 ARN (2ARNr, 22ARNt)), 68% d'ADN codant
chloroplaste d'Arabidopsis thaliana

154.478

129

85
ADN circulaire double brin (pas toujours), 44 ARN, 51% d'ADN codant
organismes eucaryotes
Saccharomyces cerevisiae (levure de bière, champignon)

13.500.000

6.200

ADN double brin, organisé en chromosomes lors de la division cellulaire, ADN non codant majoritaire
Cænorhabditis elegans (ver nématode)

100.000.000

13.500
~20.000

Arabidopsis thaliana (arabette, plante à fleur)

120.000.000

25.000

Drosophila melanogaster (insecte - mouche)

180.000.000

14.700

Homo sapiens

3.000.000.000

20.000
~100.000


La séparation ADN génique / ADN extragénique n'est pas la seule pertinente

En effet, la différence entre ADN génique et ADN extragénique repose sur la comparaison entre ADN procaryote et eucaryote, en supposant que la structure est la même. Il y a une autre manière de voir:
- les gènes procaryotes sont effectivement alignés non répétés et l'ADN procaryote est presque totalement codant. Il y a colinéarité gène-ARN-protéine.
- les gènes eucaryotes sont morcelés, voir dispersés et même si on peut retrouver un lien entre séquence régulatrices, séquences codantes (exons) et l'ARN et ou la protéine synthétisée, la colinéarité n'est plus de mise. Vouloir à tout prix enfiler des gènes qui se suivent sur une unique molécule d'ADN reste un pari théorique. Comment proposer d'autres modèles sans pour autant aller contre les résultats expérimentaux ? La molécule d'ADN est transcrite dans son ensemble (par grands segments) de façon permanente et en grande quantité (mais plus ou moins selon la présence ou non de certains facteurs de transcription et bien sûr au gré de certaines séquences (STOP....) ... mais une vision probabiliste est probablement plus exacte que la vision instructionniste). La maturation est essentielle. la transformation des transcrits primaires en ARN fonctionnels est la clé de la régulation du système génétique de synthèse. Elle se fait probablement grandement par autocatalyse. Là encore, les phénomènes de régulation sont donc certainement aussi bien mécaniques (tensions, pressions, déplacement des molécules...) que chimiques (ions plus ou moins accessibles...) et autocatalytiques et non pas instructionnistes. Pour éviter de suivre la voie hasardeuse de Kupiec (les interactions se font au hasard et la nature sélectionne le "mieux" ... ce qui est un finalisme peu solide épistémologiquement), on peut emboîter le pas à René Thom et chercher des fonctions qui rendent compte des formes réellement obtenues qui sont posées comme des phénomènes (point stables) à partir desquels on recherche les dynamiques, lorsque cela est possible.


La structure des gènes procaryotes est peut-être tellement différente de celle des gènes eucaryotes qu'il faut envisager deux modèles différents

Hypothèses classiques venant de la génétique des procaryotes et étendues à la génétique des eucaryotes:
- chaque gène a un séquence de début
(séquence régulatrice d'initiation de la transcription) et de fin (signaux de terminaison de la transcription) et est orienté (même si tous les gènes n'ont effectivement pas la même orientation);
- certains gènes ont des introns
* (partie non codantes insérées dans le gène) ou, autrement dit, certains gènes sont fragmentées en plusieurs sous-unités mais les segments restent alignés et ordonnés, même s'ils sont séparés les unes des autres par les introns.

Le modèle instructionniste (un site d'initiation et un signal de terminaison pour chaque gène, un système de régulation faisant intervenir éventuellement des produits d'autres gènes...) n'est plus le seul envisageable étant donné la structure du génome de certains eucaryotes..
Une vision probabiliste "à la Kupiec" peut d'abord être proposée (voir dernier chapitre).
Cette hypothèse reste la plus facile à imaginer parcequ'elle ne change rien à l'ordonnancement "en collier de perles" des gènes.
Mais il existe d'autres interprétations moins économes en réflexion et qui peuvent s'avérer être plus séduisantes. On peut penser par exemple que le gène n'est pas une structure figée mais se construit sans cesse par rétrotranscription et que l'ADN n'est pas une longue molécule unique...

Ces questions font l'objet du dernier chapitre (en travaux).


Le transfert latéral des gènes... notre génome reflet de notre environnement

Le transfert latéral de gènes (LGT : en anglais Lateral Gene Tranfert) entre espèces est un phénomène dont on commence tout juste à prendre la mesure. En effet, il est de plus en plus fréquent de trouver, dans des écosystèmes comportant plusieurs espèces, des gènes communs qui étaient de prime abord considérés comme spécifiques à l'une ou l'autre des espèces en présence.

Ce phénomène mis en évidence de façon claire entre populations bactériennes reste encore mal connu entre eucaryotes. On sait cependant que les espèces symbiotiques de bactéries du genre Wolbachia transfèrent ainsi des segments importants de leur génome à leur hôte (insecte ou nématode notamment) - voir cours 1ère S.
Rien n'est plus évocateur que l'extension de ce mécanisme à de nombreuses populations, y compris entre eucaryotes et procaryotes, et pourquoi pas à l'homme avec sa "flore" symbiotique, ce qui ferait de nous (et de tous les organismes !) des organismes génétiquement et naturellement modifiés par leur environnement.


Des gènes ou des groupes de gènes très répandus

* la théorie synthétique de l'évolution a vite fait de parler de conservation de gènes avec un modèle classique de duplication-mutation. Cette vision simpliste doit être dépassée.

Les premiers résultats du développement massif des analyses génomiques automatisées ont tout d'abord surpris par le grand nombre de gènes identiques (ou très voisins) dans les différents phylums*. Lorsque ce sont des groupes entiers de gènes que l'on retrouve, on parle de synténies.

Des programmes (voir par exemple le serveur cinteny qui présente quelques exemples de résultats) élaborent des comparaisons phylogénétiques sur des fragments de génomes ou même sur des génomes entiers en utilisant la notion de "reversal distance" (qui est évaluée par le nombre minimum de permutations de segments pour passer d'un génome à un autre). Ces outils mathématiques ont une forte composante théorique et l'on est loin des éventuels mécanismes biologiques.

Si l'on compare les quelques 14.000 gènes codant pour des protéines d'un invertébré (anémone de mer, ver, insecte...) et les 25.000 d'un vertébré, le nombre de gènes plus élevé du second groupe vient principalement de duplications. On cite par exemple les quelques gènes FGF (fibroblast growth factor) d'un invertébré à comparer avec les 20 gènes de type FGF des vertébrés. Les duplications ou répétitions de gènes chez les eucaryotes "évolués" sont une donnée, mais on est loin de savoir intégrer celle-ci aux mécanismes fort mystérieux ayant donné lieu aux différents types d'ADN répété des eucaryotes.

Parmi les étrangetés "théoriques"...on peut citer:
- parmi les insectes consommant du bois mais uniquement à l'aide de leur "flore" bactérienne symbiotique, on en a trouvé certains qui possèdent les gènes nécessaires à la digestion du bois, mais ne s'en servent apparemment pas
; on pourrait ici invoquer un transfert latéral de gènes, voir paragraphe précédent.
- on a trouvé dans le génome de l'oursin les gènes RAG1 et RAG2 intervenant dans les séquences variables de chaînes d'immunoglobulines chez l'homme et d'autres vertébrés ;
plutôt que d'imaginer un ancêtre commun très lointain possédant un gène archaïque, il serait bien plus simple de proposer une fonction différente dans deux environnements, voire une spécialisation dans certains environnements cellulaires. En effet, les gènes RAG1 et RAG2 correspondraient à deux sous-unités d'une recombinase qui reconnaîtrait et couperait les séquences signal de recombinaison (séquences fortement conservées, l'une composée de 7 pb (on dit 7-mère) et l'autre de 9pb (9-mère)). Les mécanismes proposés sont très voisins de ceux des transpositions. Certains pensent que le mécanisme utilisant RAG1 et RAG2 provient d'une modification d'un transposon ADN. L'origine pourrait être procaryotique....


page suivante >>>
>>>> dernière page