Qu'est-ce qu'un gène ?

Helen Pearson, Nature, vol 441, 25 May 2006, 399-401

Traduction personnelle non garantie exempte de contresens (merci à deux lecteurs... n'hésitez-pas)
Commentaires personnels et liens en orange


L'idée de gènes enfilés comme des perles sur un segment d'ADN s'estompe rapidement. Les séquences codantes des protéines n'ont ni début ni fin clairs, et l'ARN est un élément clé du stockage de l'information, rapporte
Helen Pearson.


Nouvelles

texte original en vert ci-dessous

The idea of genes as beads on a DNA string is fast fading. Protein-coding sequences have no clear beginning or end and RNA is a key part of the information package, reports Helen Pearson.


1
>>

'Gène' n'est pas un mot en quatre lettres parmi d'autres. Ce n'est pas une insulte. Il n'est jamais bipé lors des shows télévisés. Et, alors que le sens de la plupart des mots de quatre lettres est on ne peut plus clair, celui de gène n'est l'est pas du tout. S'il est une chose sûre c'est que plus les scientifiques deviennent experts en génétique moléculaire, moins on est certain de savoir ce qu'est véritablement un gène.
Rick Young, un généticien de l'Institut de la tête blanche de Cambridge, Machetachaussette, dit que lorsqu'il commença à enseigner comme jeune professeur, il y a une vingtaine d'années, cela lui prenait environ deux heures pour faire comprendre à des étudiants éveillés ce qu'était un gène et le détail de son fonctionnement. Aujourd'hui, avec ses collègues, il a besoin de trois mois de cours pour faire passer le concept de gène et ce n'est pas parce que les étudiants sont moins brillants. "Cela prend un semestre complet pour enseigner cette matière à des étudiants brillants" dit Young. "Avant on donnait une définition définitive mais maintenant c'est beaucoup plus compliqué".

En génétique classique un gène était un concept abstrait - une unité héréditaire qui portait les caractéristiques d'un parent chez un enfant (c'est ce que j'ai nommé dans mon cours un gène héréditaire). Lorsque la biochimie s'en est mêlée, ces caractères furent associés à des enzymes ou des protéines pour chaque gène. Et avec l'avènement de la biologie moléculaire ces gènes devinrent réels, des éléments physiques - des séquences d'ADN qui, lorsqu'elles étaient convertis en brins de ce que l'on appelle l'ARN messager, pouvaient être utilisés pour construire des protéines qui leurs étaient associées, morceau par morceau. Les molécules d'ADN superenroulées du chromosomes furent considérées comme de longs filaments où les gènes s'enfilaient comme des perles. (pour un historique de cette conception voir cours de 1ère S du gène héréditaire au gène moléculaire).
Cette image est toujours considérée comme un modèle utilisable pour de nombreux scientifiques. Mais ceux qui sont à la pointe de la recherche en génétique le considèrent comme un modèle de plus en plus dépassé - une approximation grossière qui, au mieux, cache la nouvelle complexité fascinante et, au pire, empêche de voir les nouvelles voies de recherche.

'Gene' is not a typical four-letter word. It is not offensive. It is never bleeped out of TV shows. And where the meaning of most fourletter words is all too clear, that of gene is not. The more expert scientists become in molecular genetics, the less easy it is to be sure about what, if anything, a gene actually is. Rick Young, a geneticist at the Whitehead Institute in Cambridge, Massachusetts, says that when he first started teaching as a young professor two decades ago, it took him about two hours to teach fresh-faced undergraduates what a gene was and the nuts and bolts of how it worked. Today, he and his colleagues need three months of lectures to convey the concept of the gene, and that's not because the students are any less bright. "It takes a whole semester to teach this stuff to talented graduates," Young says. "It used to be we could give a one-off definition and now it's much more complicated." In classical genetics, a gene was an abstract concept - a unit of inheritance that ferried a characteristic from parent to child. As biochemistry came into its own, those characteristics were associated with enzymes or proteins, one for each gene. And with the advent of molecular biology, genes became real, physical things - sequences of DNA which when converted into strands of so-called messenger RNA could be used as the basis for building their associated protein piece by piece. The great coiled DNA molecules of the chromosomes were seen as long strings on which gene sequences sat like discrete beads. This picture is still the working model for many scientists. But those at the forefront of genetic research see it as increasingly old-fashioned - a crude approximation that, at best, hides fascinating new complexities and, at worst, blinds its users to useful new paths of enquiry.


<<
2

>>

L'information, semble-t-il, est répartie tout au long des chromosomes de façon bien plus complexe qu'on ne le supposait au départ. Les molécules d'ARN ne sont pas uniquement des conduits passifs à travers s'écoule le message des gènes mais des régulateurs actifs des processus cellulaires. Parfois, l'ARN peut aussi transmettre une information entre génération, ce qui est d'habitude le privilège de l'ADN.
Une étude révolutionnaire l'année passée fit émerger l'idée selon laquelle les plantes pourraient parfois réécrire leur ADN à partir des messages d'ARN hérités des générations précédentes
(1). Une étude à la page 469 de ce journal suggère qu'un phénomène comparable pourrait se passer chez la souris et par conséquent chez d'autres mammifères (2). Si ce type de phénomène est vraiment confirmé, "cela aura des implications très importantes" dit le généticien Laurence Hurst de l'Université de Bath (UK).
"Tous ces résultats questionnent sérieusement notre conception du gène" dit Bing Ren, biologiste moléculaire à l'Université de Californie, San Diego. Et ce questionnement est sur le point de se durcir. Cette année, un surplus de données va bientôt venir du projet international ENCODE (Encyclopedia of DNA Elements). La phase préliminaire d'ENCODE comprend l'analyse d'environ 1% du génome humain avec une précision inégalée; le but étant de trouver toutes les séquences qui servent à quelque chose et d'expliquer quel est leur sens.

"Quand nous avons commencé le projet ENCODE, j'avais une toute autre idée de ce qu'était le gène" dit le chercheur associé au projet Roderic Guigo du Centre de Régulation génomique de Barcelone. "Le degré de complexité que nous avons trouvé n'a pas été anticipé".

Sous le feu des critiques
Le premier niveau de complexification du paradigme de la biologie moléculaire, qui veut qu'une unique séquence d'ADN code pour une unique protéine, est l'épissage alternatif, découvert chez les virus en 1977
(voir l'encadré "Difficile à suivre" non traduit ici). La plupart des séquences DNA associées à des protéines chez l'homme ont un arrangement modulaire où les exons, qui comprennent les informations pour faire les protéines, sont dispersés au sein d'exons non-codants. Dans l'épissage alternatif la cellule excise les introns et associe les exons dans des ordres variés, créant ainsi des messages correspondant à différentes protéines. Au cours des années les généticiens ont aussi trouvé des gènes chevauchants, des gènes situés à l'intérieur d'autres gènes et une infinité d'autres arrangements bizarres (voir l'encadré "La pagaille au sein des gènes").
L'épissage alternatif, cependant, ne nécessite pas à lui tout seul une réévaluation importante de la notion de gène, il ne fait que montrer que certaines séquences d'ADN peuvent décrire plus d'une seule protéine.

Information, it seems, is parceled out along chromosomes in a much more complex way than was originally supposed. RNA molecules are not just passive conduits through which the gene's message flows into the world but active regulators of cellular processes. In some cases, RNA may even pass information across generations - normally the sole preserve of DNA. An eye-opening study last year raised the possibility that plants sometimes rewrite their DNA on the basis of RNA messages inherited from generations past1. A study on page 469 of this issue suggests that a comparable phenomenon might occur in mice, and by implication in other mammals2. If this type of phenomenon is indeed widespread, it "would have huge implications," says evolutionary geneticist Laurence Hurst at the University of Bath, UK. "All of that information seriously challenges our conventional definition of a gene," says molecular biologist Bing Ren at the University of California, San Diego. And the information challenge is about to get even tougher. Later this year, a glut of data will be released from the international Encyclopedia of DNA Elements (ENCODE) project. The pilot phase of ENCODE involves scrutinizing roughly 1% of the human genome in unprecedented detail; the aim is to find all the sequences that serve a useful purpose and explain what that purpose is. `

"When we started the ENCODE project I had a different view of what a gene was," says contributing researcher Roderic Guigo at the Center for Genomic Regulation in Barcelona. "The degree of complexity we've seen was not anticipated."

Under fire
The first of the complexities to challenge molecular biology's paradigm of a single DNA sequence encoding a single protein was alternative splicing, discovered in viruses in 1977 (see 'Hard to track', overleaf). Most of the DNA sequences describing proteins in humans have a modular arrangement in which exons, which carry the instructions for making proteins, are interspersed with non-coding introns. In alternative splicing, the cell snips out introns and sews together the exons in various different orders, creating messages that can code for different proteins. Over the years geneticists have also documented overlapping genes, genes within genes and countless other weird arrangements (see 'Muddling over genes', overleaf). Alternative splicing, however, did not in itself require a drastic reappraisal of the notion of a gene; it just showed that some DNA sequences could describe more than one protein.


1.Genome-wide non-mendelian inheritance of extra-genomic information in Arabidopsis, Lolle, S. J., Victor, J. L., Young, J. M. & Pruitt. R. E. Nature 434, 505-509 (2005) disponible par exemple à l'adresse: http://contanatura-hemeroteca.weblog.com.pt/arquivo/Lolle%20et%20al.pdf
2.
RNA-mediated non-mendelian inheritance of an epigenetic change in the mouse, Rassoulzadegan, M. et al. Nature 441, 469-474 (2006): http://intl.emboj.org/ nature/journal/ v441/n7092/full/ nature04674.html.


<<
3

>>

L'attaque actuelle du concept de gène va beaucoup plus loin, soutenue pour une grande part par des études qui montrent un rôle tout à fait nouveau pour l'ARN. L'idée 'un gène - une protéine' est sous le feu des critiques de chercheurs qui extraient et analysent les différents ARN messagers ou transcrits, fabriqués par les génomes, notamment les génomes de l'homme et de la souris.
Les chercheurs de la firme Affymetrix de Santa Clara en Californie, par exemple, ont étudié récemment, sous la direction de Thomas Gingeras, l'ensemble des transcrits de 10 chromosomes humains de 8 lignées cellulaires et découvrirent précisément d'où provenait sur le chromosome chaque transcrit
(3).
Le tableau que dressent ces études est d'une complexité extraordinaire. Au lieu d'avoir des gènes discrets transcrits scrupuleusement en ARN identiques, la transcription convertirait de nombreux segments du génome en une masse envahissante de rubans d'ARN de différentes longueurs. Les rubans peuvent être transcrits à partir des deux brins de l'ADN contrairement à ce qui est habituellement cru. Certains de ces transcrits viennent de régions déjà identifiées comme contenant des gènes codant pour des protéines. Mais beaucoup de viennent pas de ces régions. "C'est quelque peu révolutionnaire", dit Phillip Kapranov, le collègue de Gingeras. "Nous avons compris que le génome est plein de transcrits chevauchants".

D'autres études, de deux équipes, celle de Guigo (4), et celle du généticien Rotem Sorek (5), maintenant en Israël, à l'université de Tel Aviv, ont donné une idée des raisons d'une telle masse de transcrits.
Les deux équipes ont travaillé sur les cas rares où la transcription commence au niveau d'une séquence d'ADN connue pour être associée à une unique protéine, mais continue au-delà, pour donner une protéine complètement différente, produisant ainsi un transcrit hybride*.
En fouillant dans les bases de données des transcrits humains l'équipe de Guigo a estimé que 4-5% de l'ADN humain transcrit l'est de cette façon. Produire des transcrits hybrides peut être un moyen pour la cellule de produire une grande variété de protéines à partir d'un nombre limité d'exons, disent les chercheurs.
De nombreux scientifiques commencent maintenant à penser que le codage des protéines dans l'ADN ne connaît aucun bord - c'est-à-dire que chaque séquence dépasse sur la suivante et la précédente. Cette idée constitue l'un des points centraux qui doivent émerger du projet ENCODE quand ses résultats seront publiés l'année prochaine.
Kapranov et ses collaborateurs disent avoir trouvé de nombreux exemples de transcrits pour lesquels des exons codant pour des protéines venant d'une partie du génome sont combinés avec des exons d'une autre partie, qui peut être des centaines de milliers de bases plus loin, avec plusieurs autres 'gènes' entre.

Today's assault on the gene concept is more far reaching, fuelled largely by studies that show the previously previously unimagined scope of RNA. The one gene, one protein idea is coming under particular assault from researchers who are comprehensively extracting and analysing the RNA messages, or transcripts, manufactured by genomes, including the human and mouse genome. Researchers led by Thomas Gingeras at the company Affymetrix in Santa Clara, California, for example, recently studied all the transcripts from ten chromosomes across eight human cell lines and worked out precisely where on the chromosomes each of the transcripts came from3. The picture these studies paint is one of mind-boggling complexity. Instead of discrete genes dutifully mass-producing identical RNA transcripts, a teeming mass of transcription converts many segments of the genome into multiple RNA ribbons of differing lengths. These ribbons can be generated from both strands of DNA, rather than from just one as was conventionally thought. Some of these transcripts come from regions of DNA previously identified as holding protein-coding genes. But many do not. "It's somewhat revolutionary," says Gingeras's colleague Phillip Kapranov. "We've come to the realization that the genome is full of overlapping transcripts." Other studies, one by Guigo's team4, and one by geneticist Rotem Sorek5, now at Tel Aviv University, Israel, and his colleagues, have hinted at the reasons behind the mass of transcription. The two teams investigated occasional reports that transcription can start at a DNA sequence associated with one protein and run straight through into the gene for a completely different protein, producing a fused transcript. By delving into databases of human RNA transcripts, Guigo's team estimate that 4-5% of the DNA in regions conventionally recognized as genes is transcribed in this way. Producing fused transcripts could be one way for a cell to generate a greater variety of proteins from a limited number of exons, the researchers say. Many scientists are now starting to think that the descriptions of proteins encoded in DNA know no borders - that each sequence reaches into the next and beyond. This idea will be one of the central points to emerge from the ENCODE project when its results are published later this year. Kapranov and others say that they have documented many examples of transcripts in which protein-coding exons from one part of the genome combine with exons from another part that can be hundreds of thousands of bases away, with several other 'genes' in between.


* note ajoutée: un transcrit hybride est un transcrit issu de la fusion de plusieurs transcrits.


3. Transcriptional Maps of 10 Human Chromosomes at 5-Nucleotide Resolution, Cheng J. et al. Science 308, 1149-1154 (2005). accessible librement sur internet à l'adresse: http://www.euchromatin.com/ ChengJ01.htm)
4. Parra, G. et al. Genome Res. 16, 37-44 (2006).
5. Akiva, P. et al. Genome Res. 16, 30-36 (2006).


<<
4

>>

Ce continuum de gènes risque de déborder les limites d'un unique chromosome : l'année dernière Richard Flavell à l'École de Médecine de l'université de Yale dans le New Haven, Connecticut, a trouvé des gènes du système immunitaire humain qui semblent être contrôlés par des régions régulatrices d'un autre chromosome (6). "Les gènes discrets sont en train de disparaître" dit Guigo. "Nous avons un continuum de transcrits".

Concept glissant
Les relevés des transcrits à grande échelle suggèrent que de nombreux ARN fabriqués à partir du génome de la souris et de l'homme ne codent pas pour des protéines. L'année dernière un groupe de chercheurs japonais, par exemple, avança un chiffre aussi monstrueux que 63% du génome est transcrit chez la souris
(7,8); seulement 1-2% du génome est considéré comme parsemé des habituels exons. (Pour comprendre cette partie voir la composition du génome dans le cours de 1èreS, Le tableau ne tient donc pas compte bien sûr de ce chiffre de 63% du génome transcrit).
La découverte de séquences d'ARN qui ne sont pas uniquement des intermédiaires entre l'ADN et la machinerie de fabrication des protéines n'est pas nouvelle en soi; l'appareil de construction cellulaire nécessite plusieurs molécules protéiques et d'ARN pour fonctionner. Mais la découverte des 'micro-ARN' et d'autres molécules d'ARN, maintenant connues pour être vitales dans le contrôle de nombreux processus cellulaires aussi bien chez les plantes que chez les animaux, ainsi que le nouveau facteur de transcription de l'ARN, contribuent à la vision d'ARN participant activement à la mise en place et à l'expression des instructions du génome.

Les régions qui correspondent à de l'ARN non codant obtiendront peut-être le statut de gène à défaut d'en avoir le nom. "Je pense qu'il est temps de souffler un grand coup et de faire un pas en arrière" dit John Mattick, biologiste moléculaire de l'université de Queensland à Brisbane, en Australie. "De nombreuses informations du système sont négociées à partir d'ARN". Bien que des fonctions aient été identifiées pour plusieurs types de molécules d'ARN, le point essentiel du débat concerne l'étendu du domaine où les ARN jouent un rôle. Il est aisément imaginable qu'il soit plus facile pour la cellule de surtranscrire et d'ignorer l'excédent plutôt que d'investir dans des systèmes qui ne produisent que le nécessaire. Une étude de l'année précédente, cependant, suggère qu'au moins une partie de la masse d'ARN sert à quelque chose d'utile.
John Hogenesch et ses collaborateurs, travaillant à l'Institut de Génomique de la Fondation pour la Recherche de Novartis à San Diego, Californie, ont systématiquement inhibé l'activité de plus de 500 ARN non codants dans des cellules humaines et ont trouvé que huit d'entre eux étaient impliqués dans la communication cellulaire et la croissance
(9).
Mais Hogenesh, et de nombreux autres scientifiques avec lui, restent convaincus que les ARN non codants sont beaucoup moins importants, fonctionnellement, que ceux qui codent pour les protéines; dans le passé, lorsque les généticiens ont exploré les bases génétiques d'une maladie ou celles d'autres caractéristiques, ils ont trouvé, dans une écrasante majorité des cas, que la mutation associée se situait bien, à l'intérieur d'un gène codant pour une protéine, et non dans une autre région.

This continuum of genes might even spill over the boundaries of chromosomes: last year, Richard Flavell at Yale University School of Medicine in New Haven, Connecticut, documented human immunesystem genes that seem to be controlled by regulatory regions from another chromosome6. "Discrete genes are starting to vanish," Guigo says. "We have a continuum of transcripts."

Slippery concept
The large transcriptional surveys suggest that a vast amount of the RNA manufactured by the mouse and human genomes do not code for proteins.
Last year a consortium of researchers in Japan, for example, estimated that a whopping 63% of the mouse genome is transcribed7,8; only 1-2% of the genome is thought to be spanned by sequences that contain everyday exons.
The discovery of RNA sequences that aren't just intermediates between the DNA and the protein-making machinery is not new in itself; the cell's protein-building apparatus requires a number of RNA molecules as well as proteins to operate. But the finding of 'microRNAs' and other RNA molecules now known to be vital in controlling many cellular processes in plants and animals, and the newly revealed ferment of RNA transcription, contributes to the view that RNA actively processes and carries out the instructions in the genome.

Perhaps the regions that make non-coding RNA should also carry the status of genes, if not the name itself. "I think it's time for people to take a deep breath and step back," says molecular biologist John Mattick of the University of Queensland in Brisbane, Australia. "A lot of the information in the system is being transacted by RNA." Although functions have been identified for several RNA molecules, the crux of the debate now is the extent to which all the extra RNA plays a part. It is conceivable that it is easier to overtranscribe and ignore the rubbish than to invest in systems that produce only what is needed. A study from last year, however, hints that at least some of the mass of RNAs is doing something useful. Working at the Genomics Institute of the Novartis Research Foundation in San Diego, California, John Hogenesch and his coworkers systematically quenched the activity of more than 500 non-coding RNAs in human cells and found that eight were involved in cell signalling and growth9. But Hogenesh, and many other scientists, remain convinced that non-coding RNAs are much less important, functionally, than those that describe proteins; in the past, when scientists have searched for the genetic basis of a disease or other characteristic they have overwhelmingly found the underlying mutation to be in a protein-coding gene rather than in another region.


6. Spilianakis, C. G., Lalioti, M. D., Town, T., Lee, G. R. & Flavell, R. A. Nature 435, 637-645 (2005).
7. FANTOM Consortium and RIKEN Genome Exploration Research Group and Genome Science Group (Genome Network Project Core Group) Science 309, 1559-1563 (2005).
8. RIKEN Genome Exploration Research Group and Genome Science Group (Genome Network Project Core Group) and the FANTOM Consortium Science 309, 1564-1566 (2005).
9. Willingham, A. T. et al. Science 309, 1570-1573 (2005).


<<
5

>>

"L'évidence aujourd'hui incontestable est que la notion de gène codant est révolue"dit Hogenesh.
Quelques unes des récentes découvertes - sur le génome, comme support d'une production continue de transcrits, ou sur la fabrication par les cellules d'une grande quantité de molécules d'ARN non codants - n'ont pas posé de problème aux gens en dehors du monde de la biologie moléculaire. Les généticiens des populations peuvent toujours étudier comment une caractéristique est transmise et évolue sans s'intéresser au mécanisme moléculaire précis qui le sous-tend. Par exemple, les généticiens peuvent construire des modèles montrant comment une mutation est héritée selon qu'elle affecte une protéine, un ARN non codant ou une région régulatrice. "Je ne m'occupe pas vraiment de savoir s'il est impliqué ou non dans la fabrication d'une protéine" dit Hurst. "Les équations sont toujours les mêmes".
Ce raisonnement est stupéfiant de naïveté. On peut certes conserver les mêmes modèles, mais les résultats permettent d'en envisager d'autres, tout à fait différents... Il ne faut pas oublier que le concept même de mutation est lié à une vision restrictive du gène (voir Amzallag).
Mais la même chose peut être dite pour des études qui révèlent les voies de l'hérédité dite extragénomique. Dans les années récentes, de nombreux chercheurs ont mis l'accent sur l'hérédité épigénétique, dans laquelle l'information est transmise des parents à la descendance indépendamment de la séquence d'ADN. Et dans ce même n° de Nature (voir page 469), l'équipe de Minoo Rassoulzadegan à l'Institut National français de la santé et la recherche médicale (INSERM) à Nice, France, rapporte que l'ARN peut parfois compliquer les mécanismes traditionnels de l'hérédité. (voir résumé)

Chez la souris, des mutations dans le gène Kit causent des tâches blanches sur la queue et les pieds; si une souris a un gène Kit normal et un gène Kit muté, elle aura des tâches. La chose curieuse est que certains des descendants de cette souris qui héritent deux gènes Kit normaux, ont toujours une queue blanche.
Le groupe français suggère que le mutant Kit fabrique des ARN anormaux qui s'accumuleraient dans le sperme et passeraient dans l'œuf. Ces morceaux d'ARN pourraient d'une façon intermittente inhiber le gène Kit normal dans les générations suivantes, en produisant un effet de tâches sur la queue. "Nous sommes convaincus que ce phénomène est plus général" dit François Cuzin, coauteur de l'article.

Si ce fait est étrange, le travail publié l'année dernière (1) sur la plante gazonnante Arabidopsis par Robert Pruitt et ses collègues à l'université de Purdue, West Lafayette, Indiana, l'est bien davantage. Ici, le gène impliqué est apellé HOTHEAD. L'analyse de Pruitt et de ses collaborateurs montre que certaines plantes ne portent pas la version mutante du gène HOTHEAD que leur parents possédaient. Ces plantes ont remplacé une séquence d' ADN anormale avec une séquence normale portée par les générations précédentes. "C'est comme si, oh , cela change tout" ("It's like, whoa, this changes everything,"???) dit Pruitt. "Cela a définitivement changé ma manière de voir l'hérédité".

"The preponderance of evidence suggests that proteincoding genes will hold their own when the day is over," Hogenesh says.
Some of the recent discoveries - that the human genome makes a continuum of transcripts and that cells produce masses of noncoding RNA molecules - have not posed much of a problem to people outside the world of molecular biology. Population geneticists can examine how a trait is passed down and evolves regardless of the precise molecular mechanism that underlies it. For example, geneticists can build models showing how a mutation is inherited whether it affects a protein, a non-coding RNA or a regulatory region. "I don't actually care if it's making a protein or not," says Hurst. "The equations are still the same."
But the same can't be said for studies revealing so-called extragenomic modes of inheritance. In recent years, many investigators have focused on epigenetic inheritance, in which information is passed from parent to offspring independent of the DNA sequence. And this week in Nature (see page 469), Minoo Rassoulzadegan's team at the French National Institute for Health and Medical Research (INSERM) in Nice, France, reports that RNA may sometimes be complicating traditional models of inheritance.

In mice, mutations in the Kit gene cause white patches on the tail and feet; if a mouse has one normal Kit gene and one mutated one it will have the spots. The odd thing is that some of the offspring of such mice, who inherit two normal Kit genes, still have the white tail. The French group suggest that the mutant Kit gene manufactures abnormal RNA molecules, which accumulate in sperm and pass into the egg. These bits of RNA somehow silence the normal Kit gene in the next generation and subsequent ones, producing the spotted-tail effect. "We are convinced that it's a more general phenomenon," says co-author Franc¸ois Cuzin. If this is strange, the work reported last year1 on the cress plant Arabidopsis by Robert Pruitt and his colleagues at Purdue University in West Lafayette, Indiana, is even stranger. Here the gene involved is called HOTHEAD. Pruitt and his co-workers' analysis shows that some plants do not carry the mutant version of HOTHEAD that their parents possessed. These plants had replaced the abnormal DNA sequence with the regular code possessed by earlier generations. "It's like, whoa, this changes everything," Pruitt says. "It definitely changes my view of inheritance."


<<
6

>>

Pruitt travaille maintenant à expliquer comment une plante peut réaliser ce changement de séquence. Une solution serait qu'elle puisse porter une copie de sauvegarde de l'information génétique de ses grand-parents sous forme d'ARN transmis dans les graines en même temps que l'habituel ADN et qui serait ensuite utilisé comme modèle pour 'corriger' certains gènes. On imagine, dit Pruitt, que certains des mystérieux transcrits non codants, puissent être impliqués. "Je pense qu'il y a quelquechose qui est hérité en dehors de ce que nous considérons comme le génome conventionnel sous forme d'ADN".

Changement de vues
Les implications de telles découvertes dans notre compréhension de l'évolution n'ont pas encore été explorées. Mais la recherche autour du rôle des ARN comme porteurs d'information entre générations promet déjà d'enrichir - et de compliquer- davantage a notion de gène.
En laissant de côté la boîte de Pandore que les recherches épigénétiques sont en train d'ouvrir, est-il grave que de nombreux scientifiques, qui ne sont pas directement concernés par les mécanismes moléculaires , continuent de comprendre la génétique avec des notions simplistes ? Certains généticiens répondent affirmativement. Ils s'inquiètent de ce que des chercheurs, travaillant avec une idée simpliste du gène, puissent rejeter des résultats importants qui ne cadrent pas avec ces vues. Un chercheur en médecine, par exemple, pourrait passer à côté de très nombreux transcrits différents générés par une séquence ayant été localisée à tel endroit du chromosome. De plus, le manque d'idée claire sur ce qu'est un gène, pourrait aussi empêcher des collaborations.

"Je trouve qu'il est parfois très difficile de faire comprendre à un autre ce que l'on veut dire lorsqu'il parle de gène parce que nous ne partageons pas la même définition" dit William Gelbert, généticien du développement à l'université de Cambridge, Massachusets.
Sans une définition claire du gène, la vie est aussi difficile pour les bioinformaticiens qui veulent utiliser des programmes pour détecter des séquences-repère dans l'ADN qui signalent la fin d'un gène et le début d'un autre. Mais arriver à un consensus au sujet d'une définition est virtuellement impossible, comme l'atteste Karen Eilbeck. Eilbeck, qui travaille à l'université de Californie à Berkeley, est un coordinateur du groupe '
Sequence ontology".
Celui-ci définit des dénominations pour les points de repère des séquences génétiques des bases de données des différents organismes comme la souris, la mouche, de façon à ce que les bases de données puissent être plus facilement comparées. Le groupe essaie, par exemple, de voir si une séquence codante pour une protéine inclut toujours le triplet de bases d'ADN qui marque sa fin.
Eilbeck dit qu'il faut la quasi totalité d'une journée pour que 25 scientifiques arrivent à une définition du gène avec laquelle ils puissent travailler. "Nous avons eu plusieurs réunions qui ont duré des heures et où chacun criait après l'autre" dit-elle. Le groupe s'est finalement accordé sur une définition vague qui accorderait les demandes de chacun, (Puisque vous le demandez: "Une région localisable de la séquence génomique, correspondant à une unité héréditaire, qui est associée avec des régions régulatrices, des régions transcrites et/ou d'autres régions fonctionnelles").
Vous noterez combien cette définition est bancale en voulant concilier deux visions incompatibles (unité héréditaire et unité moléculaire fonctionnelle): voir cours 1èreS)

Pruitt is now working to explain how the plant could perform such a feat. One idea is that they carry a back-up copy of their grandparents' genetic information encoded in RNA that is passed into seeds along with the regular DNA and is then used as a template to 'correct' certain genes. Conceivably, Pruitt says, some of the mystery non-coding transcripts could be responsible. "I think there's something being inherited outside what we think of as the conventional DNA genome."

Changing views
The implications of such findings for our understanding of evolution have yet to be figured out. But research into the role of RNA as a carrier of information across generations promises to enrich - and complicate - the notion of a gene yet further.
Leaving aside the can of worms that studies on epigenetics are beginning to open up, does it matter that many scientists not directly concerned with molecular mechanisms continue to think of genetics in simpler terms? Some geneticists say yes. They worry that researchers working with an oversimplistic idea of the gene could discard important results that don't fit. A medical researcher, for example, might gloss over the many different transcripts generated by a sequence at one location. And the lack of a clear idea of what a gene is might also hinder collaboration.

"I find it sometimes very difficult to tell what someone someone means when they talk about genes because we don't share the same definition," says developmental geneticist William Gelbert of Harvard University in Cambridge, Massachusetts. Without a clear definition of a gene, life is also difficult for bioinformaticians who want to use computer programs to spot landmark sequences in DNA that signal where one gene ends and the next begins. But reaching a consensus over the definition is virtually impossible, as Karen Eilbeck can attest. Eilbeck, who works at the University of California in Berkeley, is a coordinator of the Sequence Ontology consortium.
This defines labels for landmarks within genetic-sequence databases of organisms, such as the mouse and fly, so that the databases can be more easily compared. The consortium tries, for example, to decide whether a protein-coding sequence should always include the triplet of DNA bases that mark its end. Eilbeck says that it took 25 scientists the better part of two days to reach a definition of a gene that they could all work with. "We had several meetings that went on for hours and everyone screamed at each other," she says. The group finally settled on a loose definition that could accommodate everyone's demands. (Since you ask: "A locatable region of genomic sequence, corresponding to a unit of inheritance, which is associated with regulatory regions, transcribed regions and/or other functional sequence regions.")


<<
7

Plutôt que de se battre sans arrêt pour arriver à un consensus dans la définition - et s'opposer à coup d'arguments à toutes les étapes du processus - la plupart des généticiens adoptent aujourd'hui dans leur vocabulaire des termes moins ambigus tels que transcrits et exons. Lorsqu'il est employé, le mot 'gène' est fréquemment précédé par 'codant pour une protéine' ou un autre descripteur. "Nous avons à ajouter au moins un adjectif à chaque fois que nous utilisons ce nom" dit Francis Collins, directeur de l'Institut National de Recherche sur le Génome Humain au National Institut of Health à Bethseda, Maryland.

Mais même si de nombreux généticiens se battent pour épingler l'insaisissable gène, c'est précisément sa nature ambigüe qui alimente en continu leur curiosité. "C'est de plus en plus fascinant" dit Young, de l'institut Whitehead. Cetaines choses, semble-t-il, ne peuvent correctement s'exprimer à l'aide d'un mot vulgaire de quatre-lettres.

Helen Pearson est journaliste et travaille pour Nature à New York.

Rather than striving to reach a single definition - and coming to blows in the process - most geneticists are instead incorporating less ambiguous words into their vocabulary such as transcripts and exons. When it is used, the word 'gene' is frequently preceded by 'proteincoding' or another descriptor. "We almost have to add an adjective every time we use that noun," says Francis Collins, director of the National Human Genome Research Institute at the National Institutes of Health in Bethesda, Maryland.

But however much geneticists struggle to pin down the elusive gene, it is precisely its ambiguous nature that fuels their continued curiosity. "It's ever more fascinating," says Whitehead's Young. Some things, it seems, are not best portrayed by a crude four-letter word. °

Helen Pearson is a reporter working for Nature in New York.


La pagaille au sein des gènes

Mudling over genes

Le philosophe des sciences, Karola Stotz, à l'université d'Indiana à Bloomington et Paul Griffiths, maintenant à l'université de Queensland en Australie, s'efforcent de mesurer la perplexité des biologistes en exercice au sujet des gènes.
Ils ont rassemblé 14 arrangements génétiques bizarres et surprenants (mais réels) et ont demandé aux biologistes de dire s'ils représentaient chacun un ou plus d'un gène.
L'un est un segment d'ADN qui utilise plusieurs séquences identiques
(codant pour des protéines) pour fabriquer deux protéines entièrement différente avec des fonctions distinctes.

Une autre protéine est fabriquée à partir d'un unique transcrit assemblé à partir de quatre ARN différents, provenant eux-mêmes de 40.000 paires de bases de l'ADN.
Vous êtes perdu ? C'est ce qui est arrivé aux 500 biologistes qui ont complété le questionnaire. Stotz et Griffiths trouvèrent que typiquement 60% sont sûrs d'une réponse et que 40% ont confiance dans une autre. Presque aucun avoue ne pas savoir.
Stotz veut savoir si des scientifiques qui travaillent dans des disciplines séparées ont tendance à regarder des situations sous différents angles. "Cela serait intéressant de savoir s'il y a un quelconque ordre dans cette confusion" dit Stotz..

H.P.

Science philosophers Karola Stotz, at Indiana University in Bloomington, and Paul Griffiths, now at the University of Queensland in Australia, are attempting to measure the extent of working biologists' bewilderment over genes. They collected together 14 weird and wonderful (but real) genetic arrangements and asked biologists to decide whether each represents one, or more than one, gene. One is a DNA segment that uses some of the same protein-coding sequences to manufacture two entirely different proteins with distinct functions. In another, one 'gene' is nestled within the non-protein coding intron of another. Another protein is assembled when four different RNA molecules, made from DNA scattered over 40,000 base pairs, are assembled into one transcript. Confused? So were the 500 biologists who completed the questionnaire. Stotz and Griffiths found that 60% are typically sure of one answer, and 40% are confident of another. Hardly any confess that they don't know. Stotz wants to examine whether scientists working in separate disciplines tend to view the situations in different lights. "It will be interesting to know if there is some order to the confusion," Stotz says. H.P.

retour texte