Der er et stort problem med kernen i det menneskelige genomprojekt

$config[ads_kvadrat] not found

How Machines Learn

How Machines Learn

Indholdsfortegnelse:

Anonim

Human Genome Project, der begyndte i 1990'erne, var Homo sapiens 'Vellykket forsøg på at kortlægge hele vores arts DNA. Det producerede det menneskelige referencegenomet, en fintpoleret samling af humant DNA, som er afgørende for genetikforskning og genetisk testningstjenester rundt omkring i verden. Integreret som det har været for videnskabssamfundet, har to forskere ved Johns Hopkins University opdaget, at referencegenomet mangler et stykke eller to - godt 296.485.284 basepar DNA, for at være præcise.

Referencegenomet er et essentielt kort over menneskeligt genetisk materiale, der bruges som grundlag for sammenligning. Når vi sekvenserer vores eget DNA for indsigt i sundhed, familiehistorie og fremtidig sygdomsrisiko, hugger vi sekvensen op i masser af små stykker og sammenligner strækninger af det med referencegenomet og leder efter områder, hvor vi er forskellige. Det grundlæggende problem med dette skriver forskerne i et nyt papir i Naturgenetik, er, at referencegenomet er baseret stort set på en enkelt person. I betragtning af de utallige genetiske forskelle blandt de 7,7 milliarder mennesker i live i dag, er det naturligvis ikke ideelt.

Professor i datalogi og biostatistik Steven Salzberg, Ph.D., og Rachel Sherman, Ph.D. kandidat, gør det tilfældet, at dette enkeltreferencegenomet ikke fanger mangfoldigheden af ​​human genetik. Nogle befolkninger, de tilføjer, adskiller sig for meget fra dette referencegenomet. For at gøre deres tilfælde refererer de til genomerne af 910 individer fra tyve forskellige lande, hele panafrikanske afstamning.

I disse individers DNA fandt teamet 300 millioner stykker DNA-fælles, der ikke findes i vores "reference" genom. Hvis vi ser bort fra dette meget materiale, siger Salzberg, ville vi uundgåeligt savne nøgleindblik i sundhed og historie hos bestemte befolkninger. De også er mennesker, så bør de ikke være repræsenteret i det "menneskelige" referencegenom?

"Disse regioner er i det væsentlige usynlige for genetiksamfundet, indtil vi har et referencegenom, der omfatter disse regioner," siger Salzberg. Inverse.

Problemet med referencegenomet.

Gennem årene har vi løbende arbejdet med referencegenomet. Men nyere analyse indikerer det næsten halvfjerds procent af dets materiale blev opsamlet fra en enkelt afrikansk-amerikansk person, der kun omtales som RPCI-11, forklarer Salzburg.

Det betyder, at når forskere udfører genetisk analyse for at identificere forskelle mellem forskellige befolkninger fra hele verden, sammenligner de mest af tiden de genomer til det genetiske materiale fra, for det meste, en person. Dette fører os til ofte at ignorere materiale, der kan være for forskelligt fra denne reference, siger Sherman. Hun kalder dem "manglende stykker."

"Når du linjer ting op, vil der være stykker, der ikke lineært overhovedet, fordi de er for forskellige til at matche noget fra referencegenomet." Sherman siger. "Så ignorerer du alle de ting, der ikke passer op som ikke rigtig relevante eller ikke rigtig værd at se på, når de måske er de stykker, der er mest interessante, fordi de er mest forskellig fra referencegenomet."

I undersøgelsen tog Sherman og Salzberg store klumper af dette "forskellige" materiale (ca. 1.000 basepar lange) og forsøgte at bestemme, om de kun repræsenterede utilsigtede strings af sekventeringsfejl - eller havde virkelig nyttige oplysninger om uudforsket human DNA.

Holdet nåede til den konklusion, at dette "nye" DNA er af høj nok kvalitet til at berettige et andet pas, selvom de ikke ved, hvad dets betydning for den menneskelige krop måske lige er.

Hvad er konsekvenserne?

Hidtil siger Sherman, at vi ikke rigtig ved, hvad vi mangler ved at ignorere DNA, der ikke er repræsenteret i referencegenomet. Men hvem ved hvad vi kan finde der, hvis vi kigger?

Salzberg antyder, at vi forestiller os en fiktiv befolkning, der har et ekstra kromosom - 24 i stedet for de sædvanlige 23 i hver celle. Intet i det ekstra kromosom fra denne population ville rette op med referencegenomet. Måske siger hun, et sted på det skjulte kromosom, hvorfor den fiktive befolkning har tendens til at udvikle en bestemt sygdom - og hvorfor resten af ​​verden ikke gør det. Men fordi vi ikke har den rigtige reference til at sammenligne det, ville vi aldrig vide, at det er der.

Oprindelig reklame, der indgik donorerne til Human Genome Project (Buffalo News, 3/23/1997), h / t Pieter de Jong, der placerede annoncen pic.twitter.com/gNB7mMv3Yu

- Jay Shendure (@JShendure) 28. oktober 2017

"Hvis der en gang imellem var der mutationer i det kromosom, der forårsagede problemer, ville du aldrig kunne studere dem," siger Salzberg. "Du ville aldrig kunne observere dem, hvis du udelukkende stoler på dette referencegenom."

Lad os være klare: Denne forskning giver ikke tegn på noget uopdaget kromosom. Men det tyder på, at vi sandsynligvis mangler meget, når vi bruger et enkelt referencegenom fra en person kaldet RPCI-11 som grundlag for alle vores analyser på hele vores dyre DNA.

Hvordan kan vi løse det?

I stedet for at stræbe efter et enkelt universelt referencegenom, argumenterer holdet, bør vi have en flok af referencegener - måske en for hver interessent.

"Det, som vi er her for at forkynde her med denne konklusion, er, at vi virkelig skal bygge referencemønster for hver befolkning," siger Sherman. "Hvis der mangler så meget DNA fra referencen i denne befolkning, skal modellen ændre sig."

Nogle lande har taget det på sig selv for i det mindste at forsøge at oprette deres egne referencemønstre. Danmark samler for eksempel genetisk materiale fra 150 danskere i et forsøg på at skabe et ægte "dansk" referencegenom. Et 2016 papir i Natur beskriver et forsøg på at kompilere en reference til koreanske individer, selv om dette papir også kun beskriver forskning udført på en enkelt person. Men andre projekter, som 1000 Genomes Project, forsøger også at få denne proces startet, men det er meget arbejde at lave et referencemateriale som poleret som den nuværende version, kendt som GRCh38.

"Du skal gøre mere end bare gå og sekvensere en anden person fra en anden befolkning for at skabe et referencegenom," tilføjer han. "Du skal gøre lidt mere."

Det er ikke, at forskerne ikke er klar over, at vi har brug for flere referencemønstre. Salzberg håber bare at der ville være flere af dem nu, og at de i det mindste ville blive almindeligt vedtaget som standardreferencegener. Papiret beklager, at ingen af ​​disse forsøg har opnået samme status og klage som GRCh38 - selvom det er målet for det danske projekt.

Fremadrettet tager Sherman og Salzberg sig selv for at få dette projekt påbegyndt ved at opbygge flere yderligere referencemønstre, som de håber at frigive om et til to år. De søger at begynde at oprette et bibliotek med referencegener for at hjælpe folk med at få så meget indsigt ud af deres genetiske materiale, uanset hvordan "anderledes" det er.

"Hvad vi virkelig skal have, er hundredvis af referencegener," tilføjer han. "Det kommer til at ske en dag."

$config[ads_kvadrat] not found