혁신적인 DNA 검색 엔진이 유전자 발견 속도를 높이고 있습니다.

이제 환자에게서 희귀 유전 질환을 발견할 수 있고, 종양 특이적 돌연변이도 확인할 수 있습니다. 이는 수십 년 전 생물의학 연구를 변화시킨 DNA 염기서열 분석을 통해 가능해진 이정표입니다. 최근 몇 년 동안 새로운 시퀀싱 기술(차세대 시퀀싱)의 도입으로 획기적인 발전이 이루어졌습니다. 예를 들어, 2020년과 2021년에 이러한 방법을 사용하면 SARS-CoV-2 게놈에 대한 신속한 해독과 전 세계적인 모니터링이 가능해졌습니다.

동시에 점점 더 많은 연구자들이 염기서열분석 결과를 공개적으로 접근할 수 있도록 하고 있습니다. 이로 인해 미국 SRA(Sequence Read Archive) 및 유럽 ENA(European Nucleotide Archive)와 같은 주요 데이터베이스에 저장된 데이터가 폭발적으로 증가했습니다. 현재 이러한 아카이브는 약 100페타바이트의 정보를 보유하고 있습니다. 이는 전체 인터넷에서 발견되는 텍스트의 총량과 거의 맞먹는 수준이며, 1페타바이트는 100만 기가바이트에 해당합니다.

지금까지 생의학 과학자들은 이러한 방대한 유전자 저장소를 검색하고 이를 자신의 데이터와 비교하기 위해 막대한 컴퓨팅 리소스가 필요했기 때문에 포괄적인 검색이 거의 불가능했습니다. ETH Zurich의 연구원들은 이제 이러한 한계를 극복할 수 있는 방법을 개발했습니다.

전체 데이터 세트를 다운로드하는 대신 전체 텍스트 검색

팀은 프로세스를 획기적으로 간소화하고 가속화하는 MetaGraph라는 도구를 만들었습니다. 전체 데이터 세트를 다운로드하는 대신 MetaGraph를 사용하면 인터넷 검색 엔진을 사용하는 것과 마찬가지로 원시 DNA 또는 RNA 데이터 내에서 직접 검색이 가능합니다. 과학자들은 관심 있는 유전자 서열을 검색 필드에 입력하기만 하면 쿼리에 따라 몇 초 또는 몇 분 내에 해당 서열이 글로벌 데이터베이스에서 어디에 나타나는지 확인할 수 있습니다.

ETH Zurich 컴퓨터 과학과의 데이터 과학자인 Gunnar Rätsch 교수는 “이것은 일종의 DNA용 Google입니다.”라고 설명합니다. 이전에는 연구자들이 설명이 포함된 메타데이터만 검색할 수 있었고 원시 시퀀스에 액세스하려면 전체 데이터세트를 다운로드해야 했습니다. 이러한 접근 방식은 느리고 불완전하며 비용이 많이 들었습니다.

연구 저자에 따르면 MetaGraph는 비용 효율성도 매우 높습니다. 공개적으로 사용 가능한 모든 생물학적 서열을 표현하려면 몇 개의 컴퓨터 하드 드라이브만 필요하며, 대규모 쿼리 비용은 메가베이스당 약 0.74달러를 넘지 않습니다.

새로운 DNA 검색 엔진은 빠르고 정확하기 때문에 특히 새로운 병원체를 식별하거나 항생제 내성과 관련된 유전적 요인을 분석하는 연구를 크게 가속화할 수 있습니다. 시스템은 이러한 대규모 데이터베이스 내에 숨겨진 유해 박테리아(박테리오파지)를 파괴하는 유익한 바이러스를 찾는 데 도움이 될 수도 있습니다.

300배로 압축

10월 8일에 발표된 연구에서 자연ETH 팀은 MetaGraph의 작동 방식을 시연했습니다. 이 도구는 스프레드시트 소프트웨어가 값을 정렬하는 방식과 유사하게 정보를 보다 효율적으로 구조화하는 고급 수학적 그래프를 사용하여 유전 데이터를 구성하고 압축합니다. “수학적으로 말하면 이는 수백만 개의 열과 수조 개의 행으로 구성된 거대한 행렬입니다.”라고 Rätsch는 설명합니다.

대규모 데이터 세트를 검색 가능하게 만들기 위해 인덱스를 생성하는 것은 컴퓨터 과학에서 친숙한 개념이지만 ETH 접근 방식은 원시 데이터를 메타데이터와 연결하는 동시에 약 300배에 달하는 놀라운 압축률을 달성하는 방법에서 두드러집니다. 이러한 축소는 책을 요약하는 것과 매우 유사하게 작동합니다. 즉, 필수 설명과 관계를 유지하면서 중복을 제거하고 모든 관련 정보를 훨씬 더 작은 형식으로 유지합니다.

Rätsch와 마찬가지로 ETH Zurich의 Biomedical Informatics Group 회원인 André Kahles 박사는 “우리는 필요한 정보를 잃지 않고 데이터 세트를 최대한 컴팩트하게 유지하기 위해 가능한 것의 한계를 뛰어넘고 있습니다.”라고 말했습니다. 현재 연구 중인 다른 DNA 검색 마스크와 달리 ETH 연구원의 접근 방식은 확장 가능합니다. 즉, 쿼리되는 데이터의 양이 많을수록 도구에 필요한 추가 컴퓨팅 성능이 줄어듭니다.

현재 데이터의 절반이 이미 사용 가능합니다.

2020년 처음 선보인 MetaGraph는 꾸준히 개선되어 왔습니다. 이제 검색을 위해 이 도구에 공개적으로 액세스할 수 있습니다(https://metagraph.ethz.ch/search) 이미 바이러스, 박테리아, 곰팡이, 식물, 동물 및 인간의 수백만 개의 DNA, RNA 및 단백질 서열을 색인화하고 있습니다. 현재 사용 가능한 모든 글로벌 시퀀스 데이터 세트의 거의 절반이 포함되어 있으며 나머지도 연말까지 포함될 것으로 예상됩니다. MetaGraph는 오픈 소스이기 때문에 대량의 내부 연구 데이터를 관리하는 제약 회사의 관심을 끌 수도 있습니다.

Kahles는 언젠가 개인이 DNA 검색 엔진을 사용할 가능성도 있다고 믿습니다. “초기에는 Google조차 검색 엔진이 무엇에 좋은지 정확히 알지 못했습니다. DNA 서열 분석의 급속한 발전이 계속된다면 발코니 식물을 더 정확하게 식별하는 것이 일반화될 수 있습니다.”

출처: https://www.sciencedaily.com/releases/2025/10/251027224917.htm

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다