메뉴 바로가기 본문 바로가기 하단 바로가기

KOBICian’s Story

프로필사진
[41호] K-BDS 품질관리의 최전선: 헬프데스크 담당자의 이야기
  • 작성자 최진혁 (KOBIC 연구기사)
  • 작성일2024-12-23 08:40:50
  • 조회수1115

친구 같은 AI를 표방하며 개발되어 많은 인기를 끌었던 대화형 챗봇 '이루다'가 무분별하고 정제되지 않은 편향된 데이터를 수집하고 학습하여 사용자에게 잘못된 내용을 제공하는 바람에 논란이 되어 결국 서비스를 중단한 사건이 있었습니다. 이 사례는 데이터의 수집도 중요하지만, 수집된 데이터를 품질관리하여 사용자에게 양질의 정보를 제공하는 것이 더욱 중요하다는 점을 보여줍니다.

 

데이터 품질관리는 수집된 데이터의 정합성과 신뢰성 등을 높이기 위해 행하는 데이터 관리, 개선 활동을 말합니다. 데이터 품질의 목표를 설정하고, 그에 맞게 데이터 품질을 진단·개선하여 고품질 데이터를 유지하고 관리하는 일련의 과정입니다. 예를 들어 데이터를 식재료라고 한다면, 사용자가 이 데이터를 활용하는 것을 요리로 비유할 수 있습니다. 신선도가 떨어지거나 상한 재료를 활용하여 요리를 하면 맛있는 요리가 나올 수 없을 것입니다. 마찬가지로 정크 데이터를 수집하여 제공한다면 사용자는 제대로 활용할 수 없을 것이며, 그 시스템을 앞으로는 신뢰하지 않을 것입니다.

 

데이터의 품질관리는 일회성으로 이루어지지 않기 때문에 지속적으로 관리할 수 있는 프로세스를 마련해야 합니다. 사전에 데이터 유형을 체계적으로 정의하여 그에 부합하는 데이터가 입력되었는지 점검하고, 내용에 일관성이 있는지, 모순된 데이터는 없는지, 중복된 데이터가 있지는 않는지 등을 전반적으로 판단할 수 있어야 합니다. 이처럼 데이터의 품질관리는 데이터의 생애주기 전반에서 데이터를 정확하고 신뢰할 수 있게 만드는 핵심 과정이라고 볼 수 있습니다.

 

특히 바이오 분야의 데이터 품질관리는 그 데이터가 우리의 생명에 직접적으로 영향을 미칠 수 있어 중요도가 매우 높다고 할 수 있습니다. 낮은 품질의 유전자 시퀀싱 데이터를 사용한다면 오류가 있는 질병 모델을 생성할 수도 있으며, 이에 그치지 않고 후속 연구나 실용적 응용에도 영향을 미칠 수 있습니다. 그러므로 데이터 품질관리는 단순히 데이터를 관리하는 과정이 아니라, 연구과 응용의 성공 여부를 결정짓는 핵심 요소라고 할 수 있겠습니다.

 

국가생명연구자원정보센터(KOBIC)에서는 국가 바이오 R&D 사업을 통해 생산된 바이오 데이터를 통합 수집·제공하기 위한 범부처 바이오 연구데이터 통합 플랫폼인 국가바이오데이터스테이션(K-BDS)를 운영하고 있습니다. K-BDS에 등록되는 연구데이터의 품질관리와 큐레이션을 위해 주요 바이오 빅데이터 분야인 단백체, 대사체, 화합물, 바이오 이미지 분야의 전문가 집단으로 구성된 데이터 품질선도센터를 운영하고 있으며 유전체와 나머지 분야는 KOBIC에서 수행하고 있습니다.

 

K-BDS의 품질관리는 등록자가 입력 과정에서 시료 정보 또는 실험 내용이 형식에 알맞게 작성하였는지, 필수 입력 항목에 값을 모두 입력하였는지, 결과 파일 업로드는 하였는지 등을 시스템에서 자동으로 validation check를 하는 것으로 시작합니다. 이 과정을 통과하여 등록자가 데이터를 제출 완료한 후에는 품질관리자가 메타 데이터와 실 데이터 간의 내용이 일치하는지 직접적으로 확인하고 자체 개발한 데이터 품질 검증 파이프라인을 사용하여 파일의 오류 검사, 적정성 검사 등을 합니다. 마지막으로 동일한 데이터가 여러 번 중복적인 내용으로 작성되진 않았는지 확인하여 품질 검증을 완료하게 됩니다. 등록 완료 이후에도 데이터의 최신화와 보안 유지 등의 과정으로 제3의 연구자가 이 데이터를 신뢰하여 연구에 활용할 수 있도록 제공하고 있습니다.

 

KOBIC은 이상의 과정에서 효율성을 높이기 위해 점진적으로 자동화와 인력 재배치를 실시하고 있으며, 매년 사이트 고도화를 통해 품질관리에 소요되는 시간을 줄임으로써 등록자에게 더 나은 서비스를 제공하려 노력하고 있습니다. 하지만 과제 종료 기한에 임박하여 데이터 등록이 몰리는 경향이 있어 운영에 어려움이 있기도 합니다. K-BDS에서는 최대 7일 안에는 품질관리를 완료하는 것을 원칙으로 하고 있습니다. 그러나 품질관리 과정에서 메타 데이터 또는 실 데이터에 수정 사항 또는 오류가 있다고 판단할 경우, 명확한 사유와 함께 등록자에게 반려하며 수정 후 재 등록을 요청하게 됩니다. 이처럼 예기치 않게 처리 기간이 길어질 수 있으므로 등록자는 시간의 여유를 갖고 등록을 진행해 주셨으면 좋겠습니다.

 

품질관리 선도센터와 저희 KOBIC은 매년 표준등록양식의 개정, 홈페이지 개편, 품질관리 프로세스의 고도화 등을 통하여 데이터를 쉽고 편하게 등록하고 등록된 데이터를 믿고 사용할 수 있도록 부단히 노력하고 있습니다. 많은 연구자들이 미국 NCBI에서 제공하는 데이터를 사용하는 이유는 데이터의 품질을 믿을 수 있기 때문일 것입니다. K-BDS도 세계적인 데이터 저장소의 역할을 할 수 있도록 앞으로도 계속 노력할 것을 약속드립니다.

 

KOBICian’s story는 KOBIC 멤버가 직접 작성하는 현장감 넘치는 글로서 KOBIC의 업무 방향이나 공식 입장과는 다를 수 있습니다.

다른 KOBICian’s Story 보기

KOBICian's Story Thumbnail

최근 저는 국가과학기술인력개발원(KIRD)에서 주관한 출연(연) 대상 AI 통합 교육과정에 강사로 참여하여, 전사체 및 유전체 데이터 분석에 대하여 강의하였습니다. 이 과정에서 우리 센터가 수행하고 있는 국가통합바이오빅데이터 구축 사업과 유전체 데이터 생산 및 분석 업무에 대해서도 소개하는 시간을 가졌습니다. 강의가 끝난 후 진행된 질의응답 시간에는 유전체 분석 기술에 대한 일반적인 관심뿐만 아니라, 개인의 건강 문제와 관련된 현실적인 질문들도 많았습니다. 

 

한 수강생은 할아버지와 아버지 모두 대장암 진단을 받은 가족력이 있다고 했고, 자녀를 둔 입장에서 자신도 유전적 위험이 있는지를 알고 싶어 교육에 참여했다고 밝혔습니다.  곧 은퇴를 앞둔 나이가 지긋한 어떤 수강생은 가족 중 다수가 심혈관 질환을 앓거나 이로 인해 사망한 이력이 있어, 본인도 유전적 소인이 있는지 확인하고자 교육에 참석했다고 했습니다.

 

이와 같은 질문들은 제가 지인이나 가족에게 유전체 분석 업무를 설명할 때 자주 듣는 내용들과도 유사합니다. “나도 유전체 검사를 받을 수 있나요?”, “검사를 받으면 어떤 정보를 얻을 수 있나요?”, “내가 어떤 질병에 취약한지 알 수 있나요?” 같은 관심과 질문들이 반복적으로 나타납니다. 최신 전장유전체 분석 기술(Whole Genome Sequencing, WGS)을 활용하면 개인 간 유전체 염기서열의 차이를 정밀하게 분석할 수 있습니다. 사람의 유전체는 약 30억 개의 염기쌍으로 이루어져 있는데, 임의의 두 사람을 비교하면 평균적으로 전체의 약 0.1%, 즉 약 300만 개의 염기쌍이 서로 다르다는 사실이 알려져 있습니다. 이러한 차이는 대부분 질병과 무관한 자연스러운 유전적 다양성이지만, 일부는 질병의 위험성과 직접적인 연관이 있을 수 있습니다. 그러나 이 많은 변이 중 어떤 것이 실제로 질병 발생에 영향을 주는지를 식별하는 것은 아래와 같은 문제로 매우 복잡한 문제이며, 여전히 많은 연구가 진행 중입니다.

 

ⓐ 여러 유전 변이가 하나의 표현형에 영향을 미치는 다인자성 질환이 존재함

ⓑ 동일한 질환이라도 개인마다 원인을 제공한 유전자가 다름

ⓒ 모든 질환을 DNA 염기 서열 변화 수준에서만 원인을 파악할 수 없음

ⓓ 정확한 분석을 위한 대규모 임상정보-유전체 데이터 통합 DB가 필요함

 

특히 유전체 기반 예측은 단일 유전자 변이로 발현되는 질환에서는 비교적 명확한 결론을 내릴 수 있지만, 고혈압, 당뇨병, 심혈관 질환처럼 다양한 요인이 작용하는 복합질환에서는 예측 정확도가 낮을 수밖에 없습니다. 따라서 개인의 유전 정보를 바탕으로 질환 발생 가능성을 평가하거나 의료적 결정을 내리기 위해서는 여전히 전문가의 해석과 신중한 접근이 필요합니다. 현재 국내에서 진행되고 있는 유전체 분석 서비스는 크게 두 가지로 나눌 수 있습니다.

 

1. DTC(Direct-To-Consumer) 유전자 검사: 소비자가 의료기관을 통하지 않고 직접 유전자 검사를 의뢰할 수 있는 서비스입니다. 국내에서는 개인의 특성이나 건강에 관련된 웰니스(wellness) 항목에 대해서만 DTC 유전자 검사가 허용되어 있으며, 예를 들어 카페인 대사, 영양소 흡수, 피부 특성, 체질 등과 관련된 정보를 제공받을 수 있습니다. 단, 질병의 진단, 예후, 치료와 같은 의료적 목적의 유전자 검사는 의료기관을 통해서만 가능하며, DTC 검사로는 제공되지 않습니다.

2. 의료기관 기반 유전 진단 검사 : 질환 진단을 목적으로 하며, 반드시 전문가의 판단과 해석이 필요합니다. 임상 진단에서는 비용과 해석 효율성을 고려하여 특정 유전자나 유전자 패널에 집중하는 타겟 시퀀싱이 주로 사용됩니다. 희귀질환 진단이나 연구 목적에 적합한 폭넓은 유전 정보를 제공하기 위해서는 상대적으로 비용이 높은 전장유전체 분석(WGS)이나 전장엑솜 분석(WES)을 수행하기도 합니다.

기술의 발전과 분석 비용 절감, 국가 단위의 바이오 빅데이터 구축이 병행됨에 따라, 향후에는 국가 또는 공공 시스템 차원에서 유전체 정보가 구조적으로 축적되고 활용되는 기반이 마련될 수 있을 것입니다.

 

유전체 기술은 의료·보건 분야뿐 아니라 교육과 사회복지 영역에서도 실질적인 파급 효과를 가질 수 있습니다. 제 배우자는 초등학교 특수교사로 재직 중인데, 다양한 발달장애 및 희귀 유전 질환을 가진 학생들을 지도하고 있습니다. 질환을 앓고 있는 학생의 삶은 직접적으로 나타나는 다양한 어려움으로 체감되며, 이를 곁에서 지켜보는 보호자에게는 오랜 시간 지속되는 심리적·신체적 부담이 따릅니다. 

 

저는 조기 유전 진단 기술의 보편화와 정밀화가 사회적으로 매우 중요하며, 만약 중증 유전질환을 태아기 단계에서 진단할 수 있다면, 일부 사례에서는 가족이 적절한 결정을 내릴 수 있는 선택권을 가질 수도 있을 것으로 생각합니다.

이번에 참석한 유럽 인간유전학회(ESHG 2025, ‘25.5.24~27, 이탈리아 밀라노)에서는 유전체 기반 진단과 관련된 최신 연구 동향이 활발히 공유되었습니다. 특히 특정 질환의 원인이 되는 causal variant(원인 변이)를 규명하고 이를 진단하는 발표에서, 의료 전문가와 생물정보학자 간의 협업이 매우 중요하다는 발표 내용이 인상 깊었습니다. 정밀한 유전 질환 진단을 위해서는 기술뿐 아니라 다양한 분야 간 긴밀한 협력이 필수적임을 다시 한번 확인할 수 있었습니다.

최근 여러 경험을 통해 저는 유전체 분석 기술에 대한 사회적 관심과 수요가 점점 더 현실적으로 커지고 있음을 실감하게 되었습니다. 앞으로 기술이 더 발전하고 활용 사례가 축적된다면, 더 많은 사람들이 자신의 유전 정보를 바탕으로 건강을 관리하고 예방 중심의 의료 체계로 나아갈 수 있는 기반이 마련될 것이라 기대합니다. 제 자신도 앞으로 정밀의료 기반 유전체 분석 기술의 개발과 데이터 통합 플랫폼 구축을 통해 국민 건강에 기여할 수 있도록 최선을 다하겠습니다.

  • 작성자김종환
  • 작성일2025-07-07
  • 조회수21
KOBICian's Story Thumbnail

2025년 6월 영국 캠브리지에서 개최된 제38회 국제 염기서열 데이터베이스 연합체(International Nucleotide Seqeucne Database Collaboration, INSDC) 연례회의에 KOBIC이 참석하여 한국의 유전체 데이터 관리와 공유 전담 기관으로서의 역할과 책임을 재확인하는 중요한 기회를 가졌습니다. INSDC는 미국 국립보건원(NIH) 산하 국립의학도서관(NLM)의 NCBI, 유럽분자생물학연구소(EMBL) 산하 EBI, 그리고 일본 국립유전학연구소(NIG) 산하 DDBJ로 구성된 연합체로 지난 38년간 전 세계 유전체 데이터의 표준화와 공유에 핵심적 역할을 해 왔습니다.

 

현재 유전체 연구에 종사하는 대부분의 연구자들은 INSDC 데이터베이스를 통해 필요한 유전체 정보를 검색하고 활용한 경험이 있습니다. 특히 학술 논문 출판 과정에서 원시 데이터나 분석 결과를 INSDC 산하 리포지토리에 등록하고 해당 accession number를 Data Availability 섹션에 명시하는 것은 이미 국제적 표준으로 자리 잡았습니다. 주요 국제 학술지들은 INSDC 관리 데이터베이스를 신뢰할 수 있는 데이터 공유 리포지토리로 인정하고 저자들에게 이를 통한 데이터 공개를 적극 권장하고 있습니다. 

 

이러한 국제적 동향 속에서 KOBIC이 운영하는 국가 바이오 데이터 스테이션(K-BDS) 역시 글로벌 수준의 공신력과 표준화 달성을 목표로 하고 있습니다. INSDC의 멤버십 확장 계획이 발표된 이후, KOBIC은 정식 멤버가 되기 위한 지속적인 노력을 기울여왔습니다. 

 

이번 회의에서 가장 흥미로웠던 주제는 바로 AI 기술의 도입 가능성과 그 실질적 한계에 대한 논의였습니다. 각 INSDC 멤버 기관들은 이미 AI를 시범적으로 적용하고 있거나, 이를 위한 인프라 구축을 적극적으로 추진하고 있었습니다.

 

EMBL-EBI의 ENA(European Nucleotide Archive)는 사용자 지원 서비스의 개선을 위해 챗봇 시스템을 개발 중이라 밝혔습니다. ENA 문서와 가이드라인을 학습한 이 챗봇은 사용자들의 반복적인 문의사항에 자동으로 대응함으로써 HelpDesk 운영 부담을 크게 줄일 것으로 기대됩니다. 다만 아직 핵심적인 데이터 처리 과정에는 AI를 적용하지 않고 있으며, “현재의 AI 도입은 글로벌 AI붐에 발맞춰 가는 수준”이라는 신중한 평가를 내놓았습니다.

 

NCBI는 세 기관 중 가장 적극적인 AI 도입 전략을 선보였습니다. 현재 전체 SRA(Sequence Read Archive) 데이터의 90% 이상을 자동화된 규칙 기반 시스템으로 처리하고 있으며, AI 기술을 접목하여 샘플 자동 분류, 작업 스케줄링 최적화, 임상 요약 생성 등 효율화를 도모하고 있습니다. 흥미롭게도 NCBI 관계자는 “AI가 반복적인 업무를 줄여줄 수는 있지만, 그만큼 해석, 검증, 관리 등 새로운 방식의 고차원적 과업과 이에 따른 책임이 뒤따른다”는 솔직한 견해를 표명하며, 최종 품질관리는 여전히 전문 인력이 직접 수행해야 한다는 점을 강조했습니다. 

 

DDBJ는 미래 지향적 인프라 투자에 집중하고 있었습니다. NVIDIA A100 GPU 기반의 AI 전용 클러스터 구축과 3차원 데이터 분석이 가능한 고성능 시스템 도입을 통해 향후 AI 응용 연구를 위한 견고한 기반을 마련했다고 발표했습니다. 

 

회의를 통해 도출된 공통 결론은 “AI는 단순한 자동화 도구가 아닌 생명정보학 데이터 관리 패러다임을 근본적으로 전환할 혁신 기술이며, 신중하고 단계적인 접근이 필수적”이라는 인식이었습니다.

 

이 외 INSDC 전반에 걸쳐 데이터 교환 관련 표준화와 정책에 대한 심도 있는 논의가 이루어졌습니다. 데이터 표준화와 자동화가 최우선 과제로 부각되었으며, GFF3(General Feature Format 3), modBAM(modified Binary Alignment Map) 등 새로운 데이터 포맷으로의 전환과 이에 따른 검증 프로세스의 자동화가 시급한 현안으로 논의되었습니다. 메타데이터의 품질관리 강화도 중요한 화두로 단순 제공하는 것을 넘어 정확성 확보와 최소 요건 준수를 강화하는 방향으로 정책이 전환되고 있습니다. 

 

또한 최근 국제 규범 준수와 접근 및 이익 공유(ABS) 대응이 새로운 과제로 등장했습니다. 생물다양성협약(CBD), 세계보건기구(WHO) 펜데믹 조약(PAD), 국가관할권 이원 지역의 해양생물다양성 보전 및 지속가능한 이용에 관한 협약(BBNJ) 등 다양한 국제 규범이 강화되면서, 유전자원의 접근과 이익 공유에 대한 체계적 관리와 필수가 되었습니다. 이러한 국제 협약의 변화가 INSDC의 공개 데이터 정책에 미치는 영향에 대해 논의하였으며, INSDC는 샘플 출처 정보를 메타데이터에 필수적으로 포함하도록 하고 사용자 가이드라인에 CARE 원칙(Collective Benefit, Authority to Control, Responsibility, Ethics)을 명시하는 등의 개선 방안들을 공유했습니다. 

 

이번 회의를 통해 KOBIC은 INSDC 정식 멤버 가입을 위한 로드맵을 더욱 구체화할 수 있었습니다. 지난 1년간 BioProject, BioSample, SRA 데이터에 대해 XML 템플릿을 개선하고, 기술적 연계 체계를 강화한 것이 국제적으로 주목받는 진전으로 평가받았습니다. 

 

INSDC 연례회의는 단순한 정보 교환의 장을 넘어, 미래 생명정보 흐름의 규칙을 함께 만들어가는 글로벌 포럼이자 AI 시대를 맞이한 생명과학 커뮤니티의 책임과 균형을 재확인하는 자리였습니다. KOBIC은 이러한 흐름 속에서 AI 기반 메타데이터 추천 시스템과 데이터 제출 오류 감지 시스템 개발에 관심을 기울이고, 국제 표준에 부합하는 데이터 품질관리 시스템을 지속적으로 강화하며, 연구자 친화적인 데이터 제출 및 검색 서비스를 개선해 나가겠습니다. 궁극적으로 신뢰할 수 있고 지속 가능한 생명정보 공유의 중심으로 성장하여 글로벌 생명과학 발전에 기여하겠습니다.

  • 작성자김혜린
  • 작성일2025-06-30
  • 조회수99
KOBICian's Story Thumbnail

요즘 거버넌스(governance)라는 낱말이 심심치 않게 많이 쓰입니다. 동사 govern이 ‘지배하다, 통치하다’ 등의 뜻을 지니고 있으니 이로부터 파생된 거버넌스는 ‘통치, 지배, 관리, 운영’ 정도의 뜻을 지닐 것으로 생각하기 쉽습니다. 틀린 해석은 아니지만 최근 들어서 다른 낱말과 같이 쓰이면서 그 의미가 더욱 확장되었습니다. 예를 들자면 ‘데이터 거버넌스’와 같은 것입니다. 거버넌스의 현대적 의미는 조직이나 기관 또는 시스템을 지휘하고 관리하며 책임을 지는 방식의 틀, 절차 그리고 관행입니다. 동사 govern에서 파생된 또 다른 명사 government(정부)는 폐쇄적이고 수직적인 소통이 주류를 이루지만, 이와 대조적으로 거버넌스에서는 외부와 네트워크로 연결되는 개방적이면서도 열린 조직을 추구한다고 합니다. 그래서 어떤 사전을 찾아보면 거버넌스를 ‘협치(協治)’로 풀이합니다.

 

현대 지능정보사회에서 데이터의 중요성은 아무리 강조해도 지나치지 않습니다. 양질의 데이터를 확보하여 효율적으로 사용하고, 법령을 준수하며, 나아가서는 미래 경쟁력 확보를 위해 데이터를 전략적 자산으로 만들기 위해서는 잘 설계되고 실행 가능성을 갖춘 데이터 거버넌스가 필요합니다.

 

1990년대에 접어들면서 과학 논문이 유료 저널에 게재되는 일이 흔해지고 데이터 접근도 어려워지자, 오픈 사이언스 재단에서는 2002년 부다페스트에 모여서 과학 및 학술 연구 결과물을 누구나 자유롭게 접근하고 사용할 수 있도록 하자는 원칙을 제시하였습니다. 2021년 UNESCO에서는 194개 회원국이 만장일치로 오픈 사이언스 권고안을 채택하였습니다. 여기에서는 오픈 액세스, 오픈 데이터, 오픈 인프라, 시민 참여 및 전통 지식 체계와의 대화 등 오픈 사이언스의 핵심 요소를 구성하고 실행을 위한 우선 과제를 제시하게 되었습니다. 이 권고안의 탄생 배경에는 역설적으로 COVID-19 팬데믹이라는 대재앙이 매우 중요하게 작용하였습니다. 병원체 게놈 정보의 신속한 공개 덕분에 빠른 진단과 백신·치료제 개발이 가능하였고, 데이터 공유를 통해 신속하고 동시다발적인 연구 협력을 할 수 있었습니다. 이 사실은 UNESCO의 오픈 사이언스 관련 문서에도 실려 있습니다.

 

오픈 사이언스 원칙의 올바른 실행 측면에서도 데이터 거버넌스는 큰 의미를 갖습니다. 단지 연구 데이터를 개방한다고 해서 이를 모두가 신뢰하고 쓸 수 있는 것은 아닙니다. 데이터의 품질을 일정 수준으로 끌어 올리고, 그 사용에 대한 책임 소재를 명확히 하며, 접근 권한을 정교하게 설계하는 것은 모두 데이터 거버넌스의 영역입니다. FAIR(Findable·Accessible·Interoperable·Reusable) 원칙은 오픈 사이언스와 동일한 것은 아니지만 상호 보완 관계에 있으며, 오픈 사이언스를 실현하는 도구가 될 수 있습니다. 현재 KOBIC의 국가바이오데이터스테이션은 외부 기관과 협력하여 FAIR 성숙도를 점검하는 일에 착수하였습니다.

오픈 사이언스는 얼핏 생각하면 데이터의 자산화 경향과 충돌하는 것처럼 보입니다. 데이터를 생산한 주체는 이를 소유물로 인식하고 배타적 권리를 주장하려는 경향이 있습니다. 산업계에서는 당연히 이를 보호하고자 합니다. 정부 연구개발과제로 생성된 연구 데이터를 국가적 전략 자산으로 여겨서 통제하려는 것도 어찌 보면 자연스러운 현상입니다. 특히 유전체 정보나 보건의료 정보는 개인 차원에서 보호해야 하는 민감정보이자 기업·국가 차원의 경제적 자원이지만, 새로운 연구 성과로 이어질 수 있는 중요한 재료이므로 공공적 활용을 더욱 촉진하기 위해 개방해야 한다는 목소리도 높습니다.

 

이러한 요구사항을 전부 충족시키는 것은 어차피 불가능하니 적절한 중간 지점에서 타협해야 합니다. 데이터 거버넌스의 한 형태라고 볼 수 있는 데이터 커먼즈(data commons)가 해결책이 될 수 있습니다. 커먼즈(commons), 즉 공유지는 본래 모두가 함께 공유하고 관리하는 자원을 뜻합니다. 1960년대 말 사이언스에 발표된 유명한 논문 ‘공유지의 비극(Tragedy of the Commons)’에서 지적했듯이, 공유 자원은 개인의 합리적인 이기심에 의해 철저히 파괴되고 고갈된다고 하였습니다. 그러나 엘리너 오스트롬은 ‘커먼즈의 거버넌스(원제는 'Governing the Commons: The Evolution of Institutions for Collective Action’)’라는 책을 통해서 이를 반박했습니다. 즉 공동체가 공통의 규칙과 책임 아래 자원을 개방하고 공동으로 관리하여 이를 지속적으로 지켜 나갈 수 있음을 주장하였습니다. 경제학에는 시장과 국가만 존재한다는 이분법을 깨뜨린 공로로 오스트롬은 2009년 노벨 경제학상을 수상하였으며, 현대적 의미의 거버넌스 개념을 제창하고 정립하였다고 평가해도 무방할 것입니다.

 

요즘은 이로부터 한발 더 나아가서 신뢰 기반의 커먼즈(trusted commons) 개념이 등장하였습니다. 이는 전통적 커먼즈 모델에 신뢰, 안전성 및 책임의 요소를 더한 것입니다. 경제적 활용 가치가 매우 높지만 함부로 공개될 경우 정보 주체에게 피해를 줄 수 있는 보건·유전체 정보의 안전하고도 책임 있는 활용을 선도해 나갈 수 있는 것이 바로 신뢰 기반 커먼즈입니다. 미국 NIH의 dbGaP(The database of Genotypes and Phenotypes)이나 유럽의 EGA(European Genome Archive), 그리고 KOBIC의 인체유래데이터은행이 바로 이러한 신뢰 기반 커먼즈의 사례입니다.

 

신뢰기반 커먼즈의 핵심 요소를 간단히 설명하자면 다음과 같습니다.

  • 접근 통제(access control): 데이터를 누가 어떤 조건에서 사용할 수 있는지를 명확히 정함
  • 책임성(accountability): 데이터를 사용하는 사람은 그 사용 내역과 목적에 대해 책임을 져야 하며 기록을 남겨야 함
  • 투명성(transparency): 데이터가 어떻게 수집되고 누구에게 공유되며 어떻게 사용되는지 공개해야 함
  • 형평성과 포용성(equity & inclusion): 데이터 기여자나 소외된 집단도 공정하게 혜택을 누릴 수 있어야 하며, 차별 없이 접근할 수 있도록 배려해야 함
  • 상호성(reciprocity): 데이터를 사용하는 사람은 그 결과나 혜택을 다시 커뮤니티에 돌려줘야 함

지난 4월 미국 신생명공학 국가안보위원회(National Security Commission on Emerging Biotechnology)가 발간한 보고서 ‘Charting the Future of Biotechnology’에 따르면, 미국은 생명공학 분야에서 중국의 급부상을 경계하면서 유전체, 인공지능(AI) 및 바이오제조 등에서 자국의 지속적인 우위를 유지하기 위한 새로운 모델인 Web of Biological Data를 구축할 것을 제안하였습니다. 이는 신뢰 기반 커먼즈의 확장판으로서 FAIR + 신뢰 기반 + AI-ready 상태의 국가적 디지털 인프라에 해당하며, 하나의 통합된 창구(single access point)를 제공한다는 점이 핵심입니다. 부연하자면 분절되어 존재하는 데이터 리포지토리에 대한 검색 및 활용을 한 곳에서 제공함으로써 사용자의 편의성을 높일 수 있게 한 것이지만. 신뢰할 수 있는 국가 또는 동맹국 중심의 국제 협력을 유도하기 위한 밑그림일 수도 있습니다.

 

새 정부가 들어서면서 모두가 국정과제를 수립하기 위한 바쁜 움직임에 들어갔습니다. AI는 이미 우리 주변에 깊숙하게 자리 잡았고, 머지않아 바이오 경제 시대에 진입하게 될 것입니다. KOBIC이 정성스럽게 모은 양질의 바이오 연구 데이터가 안전하게 널리 활용되어 공공의 이익에 기여하고, 아울러 글로벌 바이오 데이터 저장소의 모범이 되기를 기대해 봅니다.

  • 작성자정해영
  • 작성일2025-06-23
  • 조회수141
TOP