메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

Single-Cell-RNA-Sequencing-Pipeline

Whole-genome sequencing pipeline

The Whole-genome sequencing(WGS) pipeline is a modular toolkit for processing WGS data. This pipeline takes a FASTQ file as input and provides haplotype call results and annotations and visualizations based on GATK pipeline. First, raw read data with well-calibrated base error estimates in FASTQ format are mapped to the reference genome. The BWA mapping tool is used to align reads to the human genome reference, allowing for up to two mismatches in 30-base seeds, and generate a technology-independent SAM/BAM reference file format. Next, duplicate fragments are marked and removed using Picard(http://picard.sourceforge.net), mapping quality is assessed and low-quality mapped reads are filtered, and Paired-read information is also evaluated to ensure that all mate-pair information is in sync between each read. We then refine the initial alignments with local realignment and identify suspicious regions. Using this information as a covariate along with other technical covariates and known sites of variation, the GATK base quality score recalibration(BQSR) is performed. Germline SNPs and indels are called via local reassembly of haplotypes using the recalibrated and realigned BAM files. Finally, we provide Somalier, a tool to quickly assessing sample relevance from sequencing data in BAM, CRAM or VCF format.
#Whole Genome Sequencing
#WGS
#Genomics
#Next Generation Sequencing
#Precision Medicine
#Clinical Genomics
#noncoding genome
#GATK
#fastp
#Cutadapt
#BWA
#SortSam
#MarkDuplicates
#CountBase
#BaseRecalibrator
#ApplyBQSR
#HaplotypeCaller
#somalier

Single-Cell-RNA-Sequencing-Pipeline

Single-cell RNA sequencing pipeline

The Single-cell RNA sequencing pipeline is an extensible toolkit for analyzing single-cell gene expression data using the Scanpy framework. It includes methods for preprocessing, visualization, clustering, and differential expression testing. Its Python-based implementation efficiently handles datasets containing more than one million cells. We introduce ANNDATA, a generic class for managing annotated data matrices. The pipeline features: 1. Regression of confounding variables, normalization, and identification of highly variable genes. 2. t-SNE and graph-based (Fruchterman–Reingold) visualizations that show cell-type annotations derived from comparisons with bulk expression data. 3. Clustering of cells and visualization using the Louvain algorithm, with support for other clustering algorithms as well. 4. Ranking differentially expressed genes in clusters to identify marker genes corresponding to bulk expression labels.
#Single-cell RNA sequencing
#Next-generation sequencing
#Bioinformatics
#Single-cell genomics
#Human Cell Atlas
#Cell_Biology
#Genomics
#transcriptome
#Biotechnology
#heterogeneity
#Multiomics
#scRNA-seq
#scATAC-seq
#Epigenetics
KOBICian's Story
데이터의 바다에서 보물을 찾는 항해를 상상해 보십시오. 넘실거리는 데이터의 파도 속에서 필요한 정보를 찾아내는 일은 마치 광활한 대양에서 보석을 건져 올리는 것처럼 쉽지 않은 도전입니다. 오늘날 생명과학 분야에서는 실로 방대한 양의 바이오 데이터가 생산되고 있습니다. 이 귀중한 데이터들은 곳곳에 흩어져 있어, 연구자나 기업이 자신에게 필요한 '보물'을 찾기 위해서는 많은 시간과 노력이 필요합니다. 이러한 문제를 해결하기 위해 탄생한 것이 바로 국가 바이오 데이터 스테이션(K-BDS)입니다. K-BDS는 국가연구개발사업을 통해 생산된 바이오 연구 데이터를 한데 모아 보관하고, 이를 연구자들에게 공유하기 위해 구축된 거대한 플랫폼입니다. 즉, K-BDS는 우리나라 바이오 연구자들에게는 일종의 광활한 데이터 바다와 같습니다. 그러나 아무리 바다가 넓고 보물이 많아도, 필요한 것을 제때 찾아내지 못하면 소용이 없습니다. 실제로 K-BDS에 방대한 데이터가 축적되어 있음에도 불구하고, 원하는 정보를 빠르게 찾아 활용하는 데에는 여전히 어려움이 있습니다. 이는 마치 지도가 없는 채로 바다에서 보물을 찾는 항해와도 같습니다. 그렇다면 어떻게 해야 거대한 데이터 바다 속에서 효율적으로 보물을 찾아낼 수 있을까요? K-BDS의 데이터 활용도를 높이기 위해 두 가지 전략을 제안합니다. 첫째, 데이터를 연구 목적별로 카테고리화하여 체계적으로 분류하는 것입니다. 둘째, 인공지능(AI) 기반 자연어 검색 기능을 도입하여 사용자가 일상 언어나 전문 용어로 질문해도 원하는 데이터를 찾아줄 수 있도록 하는 것입니다. 우선, 목적별 데이터 카테고리화에 대해 살펴보겠습니다. 현재 K-BDS에는 유전체, 대사물질, 광학영상 등 다양한 종류의 바이오 데이터가 담겨 있습니다. 그러나 이 데이터들은 주로 데이터 유형별로 정리되어 있을 뿐, 특정 샘플이나 연구 주제별로 쉽게 묶여 있지 않습니다. 예를 들어 어떤 연구자가 폐암과 관련된 유전체 데이터를 찾으려 할 때, '유전체 데이터' 항목에 가서 일일이 폐암과 관련된 항목을 찾아내야 할지도 모릅니다. 데이터가 너무 많다 보니 원하는 정보를 발견하는 데 시간이 걸리고, 경우에 따라서는 해당 데이터의 존재조차 알지 못한 채 지나칠 수도 있습니다. 만약 폐암, 알츠하이머, 감염병 등 주요 질환별로 데이터가 카테고리화되어 제공된다면 어떨까요? 연구자는 관심 질환 카테고리를 클릭하는 것만으로 관련된 데이터 목록을 한눈에 살펴볼 수 있을 것입니다. 또한 연구 목적에 따라 신약 개발, 진단 기술, 유전 연구 등으로 분류가 이루어진다면, 사용자는 자신의 프로젝트 목적에 부합하는 자료들을 더욱 손쉽게 탐색할 수 있습니다. 이러한 분류 체계는 거대한 데이터 바다에 지도를 그려주는 셈이며, 연구자들이 자신의 여정에서 목표 지점까지 효율적으로 도달할 수 있게 도와줄 것입니다. 이렇게 되면 연구자들이 일일이 방대한 자료를 뒤지느라 허비하는 시간을 줄이고, 그만큼 본연의 연구에 더 집중할 수 있게 됩니다. 다음으로, AI 기반 자연어 검색 기능의 도입입니다. 방대한 데이터 속에서 원하는 정보를 찾는 또 다른 핵심 도구는 바로 검색 기능입니다. 기존의 검색은 주로 정확한 키워드나 일치하는 용어에 의존하기 때문에, 사용자가 어떤 표현을 써야 할지 모르면 원하는 결과를 얻기 어려울 때가 있습니다. 그러나 인공지능 기술을 접목한 자연어 검색은 사용자의 질문을 사람이 대화하듯이 이해하고, 그 의도에 맞는 데이터를 찾아줄 수 있습니다. 예를 들어 연구자가 "국내 알츠하이머 환자의 유전체 돌연변이 데이터를 찾아줘"라고 자연스럽게 질문한다면, AI 검색 엔진은 이 문장을 이해하고 K-BDS에 저장된 알츠하이머 환자 관련 프로젝트들의 유전체 원시데이터(fastq) 와 돌연변이 분석기법들을, 또는 이미 분석된 데이터(vcf) 결과파일을 찾아 보여줄 수 있을 것입니다. 별도로 전문 용어나 복잡한 검색 조건을 몰라도, 연구자가 질문만 던지면 AI가 맥락을 파악해 방대한 데이터 속에서 알맞은 정보를 주는 것입니다. 이는 마치 항해자의 나침반과 별자리가 되어 목적지를 찾아가는 것과 같습니다. 이 두 가지 전략이 도입된다면, K-BDS는 거대한 바이오 데이터의 바다이자 진정한 보물 찾기의 항해를 지원하는 든든한 동반자가 될 것입니다. 체계적인 데이터 카테고리화는 정돈된 지도가 되고, 자연어 검색은 탐험에 나선 연구자들이 방향을 잃지 않도록 이끌어 줄 것입니다. 그 결과 더 많은 연구자들이 K-BDS를 적극 활용하여 귀중한 데이터를 빠르게 찾아내고, 새로운 과학적 발견이나 혁신적인 생명공학 성과를 이루어낼 수 있을 것입니다. 방대한 데이터의 바다에 뛰어든 항해자들이 안전하고 효율적으로 보물을 발견하도록 돕는 것, 그것이 바로 K-BDS가 나아가야 할 방향입니다. 우리 모두 이 항해를 통해 얻은 보물로 대한민국 바이오 연구의 지평을 한층 넓혀 나가길 기대합니다. 또한 오랜 시간과 비용을 들여 확보한 소중한 연구 데이터들이 사장되지 않고 활발히 활용됨으로써, 국가 연구개발 투자에 대한 가치도 더욱 높아질 것입니다. (출처: ChatGPT로 생성) ※다음 글에서는 생성형 AI가 구현하는 자동 분석 파이프라인, 연구 가이드, 실시간 Q&A 챗봇 등 K-BDS의 한층 스마트해진 모습을 소개할 예정입니다. 많은 기대 부탁드립니다!

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

6,307

사용자

1,111

워크스페이스

90,502

실행 태스크
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,147

    바이오프로젝트
  • 110,159

    바이오샘플
  • 2,371,142

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr
TOP