What type of study is this?

This is a Experimental Study study.

October 19, 2025Open Access

PMKLC: 대규모 유전체 데이터베이스를 위한 병렬 다중 지식 학습 기반 무손실 압축

Key Points

PMKLC는 유전체 데이터에서 압축 비율을 최대 73.609%까지 크게 개선합니다.
처리량 향상은 기존 압축기와 비교해 최대 10.710배까지 도달합니다.
새로운 GPU 가속 인코더와 다중 지식 학습 프레임워크를 활용합니다.
다양한 확률 분포 교란에 대한 더 나은 강인성을 보여줍니다.

Abstract

학습 기반 무손실 압축기는 대규모 유전체 데이터베이스의 백업, 저장, 전송 및 관리에서 중요한 역할을 합니다. 그러나 1) 압축 비율이 불충분하고, 2) 압축 \ 2) GPU 가속 (s, k) -mer 인코더를 설계하여 압축 처리량과 계산 자원 사용을 최적화합니다; 3) 병렬 가속을 위한 데이터 블록 분할 및 단계별 모델 전달(SMP) 메커니즘을 도입합니다; 4) 우리는 자원이 제한된 단일 GPU에서 작동하는 PMKLC-S와 다중 GPU 가속화된 PMKLC-M의 두 가지 압축 모드를 설계하여 복잡한 응용 시나리오를 충족합니다. 우리는 15개의 다양한 종과 데이터 크기를 가진 실제 데이터 세트에서 PMKLC-S/M와 14개의 기준(7개의 전통적인 것과 7개의 학습 기반)을 벤치마킹합니다. 테스트 데이터 세트에 대한 기준과 비교했을 때, PMKLC-S/M은 각각 최대 73.609% 및 73.480%의 평균 압축 비율 개선을 달성하고, 평균 처리량 개선은 각각 최대 3.036 및 10.710에 달합니다. 게다가, PMKLC-S/M은 최고의 강인성과 경쟁력 있는 메모리 비용을 달성하여 서로 다른 확률 분포 교란이 있는 데이터 세트에 대한 더 큰 안정성을 나타내고, 메모리가 제한된 장치에서 실행할 수 있는 강한 능력을 지닌 것을 보여줍니다.

PMKLC: 대규모 유전체 데이터베이스를 위한 병렬 다중 지식 학습 기반 무손실 압축

Key Points

Abstract

Cite This Study