Key points are not available for this paper at this time.
배경. 공개 데이터를 재사용할 때 원래 기여자에게 귀속하는 것은 데이터 제작자의 보상과 연구 결과의 출처를 문서화하는 데 중요한 요소입니다. 이전 연구에 따르면, 공개적으로 이용 가능한 데이터 세트를 가진 논문은 유사한 연구 중 데이터가 없는 논문보다 더 많은 인용을 받는 것으로 나타났습니다. 그러나 이전의 분석 중에서 인용률을 예측하는 많은 변수를 통제할 수 있는 통계적 힘을 가진 연구는 거의 없었으며, 이는 '인용 혜택'에 대한 불확실한 추정으로 이어졌습니다. 또한 시간 경과와 데이터 세트 간의 데이터 재사용 패턴에 대한 정보는 거의 없습니다. 방법 및 결과. 여기서 우리는 많이 알려진 인용 예측 변수를 통제하면서 인용 비율을 살펴보고 데이터 재사용의 변동성을 조사합니다. 유전자 발현 마이크로어레이 데이터를 생성한 10,555개 연구에 대한 다변량 회귀 분석에서, 공개 저장소에 데이터를 제공한 연구는 데이터를 제공하지 않은 유사한 연구보다 9% (95% 신뢰 구간: 5%에서 13%) 더 많은 인용을 받은 것으로 나타났습니다. 출판 날짜, 저널 영향력 지수, 오픈 액세스 상태, 저자 수, 첫 번째 및 마지막 저자 출판 이력, 교신 저자 국가, 기관 인용 이력, 연구 주제 등을 공변량으로 포함했습니다. 인용 혜택은 데이터 세트 제출 날짜에 따라 달라졌습니다: 2004년과 2005년에 발표된 논문에서 인용 혜택이 가장 뚜렷하며 약 30%였습니다. 저자들은 데이터 세트에 대한 첫 번째 출판 후 2년 이내에 자신의 데이터 세트를 사용한 대부분의 논문을 발표한 반면, 제3자 연구자에 의해 발표된 데이터 재사용 논문은 최소 6년 동안 지속적으로 축적되었습니다. 데이터 재사용 패턴을 직접 연구하기 위해 우리는 논문의 전문에서 GEO 또는 ArrayExpress 접근 번호가 언급된 9,724건의 제3자 데이터 재사용 사례를 수집하였습니다. 제3자 데이터 사용 비율이 높았습니다: 0년 동안 제출된 100개의 데이터 세트에 대해, 우리는 PubMed에서 2년 차에 40개의 논문이 데이터 세트를 재사용하고, 4년 차에 100개, 5년 차에는 150개 이상의 데이터 재사용 논문이 게시된 것으로 추정했습니다. 데이터 재사용은 광범위한 데이터 세트에 걸쳐 분포되어 있었습니다: 2003년에서 2007년 사이에 제출된 데이터 세트의 20%가 제3자에 의해 최소한 한 번 재사용되었다는 매우 보수적인 추정이 있었습니다. 결론. 인용률에 영향을 미치는 다른 요인을 고려한 후, 우리는 공개 데이터에서 강력한 인용 혜택이 있음을 발견하였지만, 이전 보고된 것보다 규모가 더 작습니다. 우리는 연구자들이 자신의 데이터를 재사용하는 대부분의 논문을 발표한 이후에도 몇 년 동안 지속되는 제3자 데이터 재사용의 직접적인 효과가 있음을 결론지었습니다. 인용 혜택에도 기여할 수 있는 다른 요인들도 고려했습니다. 우리는 또한, 적어도 유전자 발현 마이크로어레이 데이터에 대해서는 상당한 비율의 보관된 데이터 세트가 재사용되고 있으며, 데이터 세트 재사용의 강도가 2003년 이후로 지속적으로 증가하고 있다는 결론을 내렸습니다.
Piwowar 외 (화요일,) 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: