Gente de la Safor

Bienvenidos a Spain News Today.

Compartir estadísticas resumidas de GWAS conduce a más citas

Compartir estadísticas resumidas de GWAS conduce a más citas

Analítica

Catálogo GWAS10 es un repositorio bien establecido y de alta calidad de resultados de GWAS humanos seleccionados, que brinda fácil acceso a estadísticas resumidas publicadas por los autores (a través de la inserción del curador o el envío del autor). Su amplia cobertura (más de 400 000 asociaciones de 5690 publicaciones a mayo de 2022) y sus estadísticas fácilmente accesibles la convierten en una base de datos de referencia ideal para nuestros análisis. Por lo tanto, hemos descargado la lista completa de estudios y estadísticas resumidas disponibles en el Catálogo GWAS el 26 de mayo de 2022.

Obtuvimos información de citas para cada estudio de la base de datos de los Institutos Nacionales de Salud utilizando iCiteR v0.2.131un envoltorio para la API iCite de los NIH32. Para cuantificar las citas, aquí nos enfocamos en el índice relativo de citas (RCR), una medida mejorada para determinar el impacto de un artículo de investigación usando redes de citas conjuntas para normalizar el número de citas de campo.19. También usamos iCiteR para recuperar el número de citas que cada estudio recibió cada año.

Aunque no es un indicador adecuado de la calidad individual de un artículo en particular, el factor de influencia de la revista puede influir en las citas en la visibilidad y el prestigio de la revista. Recuperamos el SJR 2021 (SCimago Journal Rank) para evaluar la posición general de la revista33,34. Había 723 revistas en nuestro conjunto de datos, de las cuales 691 tenían datos SJR disponibles durante al menos 1 año. Los 27 sin datos de SJR eran demasiado nuevos para tener puntajes (p. envejecimiento de la naturalezaEISSN: 2662-8465) o nombres cambiados (ej. Datos genómicos de BMCISSN: 2730-6844, anteriormente conocido como Genética BMC), o contenía solo un artículo de 2022 (por ejemplo, PLoS Biology, ISSN: 1545-7885), para el cual no recopilamos datos de SJR. Además, tomamos en cuenta las 20 revistas con los GWAS más publicados para permitir una diversidad adicional entre las revistas y agrupamos el resto como una categoría de referencia. Las 20 mejores revistas son Soy J Hum GenetY Soy J Med Genet B Neuropsiquiatra GenetY Anne Riom DisY BMC Med GenetY Sir Cardiovasc GenetY Diabetes, Eur J Hum GenetY GEN DEL MILFY zumbido de ginetaY Hum Mall GenetY J Allergy Clin InmunolY j hum ginetaY Psiquiatría del centro comercialY común naturalY Nat GenetY naturalezaY más ginetaY Mas unoY representante de cienciasY Traducción de psiquiatría (Datos Complementarios 6).

Usamos la función glm en R 4.1.235 ajustar (1) un conjunto de modelos logísticos para explorar los efectos del tiempo, la revista de publicación y otros factores disponibles sobre la participación, y (2) un conjunto de modelos lineales para explorar el efecto de la participación y otros factores disponibles sobre la ejecución responsable de la investigación . Elegimos incluir solo todos los conjuntos de datos publicados entre 2007 y 2021, siendo 2007 el primer año con un conjunto de datos estadísticos de resumen combinado y 2021 el último año calendario completo.

iCite utiliza términos de encabezado de tema médico (MeSH) en el texto de los artículos para predecir la traducibilidad de la búsqueda20. La herramienta proporciona puntajes que representan la proporción de términos que se pueden categorizar dentro de tres ramas generales de la ontología MeSH: humana, animal y molecular/celular.

Para cada conjunto de modelos, agregamos y eliminamos predictores secuencialmente, utilizando el código BIC para seleccionar el modelo óptimo. Para (1), este procedimiento definió el modelo logístico:

$${logit}({pSS})=\alfa + {\beta }_{{año}}{año}+{\beta }_{{lSJR}}{lSJR}+\varepsilon$$

(1)

donde pd Representa el conjunto de datos de estadísticas de resumen público disponible, codificado como [0, 1]Y Público Es el año de la publicación en Internet. [2007–2020]Y lSJR es el logaritmo de la puntuación SJR, log (SJR).

Para (2), elegimos las covariables con la excepción de pd que produjo el modelo lineal básico

$$ \log ({RCR}) = \alpha + {\beta }_{{año}}{año} + {\beta }_{{lSJR}}{lSJR} + {\beta }_{{molcel} } {molcel} + \varepsilon $$

(2)

donde Molesel corresponde a la puntuación molecular/celular de NLM, que se ha demostrado que contribuye al ajuste del modelo, y que comparamos

$$ \log ({RCR}) = \alpha + {\beta }_{{año}}{año} + {\beta }_{{lSJR}}{lSJR} + {\beta }_{{molcel} {molcel}+{\beta}_{{pSS}}{pSS}+\varepsilon$$

(3)

Estimar el impacto de la participación en el registro (RCR). En este caso, modelar el año como un factor, en lugar de una variable continua, mejora el ajuste del modelo.

Si bien esperaríamos que el catálogo de GWAS seleccionado manualmente contenga la mayoría de los conjuntos de datos estadísticos de resumen disponibles públicamente, los autores pueden optar por compartir sus datos en una plataforma diferente (por ejemplo, su propio sitio web o el del consorcio, el archivo Dryad o el archivo GWAS), lo que constituye un sesgo potencial. en nuestro análisis. Para explorar este escenario, seleccionamos aleatoriamente el 50% de los estudios clasificados como no participantes en dos de las revistas con los GWAS más publicados (PLoS Genetics (100 estudios) y Nature Genetics (253 estudios)) y verificamos manualmente si sus estadísticas de resumen eran incluido. en el manuscrito como disponible gratuitamente en otro lugar y si las estadísticas todavía están presentes en dicha URL. Notamos que la mayoría de los artículos mal etiquetados en nuestra muestra aparecieron después de 2017. Ampliamos nuestro análisis verificando la disponibilidad del texto completo en PubMed Central para 5152 artículos no participantes (Datos complementarios 3) y descargando el texto completo para 3317 donde estaba disponible . Desarrollamos una estrategia de búsqueda personalizada para identificar artículos compartidos, frases coincidentes como «disponible para descargar», «disponible en figshare» y patrones más complejos. Cuando los datos propuestos para una búsqueda de texto estaban disponibles a través de dbGaP, confirmamos que los datos estaban disponibles gratuitamente (es decir, no a través del Comité de acceso a datos) al confirmar la ID de los archivos que contienen dbGaP en el subdirectorio Análisis de acuerdo con el archivo de índice https://ftp.ncbi.nlm.nih.gov/dbgap/studies/Ftp_Table_of_Contents.zip Descargado el 25 de octubre de 2022. El código completo para realizar esta búsqueda está en https://github.com/chr1swallace/data-sharing-search.

Resumen de informes

Más información sobre el diseño de la investigación está disponible en el resumen del informe Nature Portfolio vinculado a este artículo.