Hej! Tack för att du vill kommentera inlägget "SwePub dataanalys - första ronden"

Ankhemmet är ett milt asocialt medium. Följande gäller:

  • Du måste ange en giltig e-postadress!
  • Din e-postadress publiceras aldrig om du inte själv skriver in den i själva kommentarstexten. Den lämnas inte vidare till någon.
  • Du kan välja om du bara vill höra av dig eller om du vill ha din kommentar publicerad.
  • Alla kommentarer granskas innan de eventuellt publiceras. Det kan ta lite tid!
  • Om du vill publicera din kommentar går du med på att namn och e-postadress lagras i Ankhemmets databas.





Visa inlägget du vill kommentera här (ifall du behöver kolla något):

Jag försöker lära mig lite dataanalys och AI-tekniker med Python. Härom dagen övade jag med data från SwePub. Det är en resurs där man kan söka vetenskaplig publicering vid svenska lärosäten. Man kan söka på vad som skrivits inom ett visst forskningsområde. Databasen täcker många olika publikationstyper, som artiklar i vetenskapliga tidskrifter, avhandlingar, konferensbidrag etc. Förutom att söka direkt i gränssnittet kan man få ut bibliometriska data, exporterat till en fil i valt format. Sagt och gjort. Jag hämtade data från https://bibliometri.swepub.kb.se/bibliometrics

Efter att ha avlägsnat den första märkliga raden i csv-filen trodde jag att jag lätt kunde skapa en välformad dataframe. Från den skulle jag sedan visualisera de tre senaste årens publiceringar  av artiklar i vetenskapliga tidskrifter från Södertörns högskola. (Inte böcker eller annat material). Figuren skulle också gärna visa fördelning på olika ämnesområden, vilket datan tycktes medge. En kolumn i min dataframe hette "year". Då kan man förvänta sig ett årtal och inget annat, eller? Men icke. En del rader innehöll hela datum istället, alltså med månad och dag. Så det blev den första städningen. En annan kolumn hette "one_digit_topics". Utmärkt! Efter att ha kollat vart denna indelning kommer ifrån förväntade jag mig att alla rader innehöll en siffra från 1 till 6. Men icke. De sex vanligast förekommande värdena var:

5        365 rader
6        207 rader
1         60 rader
5,6       52 rader
3         44 rader
1,5       30 rader
3,5       15 rader

Hur ska man hantera detta? Varför i h. är one_digit inte one digit? Jag valde att bara ta med den första siffran där det fanns flera. Till SwePub skördas data från olika arkiv som används på våra lärosäten, så jag vet inte riktigt var och hur orenheterna borde ha filtrerats (eller om jag bara fått något om bakfoten). Till slut i alla fall:

Vetenskapliga publikationer vid SH

Man kan se att samhällsvetenskap och humaniora väger tungt här, men bubblaren verkar vara Medicin och hälsovetenskap. 2020 är ju inte slut ännu, så de staplarna borde bli högre sen. Just denna verksamhet, publicering i vetenskapliga tidskrifter ser ut att ha tuffat på under Coronaåret.