Forschungsfragen

Korpuslinguistik & NLP

In unserem Pilotprojekt KARBUN wurde ein Korpus aus 100.000 radiologischen Befunden erstellt – dies ist die Ausgangsbasis für unsere weiteren Überlegungen und für das nun viel größere Korpus MedCorpInn (5 Mio. Befunde). Wir fragen uns zum Beispiel: 

  • Wie kann das bereits bestehende Korpus technisch verbessert werden? 
  • Welche Besonderheiten auf der Textebene müssen bei der Bearbeitung medizinischer Befunde beachtet werden? 
  • Wie können medizinische Fachbegriffe und Abkürzungen erkannt werden? 
  • Wie können die Grundstrukturen der Daten, wie z.B. XML-Features, verbessert werden?


Gendermedizin
  • Gibt es geschlechtsspezifische Unterschiede hinsichtlich des Untersuchungsmodus oder der Untersuchungsanzahl?
  • Erhalten Frauen bestimmte Arten von Untersuchungen oder Nachbehandlungen seltener als Männer?
  • Gibt es Unterschiede in Bezug auf die Genauigkeit der Abmessungen von Längen/Durchmessern von Tumoren?
  • Werden medizinische Verfahren vorgeschlagen und beschrieben, die in irgendeiner Weise mit sozialen Kategorien zusammenhängen? (z.B. Vorsorgeuntersuchungen, Screenings etc.)
  • Dürfen Frauen während ihrer Ausbildung in Radiologie die gleichen Untersuchungen wie Männer in der gleichen Anzahl und nach der gleichen Zeit durchführen?


Bild: Koordinationsstelle Gleichstellung, Frauenförderung und Diversität

Corpus-assisted Discourse studies
  • Welche Sprachgebrauchsmuster sind im Korpus statistisch signifikant und warum? Wie können solche Muster aus einer qualitativen linguistischen Perspektive interpretiert werden?
  • Stehen solche Muster in Zusammenhang mit den sozialen und ökonomischen Kategorien in den Metadaten (z.B. Alter, Geschlecht, Versicherungsart, Nationalität, Status usw.)? Lassen sich diesbezügliche Biases vorstellen (z.B. anhand von Worthäufigkeiten, Keywords, n-grams, Kollokationen usw.)?
  • Wie wird über verschiedene Personen/ Personengruppen gesprochen? Welche Informationen werden auf der sprachlichen Oberfläche explizit gemacht und wie/für wen sind diese Informationen relevant ?