quartz/content/Elective/InfoProcessing/nlp4web.md
2025-02-18 15:56:26 +01:00

2.0 KiB

title tags date draft
NLP and the Web
NLP4Web
2024-02-18 false

Eine Zusammenfassung der Inhalte der Vorlesung Natural Language Processing and the Web aus dem Wintersemester 2024/2025.

Download

Inhalt:

  1. Grundlagen des Natural Language Processing (NLP)

    • NLP umfasst verschiedene Anwendungsbereiche wie Suchmaschinen, maschinelle Übersetzung, Sprachassistenzsysteme und Plagiatserkennung.
    • Herausforderungen sind u.a. Inhaltsqualität, Dubletten-Bereinigung und der Umgang mit fehlerhaften Daten.
  2. Textverarbeitung und -analyse

    • Tokenization: Zerlegung von Texten in einzelne Wörter oder Wortteile.
    • Part-of-Speech (POS) Tagging: Bestimmung der Wortarten innerhalb eines Satzes.
    • Parsing: Ermittlung der grammatikalischen Struktur eines Satzes.
  3. Maschinelles Lernen für NLP

    • Naïve Bayes Klassifikation für Text-Klassifikation (z.B. Spam-Erkennung, Sentiment-Analyse).
    • Hidden Markov Models (HMMs) und Sequence Labeling zur Analyse von Abfolgen (z.B. POS-Tagging).
    • Transformer-Modelle wie BERT, die tiefergehende semantische Zusammenhänge in Texten erkennen.
  4. Information Retrieval & Ranking-Methoden

    • Inverted Index für effiziente Suche in großen Textsammlungen.
    • TF-IDF & BM25 zur Relevanzbewertung von Suchergebnissen.
    • Re-Ranking Methoden mit BERT zur Verbesserung der Suchqualität durch tiefere semantische Analyse.
  5. Word Embeddings & Sprachmodelle

    • Word2Vec, FastText & BERT für dichte semantische Wortrepräsentationen.
    • N-Gram Modelle für Sprachmodellierung und Vorhersage des nächsten Wortes in Texten.
    • Transformer-Architektur (z.B. GPT, BERT) als Basis für moderne KI-gesteuerte Sprachmodelle.