--- title: "NLP and the Web" tags: [NLP4Web] date: 2024-02-18 draft: false --- Eine Zusammenfassung der Inhalte der Vorlesung **Natural Language Processing and the Web** aus dem Wintersemester 2024/2025. Download **Inhalt:** 1. **Grundlagen des Natural Language Processing (NLP)** - NLP umfasst verschiedene Anwendungsbereiche wie Suchmaschinen, maschinelle Übersetzung, Sprachassistenzsysteme und Plagiatserkennung. - Herausforderungen sind u.a. Inhaltsqualität, Dubletten-Bereinigung und der Umgang mit fehlerhaften Daten. 2. **Textverarbeitung und -analyse** - **Tokenization**: Zerlegung von Texten in einzelne Wörter oder Wortteile. - **Part-of-Speech (POS) Tagging**: Bestimmung der Wortarten innerhalb eines Satzes. - **Parsing**: Ermittlung der grammatikalischen Struktur eines Satzes. 3. **Maschinelles Lernen für NLP** - **Naïve Bayes Klassifikation** für Text-Klassifikation (z.B. Spam-Erkennung, Sentiment-Analyse). - **Hidden Markov Models (HMMs)** und **Sequence Labeling** zur Analyse von Abfolgen (z.B. POS-Tagging). - Transformer-Modelle wie **BERT**, die tiefergehende semantische Zusammenhänge in Texten erkennen. 4. **Information Retrieval & Ranking-Methoden** - **Inverted Index** für effiziente Suche in großen Textsammlungen. - **TF-IDF & BM25** zur Relevanzbewertung von Suchergebnissen. - **Re-Ranking Methoden mit BERT** zur Verbesserung der Suchqualität durch tiefere semantische Analyse. 5. **Word Embeddings & Sprachmodelle** - **Word2Vec, FastText & BERT** für dichte semantische Wortrepräsentationen. - **N-Gram Modelle** für Sprachmodellierung und Vorhersage des nächsten Wortes in Texten. - **Transformer-Architektur** (z.B. GPT, BERT) als Basis für moderne KI-gesteuerte Sprachmodelle.