mirror of
https://github.com/jackyzha0/quartz.git
synced 2025-12-27 23:04:05 -06:00
2.0 KiB
2.0 KiB
| title | tags | date | draft | |
|---|---|---|---|---|
| NLP and the Web |
|
2024-02-18 | false |
Eine Zusammenfassung der Inhalte der Vorlesung Natural Language Processing and the Web aus dem Wintersemester 2024/2025.
Inhalt:
-
Grundlagen des Natural Language Processing (NLP)
- NLP umfasst verschiedene Anwendungsbereiche wie Suchmaschinen, maschinelle Übersetzung, Sprachassistenzsysteme und Plagiatserkennung.
- Herausforderungen sind u.a. Inhaltsqualität, Dubletten-Bereinigung und der Umgang mit fehlerhaften Daten.
-
Textverarbeitung und -analyse
- Tokenization: Zerlegung von Texten in einzelne Wörter oder Wortteile.
- Part-of-Speech (POS) Tagging: Bestimmung der Wortarten innerhalb eines Satzes.
- Parsing: Ermittlung der grammatikalischen Struktur eines Satzes.
-
Maschinelles Lernen für NLP
- Naïve Bayes Klassifikation für Text-Klassifikation (z.B. Spam-Erkennung, Sentiment-Analyse).
- Hidden Markov Models (HMMs) und Sequence Labeling zur Analyse von Abfolgen (z.B. POS-Tagging).
- Transformer-Modelle wie BERT, die tiefergehende semantische Zusammenhänge in Texten erkennen.
-
Information Retrieval & Ranking-Methoden
- Inverted Index für effiziente Suche in großen Textsammlungen.
- TF-IDF & BM25 zur Relevanzbewertung von Suchergebnissen.
- Re-Ranking Methoden mit BERT zur Verbesserung der Suchqualität durch tiefere semantische Analyse.
-
Word Embeddings & Sprachmodelle
- Word2Vec, FastText & BERT für dichte semantische Wortrepräsentationen.
- N-Gram Modelle für Sprachmodellierung und Vorhersage des nächsten Wortes in Texten.
- Transformer-Architektur (z.B. GPT, BERT) als Basis für moderne KI-gesteuerte Sprachmodelle.