mirror of
https://github.com/jackyzha0/quartz.git
synced 2025-12-27 23:04:05 -06:00
39 lines
2.0 KiB
Markdown
39 lines
2.0 KiB
Markdown
---
|
|
title: "NLP and the Web"
|
|
tags: [NLP4Web]
|
|
date: 2024-02-18
|
|
draft: false
|
|
---
|
|
|
|
Eine Zusammenfassung der Inhalte der Vorlesung **Natural Language Processing and the Web** aus dem Wintersemester 2024/2025.
|
|
|
|
<a href="./Elective/InfoProcessing/NLP4Web/JSN_NLP4Web_Summary.pdf" target="_blank">Download</a>
|
|
|
|
**Inhalt:**
|
|
1. **Grundlagen des Natural Language Processing (NLP)**
|
|
- NLP umfasst verschiedene Anwendungsbereiche wie Suchmaschinen, maschinelle Übersetzung, Sprachassistenzsysteme und Plagiatserkennung.
|
|
- Herausforderungen sind u.a. Inhaltsqualität, Dubletten-Bereinigung und der Umgang mit fehlerhaften Daten.
|
|
|
|
2. **Textverarbeitung und -analyse**
|
|
- **Tokenization**: Zerlegung von Texten in einzelne Wörter oder Wortteile.
|
|
- **Part-of-Speech (POS) Tagging**: Bestimmung der Wortarten innerhalb eines Satzes.
|
|
- **Parsing**: Ermittlung der grammatikalischen Struktur eines Satzes.
|
|
|
|
3. **Maschinelles Lernen für NLP**
|
|
- **Naïve Bayes Klassifikation** für Text-Klassifikation (z.B. Spam-Erkennung, Sentiment-Analyse).
|
|
- **Hidden Markov Models (HMMs)** und **Sequence Labeling** zur Analyse von Abfolgen (z.B. POS-Tagging).
|
|
- Transformer-Modelle wie **BERT**, die tiefergehende semantische Zusammenhänge in Texten erkennen.
|
|
|
|
4. **Information Retrieval & Ranking-Methoden**
|
|
- **Inverted Index** für effiziente Suche in großen Textsammlungen.
|
|
- **TF-IDF & BM25** zur Relevanzbewertung von Suchergebnissen.
|
|
- **Re-Ranking Methoden mit BERT** zur Verbesserung der Suchqualität durch tiefere semantische Analyse.
|
|
|
|
5. **Word Embeddings & Sprachmodelle**
|
|
- **Word2Vec, FastText & BERT** für dichte semantische Wortrepräsentationen.
|
|
- **N-Gram Modelle** für Sprachmodellierung und Vorhersage des nächsten Wortes in Texten.
|
|
- **Transformer-Architektur** (z.B. GPT, BERT) als Basis für moderne KI-gesteuerte Sprachmodelle.
|
|
|
|
<div style="text-align: center;">
|
|
<iframe src="./Elective/InfoProcessing/NLP4Web/JSN_NLP4Web_Summary.pdf" width="100%" height="600px" style="border: none;"></iframe>
|
|
</div> |