show episodes
Loading …
show series
 
22 | 0:00:00 Starten0:00:15 Qualität von Sprachmodellen0:04:22 Entropie einer Wortquelle0:09:36 Perplexität von Sprachmodellen0:17:42 Perpkexität und Akustik0:21:51 Adaption - Motivation0:30:51 Adaption des Akustischen Modells0:38:46 Adaption als Transformation0:40:45 Arten der Adaption0:50:50 Anweundung der Transformation0:54:11 Adaptionsmethoden0…
 
21 | 0:00:00 Starten0:01:04 Korrektives Training0:12:17 Transinformation/ Mutual information0:21:21 Erweiterte Baum-Welch Regeln0:31:00 MWE/MCE Training0:56:56 Herausforderung bei der OOV Detektion1:09:49 Lernen der neuen Wörter1:15:34 MotivationVon Dr. Sebastian Stüker
 
20 | 0:00:00 Starten0:01:10 Mehrpass Suchen0:03:15 beispiel: IBIS Single Pass Decoder0:10:01 Consensus Decoding0:13:08 Bsp: MAP vs. Wort-Posteriori-W‘keiten0:17:54 Minimierung des Wortfehlers0:21:23 Approximierung mit N-besten Listen0:25:09 WER Minimierung auf Wortgraphen0:33:50 Algiment als Äquivalenzrelation0:37:22 Intra-Wort-Clustern0:41:36 Conf…
 
19 | 0:00:00 Starten0:00:09 Start0:00:22 Kontinuierliche Suchräume, gleichverteiltes Sprachmodell0:07:31 Suchraum mit Tri-Grammen0:08:57 Viterbi Decoding0:13:15 A* mit Stack Decoder0:16:43 Heuristik für A*0:21:35 Fast Match0:25:21 Vor- und Nachteile Stackdecoder0:28:35 A* vs. Strahlsuche0:33:40 Vermeidung von Redundanzen0:36:53 Baumsuche0:39:27 Bau…
 
18 |0:00:00 Starten0:01:53 Chartparsing0:03:45 Probabilistische CFGs0:07:16 Suche0:10:24 Suche in der Spracherkennung0:24:59 Suche mit DP und Heuristik0:31:09 Explizite vs. Implizite Implementierung0:42:08 Suchstrategien0:44:13 Tiefensuche vs. Breitensuche0:49:34 Heuristische Graphsuche0:52:49 Zeitasynchrone Suche mit A*0:58:09 Zeitsynchrone Strahl…
 
17 | 0:00:00 Starten0:00:09 Back-Off Sprachmodelle0:02:08 Back-Off LM0:05:22 Katz Backoff0:09:28 Kneser-Ney Backoff0:13:12 Schätzung von β - Margnialisierung0:14:49 Leaving-One-Out β Schätzung0:17:31 Klassenbasierte N-Gram LM0:22:49 Klassenbasierte Sprachmodelle0:24:13 Aussprachevarianten0:25:27 Multiworte0:27:52 Besondere Arten von Sprachmodellen0…
 
16 | 0:00:00 Starten0:01:14 Multiworte0:05:49 Single Pronunciation Dictionaries0:09:03 Erweiterter Clusterbaum0:10:36 Ergebnisse0:15:57 Literaturempfehlung0:17:27 Erinnerung: Fundamentalformel0:18:33 Deterministische vs. Stochastische Sprachmodelle0:20:50 Wörterratespiel0:24:56 Wozu dient das Sprachmodell0:27:11 Stochastische Sprachmodelle0:32:08 Ä…
 
15 | 0:00:00 Starten0:01:53 Clustern mit Likelihood Distanz0:04:33 Kontextfragen0:12:44 Typische Kontextfragen0:16:37 Abdeckung durch Polyphone0:19:48 Gewinn durch längere Kontexte0:21:40 Verwendung dynamischer Modalitäten0:24:17 Dynamische Modalitäten0:39:58 Fehler durch falsche Aussprache0:42:25 Generierung von Aussprachewörterbüchern0:44:38 Verw…
 
14 | 0:00:00 Starten0:00:35 Polyphone - Datenmangel0:03:50 Polyphone0:10:07 Backoff für Polyphone0:13:27 Bottom-Up vs. Top-Down Clustering0:17:38 Distanzen für Polyphonecluster0:23:08 Diskrete Entropiedistanz0:29:30 Gewichtete Entropiedistanz0:32:27 Clustern von Polyphonen mit Entropiedistanz0:38:59 Clustern nach Kai-Fu Lee0:48:37 Clustering mit En…
 
13 | 0:00:00 Starten0:03:43 HMMs in ASR0:04:40 Wortfolge zu HMM0:06:02 HMM in ASR0:16:53 HMM Trainingszyklus0:23:06 Etikettierte Daten0:30:58 Initialisierung mit K-Mittelwerte Algorithmus0:32:36 Neutral Gas Algorithmus0:35:38 Initialisierung der HMM Parameter0:40:35 Initialisierung ohne Ettiketierte Daten 0:41:23 Viterbi Training0:46:50 Label Train…
 
12 | 0:00:00 Starten0:02:07 Expectation Maximization (EM)0:05:35 EM0:09:59 EM - Expectation Schritt0:14:39 EM für Mixtur-Gewichte0:23:40 EM für Mixturgewichte0:30:07 EM für Gaußmixturen0:52:19 EM für HMMs0:56:20 EM für HMMs Anfangswahrscheinlichkeiten0:58:23 EM für Übergangswahrscheinlichkeiten1:09:43 HMM Training für multiple Trainingssequenzen1:1…
 
11 | 0:00:00 Starten0:00:31 Die Fundamentalformel (Erinnerung)0:01:00 Hidden Markov Model Ansatz0:04:14 Münzen-Beispiel0:10:53 Urne Ball Modell0:12:02 HMM Definition0:14:06 HMM Beobachtungsgenerierung0:16:13 Die HMM Trellis0:17:05 Die drei Probleme der HMMs0:22:46 Forward Algorithmus0:39:03 Backward Algorithmus0:41:01 Das Decoding Problem0:43:10 Vi…
 
10 | 0:00:00 Starten0:00:20 Vektorquantisierung0:01:07 Voronoiregionen0:01:19 Mahalanobis Distanz0:01:39 Vektorquantisierung als Klassifikationsproblem0:02:14 K-Nächte Nachbar0:03:21 Beschleunigung von KNN0:15:21 Baumstruktur des Merkmalsraum0:16:20 Aufgabe0:26:15 Finden von Referenzvektoren0:26:56 K-Mittelwerte0:29:09 Learning VQ0:31:24 LVQ2, LVQ3…
 
09 | 0:00:00 Starten0:00:33 Spracherkennung mit Musterklassifikation0:03:37 Aufgabe0:04:55 Vergleich ganzer Äußerungen0:11:51 Time Warping0:14:19 Distanz zweier Äußerungen0:15:42 DP Matrix0:17:44 Dynamic Time Warping (DTW)0:20:24 Einschränkungen des DTW Pfades0:23:55 DTW-Schritte0:26:23 Der DTW Suchraum0:30:47 Mögliche Distanzen zwischen Vektoren0:…
 
08 | 0:00:00 Starten0:00:16 Vergleich verschiedener Spektren0:01:40 Typische Vorverarbeitung0:12:10 Dynamische Merkmale0:13:10 Autokorrelaktion0:18:52 Nulldurchgangsrate0:21:30 Hauptkomponentenanalyse (PCA)0:26:23 Lineare Diskriminanznalyse0:31:08 Vorverarbeitung mit Neuronalen Netzen0:34:48 Bottleneck Features 0:38:06 Klassifikation0:43:00 Statisc…
 
07 | 0:00:00 Starten0:00:04 Spektrodiagramm0:03:22 Oberschwingung, Harmonische0:07:11 Mel Skalierung0:16:35 Effekt der Fensterlängen0:20:58 Quelle Filter Modell der Sprache0:22:36 Helmholtzresonator0:27:55 Vokaldreieck0:32:59 Lineare Vorhersage (LPC)0:42:42 Interpretation der LPC Koeffizienten0:45:59 All-Pole Modell0:46:54 LPC Beispiel0:49:28 Cepst…
 
05 | 0:00:00 Starten0:00:31 Wortfehlerrate0:03:26 Minimale Editierdistanz0:09:36 Eigenschaften der WER0:14:07 Probleme mit der WER?0:18:00 WER in den DARPA Evaluationen0:28:50 Grundlagen der Signalverarbeitng0:29:25 Wozu Signal(vor)verarbeitung?0:32:29 Systeme0:35:19 Zeitinvariante System0:36:54 Dirac Distribution0:43:50 Faltung0:46:58 Impulsantwor…
 
06 | 0:00:00 Starten0:00:19 Die heutige Vorlesung0:00:27 Darstellungen der Fourierreihe0:00:37 Fouriertransformation0:01:17 Komplexes Spektrum0:03:06 Projektion der komplexen Exponentialfunktion auf die reelle trigonometrische Funktion0:04:33 Zeitdiskrete Fouriertransformation0:07:37 Diskrete Fouriertransformation0:11:11 Schnelle Fouriertransformat…
 
04 | 0:00:00 Starten0:00:57 Schriftsysteme0:14:06 Verteilung der Schriftsysteme0:17:36 Mikrofone0:27:17 Überblick0:28:14 Wandlerprinzipien0:37:19 Richtcharakteristik0:45:29 Akustische Bauformen0:59:31 Pop- und Windschutz1:01:05 Geschichte der ASR1:11:48 Euphonia -Speech Organ (1846)1:15:10 Radio Rex1:16:24 Vocoder1:18:38 Harpy…
 
03 | 0:00:00 Starten0:00:19 Heute0:01:22 Stimmhafte Sprache0:01:48 Stimmlose Sprache0:02:09 Grundfrequenz/-ton0:03:39 Sprachlaute-Vokale und Konsonante0:07:03 Vokale0:09:50 Diphthonge0:11:50 Konsonanten0:15:22 Ort der Artikulation0:18:27 Art der Artikulation0:22:40 Internationale Phonetische Alphabet0:23:47 Beispielkonfigurationen0:24:42 IPA Konson…
 
02 | 0:00:00 Starten0:00:19 Heute0:01:24 Taxonomie von Sprache0:02:30 Taxonomie von Spracherkennungssystemen/-aufgaben0:12:48 Ist Spracherkennung schwierig?0:16:35 Warum ist ASR schwierig?0:21:49 Variabilität auf Signalebene0:25:37 Variabilität auf phonetischer Ebene0:30:00 Mehrdeutigkeit auf linguistischer Ebene0:33:17 Segmentierung0:36:13 Sprache…
 
01 | 0:00:00 Starten0:00:04 Übersicht0:01:14 Automatische Spracherkennung0:09:00 Sprache vs. Sprache0:12:35 Anwendungen von ASR0:47:21 Vorteile von ASR0:55:13 Nachteile von ASR1:02:14 Taxonomie von SpracheVon Dr. Sebastian Stüker
 
0:00:00 Starten0:00:16 Minimierung des Wortfehlers0:02:50 Approximierung mit N-besten Listen0:04:06 WER Minimierung auf Wortgraphen0:04:18 Multiple Alignment WER0:07:03 Finden des globalen Alignment0:08:21 Alignment als Äquivalenzrelation0:09:44 Finden einer angemessenen Äquivalenzrelation0:12:02 Intra-Wort-Clustern0:14:58 Pruning0:15:45 Confusions…
 
18 | 0:00:00 Starten0:01:22 Vor- und Nachteile eines Stackdecoders0:05:30 A* vs. Strahlsuche0:07:22 Vermeidung von Redundanzen0:09:23 Baumsuche0:12:11 Baumsuche mit Sprachmodell0:13:54 Delayed Bi-Grams0:21:15 Einsparung durch Baum-Lexica0:25:40 Kopien von Suchbäumen0:29:50 Suche mit kontextabhängigen Modellen0:32:24 Baumsuche mit kontextabhängigen …
 
17 | 0:00:00 Starten0:00:04 Suche0:01:31 Erinnerung: Fundamentalformel0:02:05 Suche in der Spracherkennung0:05:08 Erinnerung DTW und One-Stage-DP0:07:02 Suche im Allgemeinen0:09:33 Suche mit DP und Heuristik0:11:37 Kenngrößen für Suchprobleme0:14:42 Forward-/Backward-/bi-direktionale Suche0:16:34 Explizite vs. Implizite Implementierung0:18:15 Blind…
 
16 | 0:00:00 Starten0:00:04 Kombination von Sprachmodell und Akustischem Modell0:15:11 Deterministische Sprachmodelle0:17:41 Repräsentation der Grammatik0:19:28 Formale Sprachtheorie0:20:31 Chomsky-Hierarchie0:22:28 Chartparsing0:24:54 Probabilistische CFGs0:28:34 Suche0:30:26 Erinnerung: Fundamentalformel0:31:15 Suche in der Spracherkennung…
 
15 | 0:00:00 Starten0:00:05 Aussprachewörterbücher, Sprachmodelle0:00:41 Flexibles Trainingsalignment0:01:05 Aussprachen bestimmen für unüberwachtes Lernen0:05:18 Emotionserkennung mit Hilfe von Aussprachenvarianten0:06:27 Aussprachewörterbuch Entwicklung (nach Adda-Decker und Lamel)0:09:10 Multiworte0:12:05 Single Pronunciation Dictionaries0:15:06…
 
14 | 0:00:00 Starten0:00:09 Wiederholung0:03:29 Kontextfragen0:09:30 Typische Kontextfragen0:13:15 Abdeckung durch Polyphone0:14:51 Gewinn durch längere Kontexte0:16:21 Verwendung dynamischer Modalitäten0:17:38 Dynamische Modalitäten0:29:29 Fehler durch Falsche Aussprachen0:31:19 Generierung von Aussprachewörterbüchern0:39:42 Verwendung von existie…
 
13 | 0:00:00 Starten0:00:06 EM Algorithm0:00:22 Literatur0:01:46 Baum-Welch Regeln0:03:41 Maximum-Likelihood Methode0:42:38 Expectation Maximization (EM)0:45:19 EM0:49:06 EM – Expectation Schritt0:54:25 EM für Mixtur-Gewichte1:05:41 EM für Gaußmixturen1:17:21 EM für HMMs1:20:05 EM für HMMs Anfangsw´keiten1:22:18 EM für HMMs Übergangsw´keiten1:24:26…
 
12 | 0:00:00 Starten0:00:11 EM Algorithmus Emissionsw'keiten GMM0:06:13 HMM Training für multiple Trainigssequenzen0:07:32 HMMs in ASR0:10:16 Wortfolge zu HMM0:13:56 HMM in ASR0:26:49 HMM Trainingszyklus0:36:21 Etikettierte Daten0:38:19 Initalisierung mit K-Mittelwerte Algorithmus0:47:19 Neural Gas Algorithmus0:49:20 Initilisierung der HMM Paramete…
 
11 | 0:00:00 Starten0:00:05 EM Algorithm0:00:19 Literatur0:01:55 Baum-Welch Regeln0:03:38 Maximum-Likelihood Methode0:42:31 Expectation Maximization EM)0:45:17 EM0:49:09 EM – Expectation Schritt0:54:05 EM für Mixtur-Gewichte1:00:55 EM für Mixturgewichte1:05:43 EM für Gaußmixturen1:17:48 EM für HMMs1:20:37 EM für HMMs Anfangsw´keiten1:22:50 EM für H…
 
10 | 0:00:00 Starten0:00:20 Stochastik in der Spracherkennung0:05:24 Die Fundamentalformel0:10:01 Stochastische ASR Akustisches Modell0:11:49 Stochastischer Prozess0:19:33 Makrow-Kette0:20:42 Makrow-Kette n-ter Ordnung0:23:22 Makrow-Ketten 1. Ordnung0:27:37 Beispiele0:32:10 Hidden Markov Models0:40:48 Urne Ball Modell0:42:27 HMM Definition0:45:25 H…
 
09 | 0:00:00 Starten0:00:26 DTW für einzelne Wörter0:03:44 DTW für Sequenzen mehrere Wörter0:09:45 One Stage DP0:12:48 One Stage DP Implementierung0:17:29 One Stage DP Syntaktische Einschränkung0:20:34 Gaußverteilung (Normalverteilung)0:26:12 Multivariate Normalverteilung0:27:33 Kovarianzmatrix der Gaußverteilung0:34:24 Gauß-Mischverteilung0:35:16 …
 
08 | 0:00:00 Starten0:00:14 Hauptkomponentenalyse (PCA)0:02:40 Lineare Diskriminanzanalyse0:05:21 Vorverarbeitung mit Neuronalen Netzen0:10:11 Bottelneck Features0:13:56 Klassifikation0:15:30 Aufgabe (1)0:21:36 Statistische vs. Wissensbasierte Ansätze0:23:15 Wissensbasiert: Entscheidungsbäume0:25:00 Classification and Regression Trees0:28:37 Überwa…
 
07 | 0:00:00 Starten0:00:17 Spektrogramm0:00:58 Oberschwingung, Harmonische0:03:14 Mel Skalierung0:07:18 Effekt der Fensterlänge0:12:44 Quelle Filter Modell der Sprache0:15:24 Helmholtzresonator0:17:08 Vokaldreieck0:21:30 Lineare Vorhersage (LPC)0:28:54 Interpretation der LPC Koeffizienten0:30:47 All-Pole Modell0:30:53 LPC Beispiel0:33:45 Cepstrum0…
 
05 | 0:00:00 Starten0:00:33 Grundlagen der Signalverarbeitung0:00:50 Wozu Signal(vor)verarbeitung?0:02:33 Systeme0:06:21 Zeitinvariante System0:09:58 Dirac Distribution0:18:18 Faltung0:20:35 Impulsantwort0:26:59 Quelle Filter Modell der Sprache0:30:42 Parametereigenschaften einer trigonometrischen Funktion0:32:31 Darstellungen der Fourierreihe0:38:…
 
06 | 0:00:00 Starten0:00:15 Zusammenfassung Fouriertransformation0:02:21 Digitalisierung0:03:02 Abtastung (Sampling)0:04:21 Abtasttheorem Nyquist-Shannon Theorem0:06:36 Aliasing0:18:46 Reale Abtastung0:20:19 Quantisierung0:23:35 Quantisierungsrauschen0:27:58 Quantisierung von Sprachsignalen0:30:20 Einseiztige und zweiseitige Laplace Transformation0…
 
02 | 0:00:00 Starten0:00:09 Einführung und Anwendungen0:01:08 Ist Spracherkennung Schwierig?0:02:00 Warum ist ASR schwierg?0:02:51 Variabilität auf Signalebene0:09:44 Variabilität auf phonetischer Ebene0:12:57 Mehrdeutigkeit auf linguistischer Ebene0:16:32 Segmentierung0:18:24 Sprache aus Sicht der Maschine0:19:15 Spracherkennung als Klassifikation…
 
04 | 0:00:00 Starten0:00:04 Inhalt: Mikrofone, Wortfehlerrate0:00:40 Mikrofone0:01:25 Wandlerprinzipien0:02:21 Richtcharakterristik0:05:56 Akustische Bauformen0:20:12 Pop- und Windschutz0:23:44 Geschichte der ASR0:39:56 Euphonia – Speech Organ (1846)0:41:03 Radio Rex (1922)0:43:11 Vocoder (1939)0:43:59 HARPY (1976)0:48:19 Wortfehlerrate0:50:19 Mini…
 
03 | 0:00:00 Starten0:00:04 Wiederholung der letzten Vorlesung0:02:36 Phonem0:05:09 Kurioses0:10:48 Schall0:18:12 Schalldruckpegel0:21:42 Beispiele für Pegel0:24:01 Schallenergie0:26:43 Schallfläche0:27:43 Anatomie Gehör0:33:57 Gehör0:36:18 Cochlea0:41:30 Psychoakustik0:46:00 Frequenzantwort der Membran0:48:45 Lautstärkenempfinden0:51:11 Experiment…
 
01 | 0:00:00 Starten0:00:55 Was ist Automatische Spracherkennung?0:05:14 Sprache vs. Sprache0:11:29 Anwendung von ASR0:32:10 Vorteile von ASR0:40:11 Aktuelles Beispiel0:42:51 Nachteile von ASR0:49:51 Taxonomie von Sprache1:05:32 Ist Spracherkennung schwierig?1:08:01 Warum ist ASR schwierig?Von Dr. Sebastian Stüker
 
22: Vorlesung |0:00:00 Starten0:00:43 Adaption0:08:52 Motivation0:13:40 Adaption des Akustischen Modells0:16:21 Mögliche Variationen0:18:24 Adaption als Transformation0:22:51 Arten der Adaption0:27:13 Batch vs. Inkrementell0:31:17 Überwachte und Unüberwachte Adaption0:32:18 Training vs. Normalisierung0:33:07 Merkmals vs. Modelladaption0:36:23 Anwen…
 
21: Vorlesung |0:00:00 Starten0:00:10 Suche0:00:29 N-Besten Suche0:01:50 Probleme mit n besten Listen0:02:54 Wortgraphen0:04:14 Zusammenfassung Beschleunigungstechniken0:06:00 Mehrpass Suchen0:06:55 Beispiel: IBIS Single Pass Decoder0:11:18 Consensus Decoding0:13:01 Bsp: MAP vs. Wort-Posteriori-W´keiten0:16:36 Minimierung des Wortfehlers0:19:28 App…
 
20: Vorlesung |0:00:00 Starten0:00:19 Suchstrategien0:01:25 Tiefensuche vs. Breitensuche0:01:57 Heuristische Graphsuche0:02:45 Zeitasynchrone Suche mit A*0:04:15 Zeitsynchrone Strahlsuche0:10:31 Beams in ASR0:12:13 Beam vs. WER0:15:45 Kontinuierliche Suchräume, gleichverteiltes Sprachmodell0:20:59 Suchraum mit Uni-Gramm0:23:03 Suchraum mit Bi-Gramm…
 
19: Vorlesung |0:00:00 Starten0:00:14 Erinnerung: Fundamentalformel0:02:20 Deterministische Sprachmodelle0:05:42 Repräsentation der Grammatik0:07:18 Formale Sprachtheorie0:09:35 Chomsky Hierarchie0:11:42 Chartparsing0:14:29 Probabilistische CFGs0:19:56 Probleme mit Erkennungsfehlern0:24:06 Kombination von Sprachmodell und Akustischem Modell0:33:35 …
 
18: Vorlesung |0:00:00 Starten0:00:37 Graphembasierte Spracherkennung0:06:48 Eignung von Graphemen0:14:38 Verteilung von Schriften0:16:21 Verteilung der Schriftsysteme0:17:12 Eignung von Graphemen0:18:10 Beispiele für schlechte Korrespondenz0:19:32 Graphembasierte ASR für Arabisch0:20:19 Englisch, Deutsch, Russisch, Spanisch, Thai0:21:12 Kontextabh…
 
17: Vorlesung |0:00:00 Starten0:00:13 Kurze Wiederholung der letzten Vorlesung 0:04:16 Kneser-Ney Backoff0:08:07 Schätzung von Beta - Margnialisierung0:16:51 Leaving-One-Out Beta Schätzung0:19:04 Ergebnisse von Kneser-Ney0:20:27 Qualität von Sprachmodellen0:23:21 Entropie einer Wortquelle 0:26:29 Perplexität von Sprachmodellen 0:35:16 Perplexität u…
 
15: Vorlesung |0:00:00 Starten0:05:06 Fehler durch falsche Aussprachen0:08:07 Generierung von Aussprachewörterbüchern0:11:32 Verwendung von existierenden Wörterbüchern0:18:46 Lernen von Ausspracheregeln0:28:21 Inkrementelles Lernen0:30:07 Aussprachevarianten0:33:21 Finden von Aussprachevarianten0:35:28 Probleme mit Aussprachevarianten0:39:45 Typisc…
 
16: Vorlesung |0:00:00 Starten0:00:14 Erinnerung: Fundamentalformel0:02:17 Stochastische Sprachmodelle0:03:54 Äquivalenzklassen0:04:36 Schätzen von N-Gramm Wahrscheinlichkeiten0:05:32 Beispiel0:07:05 Bigramme und Trigramme0:10:07 Das Bag-of-Words Experiment0:10:56 Glättung von Sprachmodellparametern0:15:07 Discounting0:17:51 Interpolation (Lineare …
 
14: Vorlesung |0:00:00 Starten0:02:34 Polyphone0:03:32 Polyphone-Datenmangel0:04:32 Anzahl der Polyphone0:05:46 Häufigkeiten der Polyphone0:07:42 Backoff für Polyphone0:10:10 Gekoppelte Polyphone0:11:32 Bottom-Up vs. Top-Down Clustering0:13:15 Bottom-Up Clustering0:13:41 Top-Down Clustering0:14:30 Probleme beim Clustering0:15:48 Distanzen für Polyp…
 
Loading …

Kurzanleitung

Google login Twitter login Classic login