Artwork

Inhalt bereitgestellt von Nico Kreiling. Alle Podcast-Inhalte, einschließlich Episoden, Grafiken und Podcast-Beschreibungen, werden direkt von Nico Kreiling oder seinem Podcast-Plattformpartner hochgeladen und bereitgestellt. Wenn Sie glauben, dass jemand Ihr urheberrechtlich geschütztes Werk ohne Ihre Erlaubnis nutzt, können Sie dem hier beschriebenen Verfahren folgen https://de.player.fm/legal.
Player FM - Podcast-App
Gehen Sie mit der App Player FM offline!

#40 Semantic Search

1:02:58
 
Teilen
 

Manage episode 349628161 series 2300648
Inhalt bereitgestellt von Nico Kreiling. Alle Podcast-Inhalte, einschließlich Episoden, Grafiken und Podcast-Beschreibungen, werden direkt von Nico Kreiling oder seinem Podcast-Plattformpartner hochgeladen und bereitgestellt. Wenn Sie glauben, dass jemand Ihr urheberrechtlich geschütztes Werk ohne Ihre Erlaubnis nutzt, können Sie dem hier beschriebenen Verfahren folgen https://de.player.fm/legal.

Informationen sind vielfältig, sie existieren nicht nur in geschriebenen Text, sondern auch in Bilder, Töne, Videos und vielem mehr. Wähend klassischer a.k.a. lexikalischer Suche diese Informationen nur mit viel Aufwand über Umwege zugänglich gemacht werden können, so bietet semantische Suche den direkten Zugriff auf Informationen nicht nur jeder Sprache, sondern auch jeder Modalität wie etwa Bildern und Videos.

In Folge 40 habe ich Joschka Braun von Jina.AI zu Gast. Jina ist ein Startup aus Berlin, welches Entwickler bei der Erstellung multi-modaler ML Anwendungen hilft. Gemeinsam erkären wir zunächst, wieso multi-modalität, also dem Zusammenwirken von unterschiedlichen Medientypen wie etwa Text, Bild, Ton etc. die Zukunft gehört. Wir gehen auf Clip- und Dall-E als erste populäre Vertreter multimodaler Machine Learning Modelle ein und erklären wie sie Dokumenten-Vektoren generieren. Anschließend sprechen wir über geeignete Verfahren zur performanten Durchsuchung der generierten Vektoren mittels Approximate Nearest Neighbor (ANN) Search. Diese können entweder direkt mittels Bibliotheken wie etwa HNSWLib, Annoy oder Faiss genutzt werden, oder als Retrieval-Verfahren innerhalb einer Vektordatenbank. Diese verbinden die Transaktions- und Skalierungsqualtiäten von Datenbanken mit der effizienten Vektorabfrage. Hier reden wir insbesondere über die Vorzüge und Nachteile der dedizierten Vektordatenbanken wie Weaviate, Milvus und Qdrant sowie den klassischen Datenbanken mit Vektorsuche wie beispielsweise ElasticSearch.

Zum Abschluss sprechen wir noch einmal über JinaAI, DocArray, ihren neuen Dienst JinaNow und NLP-Modell-Finetuning.

Links:

  continue reading

Kapitel

1. Zu Gast: Joschka Braun (00:00:54)

2. Was ist Neural Search? (00:05:27)

3. Multi-Modal Models: DallE und Clip (00:08:57)

4. Komponenten von Neural Search (00:15:08)

5. Approximate Nearest Neighbor Search (ANN) (00:17:32)

6. Wie funktioniert HNSWlib (00:18:42)

7. Weitere ANN-Verfahren (00:21:42)

8. Vektor-Datenbanken (00:24:07)

9. Was macht JinaAI (00:35:47)

10. DocArray (00:40:16)

11. Finetuning (00:41:40)

12. Jina und JinaNow (00:57:03)

13. Links und Empfehlungen (01:01:03)

44 Episoden

Artwork

#40 Semantic Search

Techtiefen

23 subscribers

published

iconTeilen
 
Manage episode 349628161 series 2300648
Inhalt bereitgestellt von Nico Kreiling. Alle Podcast-Inhalte, einschließlich Episoden, Grafiken und Podcast-Beschreibungen, werden direkt von Nico Kreiling oder seinem Podcast-Plattformpartner hochgeladen und bereitgestellt. Wenn Sie glauben, dass jemand Ihr urheberrechtlich geschütztes Werk ohne Ihre Erlaubnis nutzt, können Sie dem hier beschriebenen Verfahren folgen https://de.player.fm/legal.

Informationen sind vielfältig, sie existieren nicht nur in geschriebenen Text, sondern auch in Bilder, Töne, Videos und vielem mehr. Wähend klassischer a.k.a. lexikalischer Suche diese Informationen nur mit viel Aufwand über Umwege zugänglich gemacht werden können, so bietet semantische Suche den direkten Zugriff auf Informationen nicht nur jeder Sprache, sondern auch jeder Modalität wie etwa Bildern und Videos.

In Folge 40 habe ich Joschka Braun von Jina.AI zu Gast. Jina ist ein Startup aus Berlin, welches Entwickler bei der Erstellung multi-modaler ML Anwendungen hilft. Gemeinsam erkären wir zunächst, wieso multi-modalität, also dem Zusammenwirken von unterschiedlichen Medientypen wie etwa Text, Bild, Ton etc. die Zukunft gehört. Wir gehen auf Clip- und Dall-E als erste populäre Vertreter multimodaler Machine Learning Modelle ein und erklären wie sie Dokumenten-Vektoren generieren. Anschließend sprechen wir über geeignete Verfahren zur performanten Durchsuchung der generierten Vektoren mittels Approximate Nearest Neighbor (ANN) Search. Diese können entweder direkt mittels Bibliotheken wie etwa HNSWLib, Annoy oder Faiss genutzt werden, oder als Retrieval-Verfahren innerhalb einer Vektordatenbank. Diese verbinden die Transaktions- und Skalierungsqualtiäten von Datenbanken mit der effizienten Vektorabfrage. Hier reden wir insbesondere über die Vorzüge und Nachteile der dedizierten Vektordatenbanken wie Weaviate, Milvus und Qdrant sowie den klassischen Datenbanken mit Vektorsuche wie beispielsweise ElasticSearch.

Zum Abschluss sprechen wir noch einmal über JinaAI, DocArray, ihren neuen Dienst JinaNow und NLP-Modell-Finetuning.

Links:

  continue reading

Kapitel

1. Zu Gast: Joschka Braun (00:00:54)

2. Was ist Neural Search? (00:05:27)

3. Multi-Modal Models: DallE und Clip (00:08:57)

4. Komponenten von Neural Search (00:15:08)

5. Approximate Nearest Neighbor Search (ANN) (00:17:32)

6. Wie funktioniert HNSWlib (00:18:42)

7. Weitere ANN-Verfahren (00:21:42)

8. Vektor-Datenbanken (00:24:07)

9. Was macht JinaAI (00:35:47)

10. DocArray (00:40:16)

11. Finetuning (00:41:40)

12. Jina und JinaNow (00:57:03)

13. Links und Empfehlungen (01:01:03)

44 Episoden

Alle Folgen

×
 
Loading …

Willkommen auf Player FM!

Player FM scannt gerade das Web nach Podcasts mit hoher Qualität, die du genießen kannst. Es ist die beste Podcast-App und funktioniert auf Android, iPhone und im Web. Melde dich an, um Abos geräteübergreifend zu synchronisieren.

 

Kurzanleitung