Ähnlichkeitssuche - Multimediale Ähnlichkeitssuche zum Matchen, Typologisieren und Segmentieren - Cottbus

Das ForMaT-Vorhaben

Bei dem ForMaT-Vorhaben „Multimediale Ähnlichkeitssuche zum Matchen, Typologisieren und Segmentieren“ handelt es sich um ein Gemeinschaftsprojekt des Lehrstuhls Marketing und Innovationsmanagement und des Lehrstuhls Datenbank- und Informationssysteme der BTU Cottbus.

Bei vielen Wertschöpfungsprozessen in der Industrie ist es sinnvoll, aufgrund vorliegender Daten eine objektbezogene Ähnlichkeitsbewertung oder -suche vorzunehmen. Oft geht es dabei um das Suchen von Objekten, welche eine größtmögliche Ähnlichkeit mit einem Vorgabeobjekt aufweisen müssen (Matching), um das Zuordnen einzelner Objekte zu a priori vorgegebenen Klassen von Objekten (Klassifizieren oder Typologisieren) oder gar um das Auffinden vorher unbekannter Klassen von Objekten (Gruppieren oder Segmentieren). Unternehmen führen diese Zusammenfassung unter Einsatz von Datensammlungen und Segmentierungsanalysen entweder im Rahmen eigener Marktforschungsaktivitäten durch oder sie nutzen bereits vorliegende Konsumenten- und Nutzertypologien als Ausgangsbasis. Neben den traditionellen Datengrundlagen steht inzwischen eine Vielzahl ganz neuer Sammlungen multimedialer Objekte bereit und wartet auf eine Nutzung im Rahmen dieser Fragestellungen.

Bisher werden diese Sammlungen multimedialer Objekte zum Segmentieren noch kaum genutzt, da benötigte Ähnlichkeitsbewertungs- und Klassifikationssoftware nur sehr begrenzt zur Verfügung steht. So bieten die verbreiteten Statistik-Softwarepakete nur Standard-Klassifikationen und für die Ähnlichkeitsbewertung nur isolierte einfache Operatoren an. Für Sammlungen multimedialer Objekte sind diese Verfahren wenig geeignet.

Vergleichbar schwach sind die derzeitigen Nutzungsmöglichkeiten dieser neuen Datengrundlagen für multimediale Ähnlichkeitssuche oder multimediales Matchen. Eine rein oder teilweise inhaltsbasierte Suche auf allgemeinen Multimediadaten wird bisher nicht ermöglicht. Der Grund dafür liegt in der so genannten „semantischen Lücke“ zwischen Low-Level-Features und High-Level-Features. Low-Level-Features, also inhaltsbeschreibende Merkmale, wie etwa Farbverteilung, Textur und Orientierung von gefundenen Kanten, lassen sich durch spezielle Algorithmen aus Bildern extrahieren. Leider ist es auf der Grundlage einzelner Low-Level-Features oft nicht möglich den Inhalt von Bildern, zum Beispiel eine bestimmte Kirche, abzuleiten. Gesucht werden also High-Level-Features, welche auf der hohen Ebene der menschlichen Wahrnehmung Bilder beschreiben. Zum automatischen Ableiten solcher High-Level-Features müsste ein Computer jedoch menschliches Kulturwissen für die Interpretation nachbilden. Im Allgemeinen wird dies in nächster Zukunft noch nicht möglich sein.

Die Ziele

In Phase 2 des ForMaT-Projektes sollen verschiedene Softwareprodukte im Rahmen einer gemeinsamen Plattform entstehen, die im Anschluss an das Projekt gemeinsam mit anderen regionalen und überregionalen IT-Spezialisten oder auch innerhalb eines Spin-offs weiterentwickelt und vermarktet werden können. Die gemeinsame Plattform stellt sicher, dass es nicht zu Doppelentwicklungen und -tests von Algorithmen und Methoden kommt. Die verschiedenen Softwareprodukte sind den doch recht unterschiedlichen Nutzungsstrategien (Verwertungskonzepte) der gemeinsamen technologischen Basis geschuldet.

Die thematischen Schwerpunkte

Innerhalb des Projektes werden drei thematische Schwerpunkte bearbeitet, die sich in die Verwertungskonzepte Software zur Ähnlichkeitssuche in Multimediadaten und Softwarepaket zur statistischen Analyse multimedialer Datenobjekte sowie ein Geschäftsfeld Customizing und Algorithmenforschung unterteilen.

Ausgangspunkt für die Software zur Ähnlichkeitssuche in Multimediadaten ist eine existierende Medienkollektion, welche neben den reinen Medienobjekten Metadaten wie Aufnahmedaten und manuelle Bewertungen, Schlagworte, Texte und Ähnliches mehr enthält. Diese für eine Suche wichtigen Daten, aber auch inhaltsbeschreibende Feature-Daten, werden automatisch extrahiert, normalisiert und geeignet abgelegt. Die einzelnen Typen von Feature- und Metadaten lassen sich dann mittels diverser Algorithmen klassifizieren. Entscheidend für den Erfolg der Software ist die Integration des subjektiven Empfindens des Benutzers. Dazu werden die Vorlieben von Anwendern in Form von Präferenzen erfasst, welche mittels eines maschinellen Lernalgorithmus in eine spezielle Gewichtung der Merkmale (Feature-Daten) überführt werden. Dadurch können auf den Benutzer optimierte Suchergebnisse erzielt werden.

Innerhalb des Geschäftsfeldes Softwarepaket zur statistischen Analyse multimedialer Datenobjekte wird eine Vielzahl traditioneller und neuartiger Methoden zur Analyse multimedialer Datenobjekte so aufbereitet, dass sie in vielfältigen Anwendungsbereichen nutzbar sind. Beispielsweise wird es ermöglicht, eine Sammlung schönster Urlaubsschnappschüsse einer Befragungsstichprobe zu analysieren. Dabei stehen dem Nutzer diverse Verfahren zur Ähnlichkeitsbewertung und Segmentierung von Bildern zur Verfügung. Je nach Auswertungsziel soll dem Nutzer zudem ein Handlungsplan vorgeschlagen werden, woraufhin die Analyse intuitiv durchgeführt werden kann. Des Weiteren wird es ermöglicht, dass methodische Ergänzungen oder „Wissenserweiterungen“ sowohl durch die Entwickler als auch beim Nutzer relativ leicht realisiert werden können.

Im Rahmen des Geschäftsfeldes Customizing und Algorithmenforschung ergeben sich weiterführende Tätigkeiten in der speziellen Anpassung an diverse vorhandene Systeme von Unternehmen. Aus diesen Tätigkeiten könnten weiterführende Projekte und Kooperationen mit den Unternehmen entstehen. Zudem wird die Entwicklung neuartiger Ähnlichkeits-, Klassifizierungs- und Segmentierungsalgorithmen vorangetrieben.

Die Partner

  • Prof. Dr. Reinhold Decker, Lehrstuhl für Marketing, Universität Bielefeld
  • Prof. Dr. Wolfgang Polasek, Institut für höhere Studien, Wien
  • Des Weiteren steht dem Projekt ein Industriebeirat, bestehend aus regionalen und überregionalen Unternehmen und Instituten, beratend zur Seite.

Kontakt

Prof. Dr. Daniel Baier
Brandenburgische Technische Universität Cottbus
Erich-Weinert-Straße 1
03046 Cottbus
Tel.: 0355 69-2922
E-Mail: daniel.baier[at]tu-cottbus.de