On Using Statistical Semantic on Domain Specific Information Retrieval
Type:
Master thesis
Proceedings:
Publisher:
Institute of Software Technology & Interactive Systems
Pages:
ISBN:
Year:
2015
Abstract:
Information retrieval must move from a pure surface-based point-of-view to a conceptual point-of-view that matches the contents on a semantic level. Exploring the opportunities offered by statistical semantics, we revisit text-based retrieval on two very different domains (social image as well as patent retrieval) in order to provide a comparative analysis of the efficiency and effectiveness of the analyzed methods. Our semantic-based retrieval approach consists of two elements: first, the methods to create the semantic representations of the terms and second, the approaches to measure the conceptual-based similarity of the texts. For term representations, we use Word2Vec, a state-of-the-art approach based on deep learning, as well as Random Indexing, a more straightforward but effective count-based method. Reviewing the literature, we also select two text similarity methods: one directly measuring similarity at document level (SimAgg) and the other considering the similarity of two documents as a linear combination of the relatedness of their terms (SimGreedy).<br> We assess the performance and limitations of the mentioned methods, by comparing them to the state-of-the-art text search engines. On both the domains, our semantic retrieval methods show a statistically significant improvement in comparison to a best practice term-frequency-based search engine, at the expense of a significant increase in processing time. To address the time-complexity problem of semantic-based methods, we also focus on optimization to enable larger and more real-world style applications.
TU Focus:
Computational Science and Engineering
Reference:
N. Rekabsaz:
"On Using Statistical Semantic on Domain Specific Information Retrieval";
Betreuer/in(nen): A. Hanbury, M. Lupu; Institute of Software Technology & Interactive Systems, 2015; Abschlussprüfung: 14.04.2015.
Zusätzliche Informationen
Last changed:
08.01.2016 12:11:08
TU Id:
245608
Accepted:
Accepted
Invited:
Department Focus:
Business Informatics
Info Link:
https://publik.tuwien.ac.at/showentry.php?ID=245608&lang=1
Abstract German:
Information Retrieval (dt. Informationsrückgewinnung) muss sich von einer rein Oberfläche-basierten Sicht zu einer begrifflichen Sicht, die den Inhalt auf einer semantischen Ebene übereinstimmt, bewegen. Während wir die Möglichkeiten der statistischen Semantik erforschen, nehmen wir das textbasierte Information Retrieval Methoden in zwei sehr unterschiedliche Bereiche (soziale Medien sowie Patent Retrieval) wieder auf, um eine vergleichende Analyse der Effizienz und Effektivität der untersuchten Methoden zu liefern. Unser semantischbasiertes Vorgehen für Informationsrückgewinnung besteht aus zwei Elementen: auf einer Seite finden wir Methoden die semantische Begfriffdarstellungen erstellen, und auf der anderen Seite die Methoden um die begriffbasierte Ähnlichkeit der Texte zu messen. Für Begriffschilderungen, verwenden wir Word2Vec, eine auf dem neuesten Stand der Technik, auf tiefes Lernen basierte Methode, und Zufalls Indexierung, eine einfache aber effektive Zählbasierte Methode. Nach der Überprüfung der Literatur, wählen wir auch zwei Methoden die Textähnlichkeiten messen: eine Methode die die Textähnlichkeint direkt auf Dokumentebene misst (SimAgg), und eine Methode die Ähnlichkeit zweier Dokumente als Linearkombination der Begriffverwandtschaft ihrer Begriffe misst (SimGreedy).<br> Wir bewerten die Leistung und die Grenzen der oben genannten Verfahren durch einen Vergleich mit den modernsten Suchmaschinen. Für beide Domänen zeigt unsere semantische Suchverfahren eine statistisch signifikante Verbesserung im Vergleich zu einem bewährten, frequenzbasierten Suchverfahren, auf Kosten einer wesentlichen Erhöhung der Bearbeitungszeit. Um die Zeit-Komplexität der semantisch basierten Methoden anzugehen, konzentrieren wir uns auf Optimierungen die größere und erfahrungspraktischere Anwendungen ermöglichen.