Soundex-Algorithmus für die deutsche Sprache



  • Hallo zusammen

    Ich beschäftige mich seit einigen Tagen mit phonetischen Such-Algorithmen. Mich interessiert weniger die Suche auf der Ebene des geschriebenen Textes (Buchstaben), als viel mehr auf Ebene der (Aus-)Sprache. Folgende Algorithmen habe ich inzwischen gefunden: Soundex, Extended Soundex, Phonix und so halb zu diesem Themenbereich passent die Levenshtein-Distanz. Leider wurde die ersten drei Algorithmen alle mehr oder weniger auf die englische Sprache abgestimmt.

    Kennt jemand einen phonetischen Algorithmus, der die Eigenheiten der deutechen (Aus-)Sprache besser Rechnung trägt? Im Wikipedia-Artikel zu "Soundex" wird ein "Kölner Verfahren" erwähnt. Leider konnte mir Mr.Google keine brauchbaren Infos bieten.

    Bin für (fast) alle Tipps dankbar.

    Hitsch



  • Du suchst einen Algorithmus, der dir zu einem Soundstream einen Phonemstream liefert? Was spricht gegen die klassische Herangehensweise: Viele Samples nehmen, Muster extrahieren und dann klassifizieren?



  • Hallo Korbinian

    Danke für deine Antwort. Vermutlich habe ich mich nicht klar ausgedrückt. Ich bin auf der Suche nach einem Algorithmus, der Texte (Strings, Filestreams oder Datenbanken) durchsucht. Dieser soll aber nicht eine genaue Textübereinstimmung liefern, sondern eine unscharfe Suche durchführen und ähnlich klingende Befriffe aufspüren. Bewertet wird nach der Ähnlichkeit der Aussprache.

    Beispiel: Eingegeben wird "Meier". Gefunden werden neben "Meier" auch "Meyer", "Maier", "Majer, "Myer" usw.

    Die meisten Algorithmen sind leider auf die englische (Aus-)Sprache abgestimmt.

    Mehr Infos zum Thema Phonetische Suche: http://de.wikipedia.org/wiki/Phonetische_Suche

    Hitsch



  • levenshtein mit adaptiven kosten fuer tausch?
    levenshtein ist uebrigens nicht sprachspezifisch. du kannst mit levenshtein auch genome oder den arschumfang von kinobesuchern vergleichen.

    *threadnichtgelesenhab* soundex modifizieren, selber implementieren? http://en.wikipedia.org/wiki/Soundex



  • c.rackwitz schrieb:

    levenshtein mit adaptiven kosten fuer tausch?

    Ähm es ist schon etwas spät für mich... 😉 Könntest du deine Frage bitte noch einmal anderst formulieren?



  • frage? nein, vorschlag.

    zum spielen: http://odur.let.rug.nl/~kleiweg/lev/



  • Ok jetzt klappts auch bei mir 😉

    Die im ersten Beitrag erwähnten Algorithmen habe ich schon mehr oder weniger in meine kleine Library eingebaut. Momentan kämpfe ich noch mit Phonex. Dieser ist aber leider auch recht "englisch". Meine Kenntnise in Phonetik sind nicht gut genug, um einen solchen Algorithmus an die deutsche Sprache anzupassen.

    Habe Levenshtein noch nie auf die Hinterteile von Kinobesuchern angewendet. Er ist aber meiner Meinung nach eine gute Ergänzung zu anderen phonetischen Verfahren. Aber seine Sprachunabhängigkeit macht ihn nur bedingt geeigneter für eine phonetische Suche auf Deutsch.

    Danke für den Link. Habe ihn gestern oder vorgestern auch schon gefunden.

    Hitsch

    EDIT: Soundex zu lokalisieren sollte selbstverständlich auch für meine Deutsch-Fähigkeiten kein grosses Problem darstellen. Die Ergebnise sind bei einem so einfachen Verfahren aber leider nicht so berauschent. Phonix beruht zwar auch auf Soundex, kennt aber zusätzlich rund hundert Regeln, die die Genauigkeit (in englisch) deutlich erhöhen. Hier wirde die Lokalisierung aber schon deutlich anspruchsvoller...


Anmelden zum Antworten