Wortextraktionstool(1): Überblick über das Wortextraktionstool

Eine Übersicht über Wortextraktionswerkzeuge, die für die Datenstandardisierungsarbeit nützlich sein können, insbesondere für die Erstellung von Standardwortkandidaten.

1. Überblick über das Wortextraktionstool

1.1. Warum wir das Wortextraktionstool entwickelt haben

Unter den anfänglichen Aufgaben der Datenstandardisierung besteht die schwierigste Aufgabe darin, so viele Kandidaten wie möglich zu sammeln und schnell als Standardwörter zu registrieren. Tool zur Überprüfung von Datenstandards (siehe: Data Standard Check Tool_1.Übersicht) kann verwendet werden, um Standardwortkandidaten zu extrahieren, hat aber die folgenden Schwierigkeiten.

  • Wenn die Datenbanktabelle, die Spaltenkommentardaten viele Sonderzeichen enthalten (Symbole wie #, $, %, ., \ usw. und Zeilentrennzeichen usw.), ist ein erheblicher Aufwand erforderlich, um sie zu entfernen oder zu verfeinern.
  • Es ist schwierig, die Häufigkeit von Wörtern zu kennen, daher ist es schwierig zu bestimmen, ob nur einzelne Wörter, nur zusammengesetzte Wörter oder sowohl einzelne Wörter als auch zusammengesetzte Wörter registriert werden sollen.
  • Wenn ein zusammengesetztes Wort später identifiziert wird, nachdem ein Standardwort bestätigt wurde, und sich auf den physikalischen Namen eines bereits registrierten Standardbegriffs auswirkt, können Ausnahmen von der Standardbenennungsregel die Verwaltung erschweren.

Das Wortextraktionstool wurde entwickelt, um einige dieser Schwierigkeiten zu lindern. Insbesondere hoffen wir, dass es in den folgenden Fällen hilfreich sein wird.

  • Wenn es kein aktuelles Datenstandard-Wörterbuch gibt oder auch wenn die Anzahl der Standardwörter gering ist
  • Ihr Job ist so einzigartig, dass es kein Datenstandard-Wörterbuch gibt, das als Referenz geeignet ist.
  • Wenn die Datenbanktabelle und die Spaltenkommentare zu groß sind und das manuelle Extrahieren von Wörtern viel Zeit in Anspruch nimmt
  • Oder umgekehrt, wenn Datenbanktabellen und Spaltenkommentare wenig Inhalt haben, ist es unangemessen, Standardwörter zu extrahieren, und es ist angebracht, sie aus Dokumenten wie Arbeitshandbüchern zu extrahieren.
  • Außerdem, wenn Wörter und Häufigkeiten aus Dokumenten extrahiert werden müssen

1.2. Wortextraktionstool-Konzept

Das Wortextraktionstool ist ein Tool, das verschiedene Arten von Dateien als Eingabe empfängt, Wörter und zusammengesetzte Wörter mithilfe eines Morphemanalysators zur Verarbeitung natürlicher Sprache extrahiert und die Häufigkeit und Quelle (Dateiname, Tabellenname, Spaltenname usw.) als ausgibt Excel-Datei.

Mecab, ein koreanischer Morphemanalysator für die Verarbeitung natürlicher Sprache (NLP), wurde in Python v3.8 verwendet und entwickelt. Kkma, Komoran, Hannanum, Okt (früher bekannt als Twitter) und Mecab sind repräsentative Bibliotheken unter den koreanischen Morphem-Analysatoren für die Verarbeitung natürlicher Sprache. Unter ihnen wurde Mecab ausgewählt, weil es die beste Leistung hat.

Den Leistungsvergleich von Morphem-Analysatoren für die Verarbeitung natürlicher Sprache finden Sie unter dem folgenden Link.

Bezug: https://konlpy.org/ko/latest/morph/#comparison-between-pos-tagging-classes

한국어 형태소 분석기 성능 비교 (출처: 참조 Link에서 발췌)
Leistungsvergleich koreanischer Morphem-Analysatoren (Quelle: Auszug aus Referenzlink)

Die Ausführungszeit gemäß der Erhöhung der Anzahl eingegebener Zeichen kann wie folgt zusammengefasst werden. (Die Ausführungszeit verringert sich und die Leistung verbessert sich, wenn Sie von links nach rechts gehen.)

Kkma > Komoran > Hannanum > Okt (Twitter) > Mecab

Als Referenz dient der obige Link KoNLPy-PaketDies ist die Website der Person, die sie entwickelt hat. KoNLPyist ein Python-basiertes Paket, das mehrere Morphem-Analysatoren in einem bündelt.

KoNLPy: https://konlpy.org/ko/latest/

1.3. Wie der Wortextraktor funktioniert

Sehen Sie sich kurz Eingangsdaten, Verarbeitungslogik und Ausgangsdaten an.

1.3.1. Eingabematerial für das Wortextraktionstool

Eingabedaten können auf eine oder beide der folgenden beiden Arten angegeben werden.

  1. Dokumente: MS Word, PowerPoint, Textdateien
    • Zum Zeitpunkt der Erstellung dieses Artikels (29.08.2021) werden HWP- und PDF-Formate noch nicht unterstützt.
  2. DB-Tabelle, Spaltenkommentar Quelle: Excel-Datei
    • Datenelemente für Tabellenkommentare: Datenbank, Schema, Tabellenname, Tabellenkommentar
    • Spaltenkommentar-Datenelemente: Datenbank, Schema, Tabellenname, Tabellenkommentar, Spaltenname, Spaltenkommentar

▼ Ein Beispiel für Tabellenkommentardaten ist wie folgt.

DatenbankSchemaTabellennameTabellenkommentar
DB1EIGENTÜMER1COMTCADMINISTCODEVerwaltungscode
DB1EIGENTÜMER1COMTCADMINISTCODERECPTNLOGProtokoll des Empfangs des Verwaltungscodes
DB1EIGENTÜMER1COMTCCMNCLCODEGemeinsamer Klassifizierungscode
DB1EIGENTÜMER1COMTCCMNCODEgemeinsamen Code
DB1EIGENTÜMER1COMTCCMNDETAILCODEGemeinsamer Detailcode
Beispiel für Tabellenkommentardaten

▼ Beispiele für Spaltenkommentardaten sind wie folgt. Dies ist die Spaltenliste von COMTCADMINISTCODE (Verwaltungscode) in der obigen Tabellenliste.

DatenbankSchemaTabellennameSpaltennameSpalte Kommentar
DB1EIGENTÜMER1COMTCADMINISTCODEADMINIST_ZONE_SEEinteilung des Verwaltungsbezirks
DB1EIGENTÜMER1COMTCADMINISTCODEADMINIST_ZONE_CODEVerwaltungsbezirkscode
DB1EIGENTÜMER1COMTCADMINISTCODEUSE_ATOb zu verwenden oder nicht
DB1EIGENTÜMER1COMTCADMINISTCODEADMINIST_ZONE_NMName des Landkreises
DB1EIGENTÜMER1COMTCADMINISTCODEUPPER_ADMINIST_ZONE_CODEKodex des oberen Verwaltungsbezirks
DB1EIGENTÜMER1COMTCADMINISTCODECREAT_DEErstellungsdatum
DB1EIGENTÜMER1COMTCADMINISTCODEABL_DEAbschaffungsdatum
DB1EIGENTÜMER1COMTCADMINISTCODEFRST_REGIST_PNTTMErstanmeldung
DB1EIGENTÜMER1COMTCADMINISTCODEFRST_REGISTER_IDID des ursprünglichen Registranten
DB1EIGENTÜMER1COMTCADMINISTCODELAST_UPDT_PNTTMZeit der letzten Änderung
DB1EIGENTÜMER1COMTCADMINISTCODELAST_UPDUSR_IDZuletzt geänderte ID
Beispiel für Spaltenkommentardaten

* Die obigen Beispieldaten wurden unter Verwendung der Tabellen- und Spaltenkommentarskripte auf der Seite „Gemeinsame Komponententabellen-Konfigurationsinformationen“ des E-Government-Standardrahmens v3.8 erstellt.

(Quelle: https://www.egovframe.go.kr/wiki/doku.php?id=egovframework:com:v3.8:init_table)

1.3.2. Verarbeitungslogik des Wortextraktionstools

Eine kurze Zusammenfassung der gesamten Verarbeitungslogik ist wie folgt.

  1. Extrahieren Sie Text (zeilenweise, Tabelle/Spalte), indem Sie Eingabedaten sequentiell öffnen
  2. Extraktion von Wortkandidaten in Form von 1 Substantiv, n Substantiven, Präfix + n Substantiven, n Substantiven + Suffixen, Präfix + n Substantiven + Suffixen mit Mecab, einem Morphemanalysepaket für natürliche Sprache
  3. Ermitteln Sie die Häufigkeit von Wörtern, die aus den gesamten Eingabedaten extrahiert wurden, und speichern Sie das Ergebnis der Wortextraktion als Ausgabedatei
  4. Erstellen und speichern Sie eine Wortwolke als PNG-Datei mit Wortliste und Häufigkeit
  5. Gibt die erforderliche Gesamtzeit aus und beendet sich

Ein vereinfachtes Diagramm des obigen Prozesses ist wie folgt.

단어 추출 도구 처리 과정
Prozess des Wortextraktionstools

1.3.3. Ausgabedaten des Wortextraktionswerkzeugs

Die Ausgabedaten, die das Ergebnis der Verarbeitung der Eingabedaten sind, sind eine Excel-Datei und eine Bilddatei (png) in Form einer Wortwolke.

Die Excel-Datei besteht aus zwei Blättern. Das Folgende ist ein Beispiel für DB-Tabellen- und Spaltenkommentardaten als Eingabe.

▼ Blatt „Beispiel für das Ergebnis der Wortextraktion“.

NeinWortDateinameDateitypBuchseiteTextDBSchemaTischSpalte
1VerwaltungTabelle, Spalte Kommentare.xlsxSäule0Einteilung des VerwaltungsbezirksDB1EIGENTÜMER1COMTCADMINISTCODEADMINIST_ZONE_SE
2BereichTabelle, Spalte Kommentare.xlsxSäule0Einteilung des VerwaltungsbezirksDB1EIGENTÜMER1COMTCADMINISTCODEADMINIST_ZONE_SE
3EinteilungTabelle, Spalte Kommentare.xlsxSäule0Einteilung des VerwaltungsbezirksDB1EIGENTÜMER1COMTCADMINISTCODEADMINIST_ZONE_SE
4Administrative Teilung [Zusammensetzung]Tabelle, Spalte Kommentare.xlsxSäule0Einteilung des VerwaltungsbezirksDB1EIGENTÜMER1COMTCADMINISTCODEADMINIST_ZONE_SE
5VerwaltungTabelle, Spalte Kommentare.xlsxSäule0VerwaltungsbezirkscodeDB1EIGENTÜMER1COMTCADMINISTCODEADMINIST_ZONE_CODE
6BereichTabelle, Spalte Kommentare.xlsxSäule0VerwaltungsbezirkscodeDB1EIGENTÜMER1COMTCADMINISTCODEADMINIST_ZONE_CODE
7CodeTabelle, Spalte Kommentare.xlsxSäule0VerwaltungsbezirkscodeDB1EIGENTÜMER1COMTCADMINISTCODEADMINIST_ZONE_CODE
8Landkreiskennzahl [Kompositum]Tabelle, Spalte Kommentare.xlsxSäule0VerwaltungsbezirkscodeDB1EIGENTÜMER1COMTCADMINISTCODEADMINIST_ZONE_CODE
9verwendenTabelle, Spalte Kommentare.xlsxSäule0Ob zu verwenden oder nichtDB1EIGENTÜMER1COMTCADMINISTCODEUSE_AT
10ObTabelle, Spalte Kommentare.xlsxSäule0Ob zu verwenden oder nichtDB1EIGENTÜMER1COMTCADMINISTCODEUSE_AT
11Ob [zusammengesetztes Wort] verwendet werden sollTabelle, Spalte Kommentare.xlsxSäule0Ob zu verwenden oder nichtDB1EIGENTÜMER1COMTCADMINISTCODEUSE_AT
12RegionTabelle, Spalte Kommentare.xlsxSäule0Name des LandkreisesDB1EIGENTÜMER1COMTCADMINISTCODEADMINIST_ZONE_NM
13StationsnameTabelle, Spalte Kommentare.xlsxSäule0Name des LandkreisesDB1EIGENTÜMER1COMTCADMINISTCODEADMINIST_ZONE_NM
14Landkreisname [Kompositum]Tabelle, Spalte Kommentare.xlsxSäule0Name des LandkreisesDB1EIGENTÜMER1COMTCADMINISTCODEADMINIST_ZONE_NM
Blatt „Beispiel für das Ergebnis der Wortextraktion“.
  • Spalte „Text“: Dies ist der ursprüngliche Wert, der aus den Eingabedaten extrahiert wurde, und entspricht in diesem Beispiel der Tabelle, dem Spaltenkommentar.
  • Spalte „Wort“: Wortkandidaten, die mit Mecab aus Text extrahiert wurden. Geben Sie für zusammengesetzte Wörter „[zusammengesetztes Wort]“ als Suffix an.
    • Zeile 12 „Verwaltungsbezirk“, Zeile 13 „Stationsname“ sind Wörter, die aus „Verwaltungsname“ in Mecab extrahiert wurden.
    • Es ist ersichtlich, dass die Genauigkeit nicht 100% ist, weil sie anders als das tatsächlich verwendete Wort extrahiert wird.

▼ Beispielblatt „Worthäufigkeit“.

WortFreqQuelle
Code110DB1.OWNER1.COMTCADMINISTCODE.ADMINIST_ZONE_CODE (administrativer Zonencode)
DB1.OWNER1.COMTCADMINISTCODERECPTNLOG.CHANGE_SE_CODE (Identifikationscode ändern)
DB1.OWNER1.COMTCADMINISTCODERECPTNLOG.CTPRVN_CODE (Versuchscode)
Anzahl103DB1.OWNER1.COMTCADMINISTCODERECPTNLOG.OPERT_SN(Auftragsseriennummer)
DB1.OWNER1.COMTCZIP.ZIP (Postleitzahl)
DB1.OWNER1.COMTHCONFMHISTORY.CONFM_NO (Genehmigungsnummer)
Anzahl der Personen88DB1.OWNER1.COMTNADBKMANAGE.ADBK_NM (Adressbuchname)
DB1.OWNER1.COMTCCMMNCLCODE.CL_CODE_NM (Klassifizierungscodename)
DB1.OWNER1.COMTCCMNDETAILCODE.CODE_NM (Codename)
Arbeit85DB1.OWNER1.COMTCADMINISTCODE.CREAT_DE(Erstellungsdatum)
DB1.OWNER1.COMTCADMINISTCODE.ABL_DE (Austrittsdatum)
DB1.OWNER1.COMTCADMINISTCODERECPTNLOG.OCCRRNC_DE(Auftrittsdatum)
Information77DB1.OWNER1.COMTHDBMNTRNGLOGINFO.LOG_INFO (Protokollinformationen)
DB1.OWNER1.COMTNBACKUPRESULT.ERROR_INFO (Fehlerinformationen)
DB1.OWNER1.COMTNINDVDLINFOPOLICY.INDVDL_INFO_POLICY_ID (Datenschutzrichtlinien-ID)
Ob75DB1.OWNER1.COMTCADMINISTCODE.USE_AT (ob zu verwenden)
DB1.OWNER1.COMTNANNVRSRYMANAGE.REPTIT_AT (ob zu wiederholen)
DB1.OWNER1.COMTNBANNER.REFLCT_AT (ob reflektiert werden soll)
Beispielblatt „Worthäufigkeiten“.
  • Spalte „Wort“: Dies ist ein Zeichenfolgenwert, der durch Entfernen von Duplikaten aus der Spalte „Wort“ des Blatts „Ergebnis der Wortextraktion“ erhalten wird. Dieser Wert ist ein Kandidat, der als Standardwort registriert werden soll.
  • Spalte „Häufigkeit“: Dies ist die Häufigkeitszählung, die angibt, wie oft das Wort verwendet wurde. Die resultierende Liste wird in umgekehrter Reihenfolge von diesen hochfrequenten Wörtern zu den niederfrequenten Wörtern sortiert.
  • Spalte „Quelle“: Zeigt die Quelle des Wortes an. Zeigt bis zu 10 Quellen an.
    • Wenn die Quelle eine Tabelle ist, lautet das Format: DB.Schema.TableName(Tabellenkommentar)
    • Wenn die Quelle Spalte ist, lautet das Format: DB.Schema.TableName.ColumnName(Spaltenkommentar)
    • Wenn die Quelle Dateiformat ist: Dateiname:Seitennummer:Text

Ein Beispiel für ein Wortwolkenbild, das durch die Häufigkeit von extrahierten Wörtern erzeugt wird, ist wie folgt. Wörter mit hoher Häufigkeit werden groß angezeigt.

단어 추출 결과 Word cloud
Ergebnisse der Wortextraktion Wortwolke

Das Wortextraktionstool ist ein in Python entwickeltes Tool, und vor der Ausführung ist ein Umgebungskonfigurationsprozess wie das Installieren von Python und den erforderlichen Paketen erforderlich. Als Nächstes sehen wir uns den Umgebungskonfigurationsprozess an.


<< Liste verwandter Artikel >>

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

de_DEDeutsch