Tabla de contenido completa del descriptor de la herramienta de extracción de palabras, descarga
Escribí una explicación de la herramienta de extracción de palabras en seis partes y las publiqué todas en mi blog. Escriba una descripción de la herramienta de extracción de palabras y el índice completo en una publicación separada.
- 1. Descripción general de la herramienta de extracción de palabras
- 2. Configuración del entorno de ejecución de la herramienta de extracción de palabras
- 3. Ejecute la herramienta de extracción de palabras
- 3.1. Descargar herramienta de extracción de palabras
- 3.2. Cómo ejecutar la herramienta de extracción de Word
- 3.2.1. Descomprima el archivo descargado y active el entorno virtual Python
- 3.2.2. Consultar ayuda
- 3.2.3. Método 1 Extraer palabras solo de archivos de documentos
- 3.2.4. Método 2 Extraer palabras solo de la tabla DB, comentarios de columna
- 3.2.5. Método de ejecución 3 Extraiga palabras de todos los archivos de documentos, tablas de base de datos y comentarios de columnas
- 3.2.6. Cómo comprobar los resultados de la ejecución
- 3.2.7. Precauciones/Notas sobre la ejecución
- 4. Código fuente de la herramienta de extracción de Word
- 4.1. describir
- 4.2. función principal
- 4.2.1. análisis de argumentos
- 4.2.2. Extraer la lista de archivos para procesar
- 4.2.3. Ejecute get_file_text con procesamiento múltiple
- 4.2.4. Ejecute get_word_list con procesamiento múltiple
- 4.2.5. Obtenga frecuencias de palabras y ejecute make_word_cloud
- 4.2.6. Guarde la lista de palabras extraídas y la frecuencia de palabras como un archivo de Excel, imprima el tiempo de ejecución y salga
- 4.3. función get_file_text
- 4.4. función get_word_list
- 4.5. función hacer_palabra_nube
La herramienta de extracción de palabras se puede descargar desde el repositorio de github a continuación.
https://github.com/DAToolset/ToolsForDataStandard/tree/main/WordExtractor
Los códigos fuente, las fuentes, los archivos de ejemplo de listas de tablas/columnas y los archivos de ejemplo de salida necesarios para la ejecución se agrupan en un archivo comprimido para su distribución, por lo que puede descargar este archivo.
https://github.com/DAToolset/ToolsForDataStandard/raw/main/WordExtractor/word_extractor.7z
Espero que esto sea de alguna ayuda en el trabajo de estandarización de datos.