Herramienta de extracción de Word (2): configuración del entorno de ejecución de la herramienta de extracción de Word
La herramienta de extracción de palabras es una herramienta desarrollada en Python, y previo a su ejecución se requiere un proceso de configuración del entorno como la instalación de Python y los paquetes necesarios. Echemos un vistazo a la configuración del entorno de ejecución de la herramienta de extracción de palabras.
Esta es una continuación del artículo anterior.
2. Configuración del entorno de ejecución de la herramienta de extracción de palabras
2.1. Descripción general de la configuración del entorno
2.1.1. Recomendaciones
Se recomienda instalar Miniconda en lugar de Anaconda. Anaconda instala demasiados paquetes en el entorno predeterminado, lo que lo hace grande. Recomendamos usar Miniconda ya que es pequeño y liviano para empezar.
Si Miniconda no está instalado, se recomienda la instalación de virtualenv. Si instala el paquete en un entorno separado aislado del entorno básico, puede evitar problemas como conflictos de versión del paquete.
Si se considera que no hay problema o si solo se usa el extractor de palabras, está bien usar el entorno predeterminado. Este artículo explica cómo usar Miniconda en Windows 10 de 64 bits.
2.1.2. Elige un despalillador: Mecab
Se eligió Mecab porque era el más rápido de ejecutar entre los analizadores de morfemas de lenguaje natural abierto y el más adecuado para el propósito de extracción de palabras. Para usar un analizador de morfemas que no sea Mecab, puede reescribir la función get_word_list().
2.1.3. Orden general de configuración del entorno
- Instalar Miniconda
- Creación y activación de un entorno virtual
- Instalar Python en un entorno virtual
- Instalar los paquetes necesarios para el entorno virtual (instalar en el entorno básico si no se utiliza el entorno virtual)
2.2. Instalar Miniconda
https://conda.io/en/latest/miniconda.html#windows-installers Seleccione y descargue la versión de Python desde . La herramienta de extracción de palabras se desarrolló en Python 3.8 y funciona bien en 3.9. Aquí vamos a descargar e instalar 3.9.
Ejecute el archivo descargado (Miniconda3-py39_4.10.3-Windows-x86_64.exe) para continuar con la instalación. Haga clic en el botón Siguiente varias veces para completar la instalación.
Las tareas subsiguientes se ejecutan desde el indicador de Miniconda. Puede ejecutarlo desde la siguiente ruta.
Menú de inicio > Anaconda3 (64 bits) > Indicación de Anaconda (miniconda3)
2.3. Creación y activación de un entorno virtual
Cuando ejecuta Miniconda Prompt por primera vez, el entorno base (base) se activa. (ver imagen arriba)
Cree un entorno virtual separado para la herramienta de extracción de palabras.
(base) C:\Users\ymlee>conda create -n wordextr
Active el entorno virtual creado con el siguiente comando. Si el nombre del entorno virtual (wordextr) aparece al frente después de ejecutar el comando, normalmente está activado.
(base) C:\Users\ymlee>conda activate wordextr (wordextr) C:\Users\ymlee>
2.4. Instalar Python en un entorno virtual
Ejecute el siguiente comando.
(wordextr) C:\Users\ymlee>conda install python
Se genera algo como lo siguiente:
(wordextr) C:\Users\ymlee>conda install python Collecting package metadata (current_repodata.json): done Solving environment: done ## Package Plan ## environment location: C:\Users\ymlee\miniconda3\envs\wordextr added / updated specs: - python The following NEW packages will be INSTALLED: ca-certificates pkgs/main/win-64::ca-certificates-2021.7.5-haa95532_1 certifi pkgs/main/win-64::certifi-2021.5.30-py39haa95532_0 openssl pkgs/main/win-64::openssl-1.1.1l-h2bbff1b_0 pip pkgs/main/win-64::pip-21.2.4-py38haa95532_0 python pkgs/main/win-64::python-3.9.7-h6244533_1 setuptools pkgs/main/win-64::setuptools-58.0.4-py39haa95532_0 sqlite pkgs/main/win-64::sqlite-3.36.0-h2bbff1b_0 tzdata pkgs/main/noarch::tzdata-2021a-h5d7bf9c_0 vc pkgs/main/win-64::vc-14.2-h21ff451_1 vs2015_runtime pkgs/main/win-64::vs2015_runtime-14.27.29016-h5e58377_2 wheel pkgs/main/noarch::wheel-0.37.0-pyhd3eb1b0_1 wincertstore pkgs/main/win-64::wincertstore-0.2-py39h2bbff1b_0 Proceed ([y]/n)?
Simplemente presione Entrar o escriba y y presione Entrar para comenzar la instalación. Como referencia, si no desea instalarlo, escriba n y presione Entrar.
2.5. Instalar los paquetes necesarios
Instale los paquetes necesarios con el siguiente comando: Dado que conda no proporciona wordcloud y eunjeon, deben instalarse con pip.
conda install pywin32 conda install pandas conda install Jinja2 conda install xlsxwriter pip install wordcloud pip install eunjeon
El propósito de cada paquete es el siguiente.
- pywin32: se utiliza para abrir y leer archivos de MS Word, PowerPoint y Excel en la automatización OLE
- pandas: se utiliza para administrar los resultados de extracción de palabras en la memoria y guardarlos en un archivo de Excel al final
- Jinja2, xlsxwriter: utilizado para ExcelWriter en pandas
- wordcloud: se utiliza para visualizar los resultados de la extracción de palabras
- eunjeon: utilizando el analizador de morfemas coreano Mecab
Al instalar eunjeon, se requiere "Microsoft Visual C++ 14.0 o superior". Si se produce un error, descargue e instale 'Microsoft Build Tools 2015 Update 3' entre 'Redistributable Packages and Build Tools' desde la siguiente URL e inténtelo de nuevo.
https://visualstudio.microsoft.com/ko/vs/older-downloads/#microsoft-build-tools-2015-update-3
Al instalar, seleccione "Desarrollo de escritorio con C++" e instálelo. (La pantalla a continuación es una pantalla capturada después de la instalación y es ligeramente diferente de la pantalla durante la instalación)
Después de instalar “Microsoft Build Tools 2015 Update 3”, instale eunjeon con el siguiente comando.
pip install eunjeon
Si la instalación de eunjeon está completa, puede eliminar "Microsoft Build Tools 2015 Update 3".
Ejecute 'Visual Studio Installer' desde el menú de inicio, anule la selección de "Desarrollo de escritorio con C++" y haga clic en el botón "Modificar" en la parte inferior derecha para eliminarlo.
En este punto, la configuración del entorno está completa. A continuación, veremos cómo ejecutar la herramienta de extracción de palabras y verificar los resultados.
<< Lista de artículos relacionados >>
- Herramienta de extracción de palabras (1): descripción general de la herramienta de extracción de palabras
- Herramienta de extracción de Word (2): configuración del entorno de ejecución de la herramienta de extracción de Word
- Herramienta de extracción de Word (3): cómo ejecutar la herramienta de extracción de Word y verificar los resultados
- Herramienta de extracción de palabras (4): Descripción del código fuente de la herramienta de extracción de palabras (1)
- Herramienta de extracción de palabras (5): Descripción del código fuente de la herramienta de extracción de palabras (2)
- Herramienta de extracción de palabras (6): Herramienta de extracción de palabras Descripción adicional
- Tabla de contenido completa del descriptor de la herramienta de extracción de palabras, descarga
(wordextr) E:\WordExtractor>python word_extractor.py –in_path .\in –out_path .\out
Soy un principiante y uso Python por primera vez. Lo ejecuté como arriba y obtuve el siguiente resultado. Parece que hay algún problema con la designación de la ruta, pero soy un novato y no puedo resolverlo. Agradecería vuestra ayuda (las carpetas de entrada y salida se han creado correctamente).
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
————————————————————
Inicio de Word Extractor v0.41 — 2023-11-20 03:13:07.584787
##### argumentos #####
recuento_multiproceso: 32
db_comment_file: Ninguno
in_path: .\en
ruta_salida: .\salida
————————————————————
[2023-11-20 03:13:07.586789] Iniciar Obtener lista de archivos…
[2023-11-20 03:13:07.586789] Finalizar Obtener lista de archivos.
— Lista de archivos —
E:\WordExtractor\en\test.txt
[2023-11-20 03:13:07.588790] Iniciar Obtener texto del archivo…
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
use_description = “””— Descripción —
E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
get_txt_text: E:\WordExtractor\en\test.txt
multiprocesamiento.pool.RemoteTraceback:
“””
Rastreo (llamadas recientes más última):
Archivo “C:\ProgramData\miniconda3\envs\wordextr\Lib\multiprocessing\pool.py”, línea 125, en trabajador
resultado = (Verdadero, func(*args, **kwds))
^^^^^^^^^^^^^^^^^^^
Archivo “C:\ProgramData\miniconda3\envs\wordextr\Lib\multiprocessing\pool.py”, línea 48, en mapstar
lista de retorno (mapa (* argumentos))
^^^^^^^^^^^^^^^^
Archivo “E:\WordExtractor\word_extractor.py”, línea 367, en get_file_text
df_text = get_txt_text(nombre_archivo)
^^^^^^^^^^^^^^^^^^^^^^^
Archivo “E:\WordExtractor\word_extractor.py”, línea 238, en get_txt_text
df_text = df_text.append(sr_text, ignore_index=True)
^^^^^^^^^^^^^^
Archivo “C:\ProgramData\miniconda3\envs\wordextr\Lib\site-packages\pandas\core\generic.py”, línea 6204, en __getattr__
devolver objeto.__getattribute__(yo, nombre)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
AttributeError: el objeto 'DataFrame' no tiene el atributo 'append'. ¿Quiso decir: '_append'?
“””
La excepción anterior fue la causa directa de la siguiente excepción:
Rastreo (llamadas recientes más última):
Archivo “E:\WordExtractor\word_extractor.py”, línea 559, en
principal()
Archivo “E:\WordExtractor\word_extractor.py”, línea 460, en principal
mp_text_result = pool.map(get_file_text, file_list)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
Archivo “C:\ProgramData\miniconda3\envs\wordextr\Lib\multiprocessing\pool.py”, línea 367, en el mapa
devolver self._map_async(func, iterable, mapstar, chunksize).get()
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
Archivo “C:\ProgramData\miniconda3\envs\wordextr\Lib\multiprocessing\pool.py”, línea 774, en get
aumentar self._value
AttributeError: el objeto 'DataFrame' no tiene el atributo 'añadir'
(extrpalabra) E:\WordExtractor>
Hola mucho gusto.
Dado que se trata de un error que no he experimentado, es difícil decirle cómo solucionarlo de inmediato.
¿Podrías comprobar y dejarme saber las versiones de Python, numpy y pandas?
Creo que necesitas comprobarlo porque la versión es diferente.
Como referencia, la versión del entorno que implementé y probé es la siguiente.
– Python: 3.9.6 (Cómo verificar: python –versión)
– numpy: 1.20.3 (Cómo verificar: lista de pip) (También puede verificar los pandas a continuación de inmediato)
– pandas: 1.3.1
Yo también tuve el mismo error. Lo ejecuté de acuerdo con las versiones de los paquetes que compartiste y fue exitoso.
Hola. Tengo una pregunta sobre la instalación de Anaconda. Me gustaría utilizar una herramienta de extracción de palabras dentro de la empresa, pero como Anaconda es de pago, la empresa recomienda utilizar miniforge. ¿Habrá alguna diferencia en la funcionalidad si uso la herramienta de extracción de palabras después de instalar miniforge?
No he usado miniforge, así que no sé si habrá una diferencia funcional.
El propósito de instalar miniconda era crear y administrar fácilmente un entorno virtual en lugar de facilitar la instalación de paquetes.
Prueba esto:
– Utilice venv o virtualenv en lugar de miniconda (ver: https://richwind.co.kr/193)
– “2.5. Cambie "conda install" a "pip install" en el contenido "Instalar paquetes necesarios".
Espero que vaya bien.
Primero, instalé miniforge y realicé el proceso anterior en el indicador de Miniforge, y funcionó sin ningún problema.
Y la 'Actualización 3 de Microsoft Build Tools 2015' que mencionaste no se instaló bien, así que instalé Microsoft Build Tools 2022 y recibí eunjeon.
Ahora probaré la herramienta de extracción y les daré mi opinión 🙂
Espero que funcione bien ^^