Procesamiento de Lenguaje Natural: Herramienta para evaluar la compatibilidad de las

decisiones corporativas con la legislación financiera colombiana

Elquin Cáceres Pineda

Universidad EAN

Facultad de Administración, Finanzas y Ciencias Económicas

Maestrı́a en Gestión Financiera

Bogotá D.C., Colombia

18 de Octubre de 2022


Procesamiento de Lenguaje Natural: Herramienta para evaluar la compatibilidad de las decisiones

corporativas con la legislación financiera colombiana

Elquin Cáceres Pineda

Trabajo de grado presentado como requisito para optar al tı́tulo de:

Magister en Gestión Financiera

Director:

Luz Adriana Pineda Baron

Modalidad:

Monografı́a:

Universidad EAN

Facultad de Administración, Finanzas y Ciencias Económicas

Maestrı́a en Gestión Financiera

Bogotá D.C., Colombia

18 de Octubre de 2022


Nota de Aprobación:

Firma Jurado No. 1

Firma Jurado No.2

Firma Jurado No.3

Firma Director Trabajo de Grado

Bogotá D.C. Colombia, de de

1


Declaratoria

“It is strange that only extraordinary people make

discoveries that then appear easily and simply”

Georg Lichtenberg

2


Procesamiento de Lenguaje Natural: Herramienta para evaluar la compatibilidad de las decisiones

corporativas con la legislación financiera colombiana

Agradecimientos

Un trabajo de investigación es siempre fruto de ideas, proyectos y esfuerzos previos que

corresponden a otras personas. A todas esas personas gracias por publicar sus conocimientos y

un especial agradecimiento a la profesora Luz Adriana Pineda, por su confianza, tiempo y apoyo.

3


Procesamiento de Lenguaje Natural: Herramienta para evaluar la compatibilidad de las decisiones

corporativas con la legislación financiera colombiana

Resumen

La estrategia corporativa es una herramienta capaz de generar valor empresarial, por tanto,

las acciones oportunas en situaciones cambiantes representan un desafı́o, cuando el contexto

además incluye un flujo creciente de nueva regulación. Considerando esta preocupación en

el contexto empresarial colombiano y en la creciente regulación financiera actual, se aborda

crear un método automatizado fundamentado en el modelo de procesamiento de lenguaje

natural RoBERTa, en representaciones vectoriales del texto, en los conceptos de recuperación

de información y en las métricas de similitud, para desarrollar una metodologı́a que permite

medir la similitud entre una decisión corporativa y su ordenamiento jurı́dico local. Al poner

a prueba el enfoque propuesto, se observó que es posible crear representaciones semánticas

del lenguaje jurı́dico local, con el que se pueden calcular valores de compatibilidad entre las

decisiones corporativas y sus normas asociadas, puntajes que al verificarlos manualmente y de

forma detallada resultan validos. Se concluye que la metodologı́a propuesta es eficiente para

una verificación propia de las acciones corporativas sin requerir la intervención de un experto

legal, además se observó que estos resultados pueden robustecerse, incluyendo nuevas técnicas

para mejorar los casos de extremos particulares que se encontraron durante el análisis de las

observaciones iniciales obtenidas del conjunto de datos de verificación.

Palabras Clave: PNL, Decisiones Corporativas, Ordenamiento jurı́dico, Similitud Semántica,

Codificadores dobles, Codificadores cruzados

4


Procesamiento de Lenguaje Natural: Herramienta para evaluar la compatibilidad de las decisiones

corporativas con la legislación financiera colombiana

Abstract

The corporate strategy is a tool capable of generating business value, therefore, timely

actions in changing situations represent a challenge, when the context also includes a growing

flow of new regulations. Considering this concern in the Colombian business context and in the

current growing financial regulation, it is addressed to create an automated method based on

the ROBERTa natural language processing model, on vectorial representations of the text, on the

concepts of information retrieval and on the metrics of similarity, to develop a methodology that

allows measuring the similarity between a corporate decision and its local legal system. When

testing the proposed approach, it was observed that it is possible to create semantic representations

of the local legal language, with which values of compatibility between corporate decisions and

their associated norms can be calculated, scores that, when verified manually and in detail, are

valid. It is concluded that the proposed methodology is efficient for a proper verification of corporate

actions without requiring the intervention of a legal expert, it was also observed that these results

can be strengthened by including new techniques to improve the cases of particular extremes that

were found during the analysis of the initial observations obtained from the verification data set.

Keywords: NLP, Corporate Decisions, Legal System, Semantic Similarity, Bi-Encoders, Cross

Encoders

5


Índice

1. Introducción 10

2. Objetivos 12

2.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2. Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3. Justificación 13

4. Marco Teórico 14

4.1. Legaltech la Tecnologı́a Aplicada al Derecho . . . . . . . . . . . . . . . . . . . . 14

4.2. Evolución del Procesamiento de Lenguaje Natural . . . . . . . . . . . . . . . . . . 15

4.3. Procesamiento de Lenguaje Aplicado a la Profesión Legal . . . . . . . . . . . . . 24

5. Hipótesis 27

6. Variables 28

6.1. Leyes, Jurisprudencia y Doctrina . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

6.2. Decisiones Corporativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

6.3. Tratamiento de las Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

7. Metodologı́a 30

7.1. Enfoque General Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

7.2. Tratamiento inicial del texto de la Legislación Financiera Local y de las Decisiones

Corporativas - (Contexto y Consulta) . . . . . . . . . . . . . . . . . . . . . . . . . 32

7.2.1. Algoritmo de Codificación de Pares de Bytes (BPE) . . . . . . . . . . . . 32

7.2.2. Codificación del Texto de Entrada - Tokenización . . . . . . . . . . . . . . 33

7.2.3. Decodificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

7.3. Incrustación de Legislación y Decisiones Corporativas - Embeding . . . . . . . . . 34

6


7.3.1. Codificador Doble (Bi-Encoder) . . . . . . . . . . . . . . . . . . . . . . . 34

7.3.2. Codificador Cruzado (Cross-Encoder) . . . . . . . . . . . . . . . . . . . . 35

7.4. Similitud del Coseno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

7.5. Obtención de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

8. Trabajo de Campo 37

8.1. Recolección de Información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

8.1.1. Regulacion Financiera (Corpus o Contexto) . . . . . . . . . . . . . . . . . 37

8.1.2. Desciciones Corporativas (Query Consulta) . . . . . . . . . . . . . . . . . 38

8.2. Transformación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

8.3. Estructura del Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

8.4. Análisis de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

8.4.1. Estructura Semántica del Texto . . . . . . . . . . . . . . . . . . . . . . . . 40

8.4.2. Principales Resultados y su Comparación . . . . . . . . . . . . . . . . . . 42

9. Discusión 48

10. Conclusiones y Trabajo Futuro 50

10.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

10.2. Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

A. Anexo 1 Código Python del Modelo 52

B. Anexo 2 Recolección de Datos 54

7


Índice de Tablas

1. Fuentes de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2. Decisiones Corporativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3. Resultados Generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4. Resultado Términos y Condiciones . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5. Patrimonio Mı́nimo y Regulación Aplicable . . . . . . . . . . . . . . . . . . . . . 45

8


Índice de figuras

1. Redes Neuronales Recurrentes (RNN) . . . . . . . . . . . . . . . . . . . . . . . . 17

2. CNN Reconocimiento Óptico de Caracteres . . . . . . . . . . . . . . . . . . . . . 20

3. Ejemplo de Red CNN para Clasificación . . . . . . . . . . . . . . . . . . . . . . . 21

4. Red CNN para Aplicaciones de PLN . . . . . . . . . . . . . . . . . . . . . . . . . 22

5. Arquitectura de la Red Transformer . . . . . . . . . . . . . . . . . . . . . . . . . 23

6. Arquitectura del Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

7. Representación del Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

8. Relaciones del Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

9. Representación Gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

10. Valores de Shapley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

11. Similitud del Coseno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Algoritmos Python

1. Ressultado Terminos y Condiciones . . . . . . . . . . . . . . . . . . . . . . . . . 43

2. Ressultado Vaki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3. Script del Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4. Busqueda de Información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

9


1. Introducción

En el ámbito corporativo, la estrategia tiene un efecto simultáneo en el relacionamiento y

en el desarrollo de los negocios, en consecuencia, tomar acciones estratégicas correctas aumenta

el valor empresarial y contribuye con el mejoramiento del entorno organizacional. Cada acción

estratégica es el resultado de una decisión que puede afectar las operaciones, los objetivos y las

actividades futuras (Stagner, 1969), al comprender su importancia y los diferentes tipos, es posible

adoptarlas correctamente en diversas situaciones.

Dichas decisiones pueden ser de diversos tipos, por ejemplo; organizacionales, polı́ticas,

operativas, rutinarias, entre otras (Kownatzki y col., 2013; Lim & Chung, 2021). Todas estas, tienen

un contexto, un ámbito de aplicación, un proceso para su determinación y un nivel de importancia

(Belkaoui & Karpik, 1989). En este sentido, las Polı́ticas contables, las financieras, las de riesgos,

las comerciales, los planes de negocio, las ideas de nuevos productos, los planes de expansión,

la modificación de la estructura corporativa y administrativa, la incursion en otros mercados, son

claros ejemplos de dichas acciones, con un denominador común, cada una de ellas debe hacer parte

de un documento empresarial (Cummings y col., 2002).

Para tomar una decisión corporativa que aporte valor, es de especial importancia, considerar

el orden jurı́dico aplicable, ya que toda acción empresarial debe guardar correspondencia con

la legislación de su entorno organizacional (Post, 2003). En este aspecto, el creciente flujo de

documentos legales representa un desafı́o para la toma de decisiones, pues requiere conocimientos

de dominio relacionados con la profesión legal.

Con un número de leyes cada vez mayor (Berger-Walliser & Scott, 2018; Seltzer y col.,

2022), es difı́cil, para las instituciones, abordar oportunamente acciones estratégicas que hagan

frente a un entorno empresarial en constante cambio (Silva, 2021), si la evaluación legal se limita

exclusivamente al personal profesional del derecho en la forma tradicional.

A la anterior situación se adicionan los elevados costos de la consultorı́a legal corporativa

(Aziz y col., 2021; von Philipsborn y col., 2022), dando lugar a cuestionarse sobre ¿cómo medir de

10


manera automatizada la similitud o compatibilidad de una decision corporativa con la legislación?,

de tal manera que sea posible para una empresa actuar de manera rápida y asertiva considerando

siempre su marco legal. Hallar una respuesta permitirı́a a cualquier empresa generar valor de forma

eficiente, observando diligentemente los valores de la responsabilidad corporativa (Khaled y col.,

2021).

En esta investigación, se aborda esta pregunta aplicándola al contexto colombiano y en

particular a aquellas decisiones corporativas que precisan de alguna regulación financiera local para

su ejecución, lo anterior, considerando el creciente número de startups y su emergente propensión

al riesgo legal (Oliva y col., 2022), por ello, se aborda crear un método automatizado con base en

los modelos de procesamiento de lenguaje natural, utilizando técnicas de representación vectorial

de oraciones, técnicas de similitud y conceptos de recuperación de información, de tal manera que

se pueda comprender el contexto normativo local y las decisiones corporativas numéricamente,

para finalmente obtener un puntaje de compatibilidad entre ellas.

En las siguientes secciones de este documento se presentan apartados esenciales para este

propósito como; la Metodologı́a, donde se presenta el Enfoque General Propuesto para obtener el

puntaje de compatibilidad entre una decisión corporativa y la regulación financiera colombiana,

que se fundamenta en la Arquitectura del Modelo RoBERTa, el proceso realizado durante la

Recolección de Información, los Principales Resultados y su Comparación con una evaluación

no automatizada, los elementos de Discusión de la metodologı́a propuesta y las Conclusiones y

Trabajo Futuro sugerido.

11


2. Objetivos

2.1. Objetivo General

Determinar el grado de compatibilidad entre una decisión corporativa y la legislación

financiera colombiana, mediante el uso de un método cuantitativo que se apoya en un modelo

probabilı́stico para el procesamiento de lenguaje natural.

2.2. Objetivos Especı́ficos

Recopilar información de la legislación financiera colombiana y de diferentes decisiones

corporativas, mediante una búsqueda automatizada en fuentes primarias.

Representar la estructura semántica del texto contenido en la información recopilada, a través

de un modelo de procesamiento de lenguaje natural.

Presentar los resultados más relevantes obtenidos por el modelo de procesamiento de lenguaje

natural, comparándolos con una evaluación no automatizada.

12


3. Justificación

La motivación de desarrollar el planteamiento de este trabajo se apoya en responder a

la necesidad planteada en la sección 1Introducción, y de ello, su valor para la industria y las

instituciones que la componen, al presentar un método automatizado de análisis que permite medir

el grado de compatibilidad de las acciones corporativas con la legislación financiera colombiana,

lo cual, aporta eficiencias en los procesos estratégicos de las organizaciones al tiempo que puede

reducir significativamente los costes de la consultorı́a legal corporativa.

Para el contexto actual de las empresas colombianas y en particular para el creciente

número de startups, resulta especialmente útil el enfoque propuesto en esta investigación, ya

que, introducir análisis sistematizados, mejora las capacidades operativas para generar valor en

las organizaciones, al tiempo que mitiga sus riesgos legales emergentes.

Además, se encuentra alineado con el enfoque empresarial de la universidad EAN, al

tiempo que mantiene el espı́ritu investigativo de las lı́neas y campos de investigación de esta

institución (Emprendimiento y Gerencia - Diseño estratégico). Se concluye que su valor teórico se

centra en el uso de herramientas de última generación, aplicadas a solventar problemáticas reales

y brindar alternativas útiles para las empresas Colombianas.

13


4. Marco Teórico

El uso de técnicas de procesamiento de lenguaje natural y otros campos de las ciencias

de la computación y la inteligencia artificial en las profesiones del derecho, existen desde la

década de 1960 cuando surgieron los primeros sistemas para buscar contenido legal, y aunque

se fundamentaban en estructuras construidas a partir de un complejo conjunto de reglas diseñadas

manualmente (Hahn, 1998). Entre 1970 y 1980, la empresa estadounidense Lexis Nexis fue pionera

en la prestación de servicios de investigación jurı́dica, introduciendo el primer terminal del mundo

que conectaba a las firmas de abogados con las bases de datos de derecho y jurisprudencia de

algunas bibliotecas. Inicialmente, búsquedas de texto completo de la jurisprudencia de Ohio y

Nueva York (Dale, 2019).

A partir de 1980, estos sistemas tuvieron algunas mejoras al introducirse los primeros

algoritmos de aprendizaje automático, como los árboles de decisión, con estructuras de sentencias

(si - entonces), muy similares a las reglas escritas manualmente (Mandal y col., 2017). Desde

entonces se ha avanzado mucho en lo que se refire a tecnologı́a aplicada al ámbito jurı́dico y en los

conceptos bajo los cuales se denomina.

4.1. Legaltech la Tecnologı́a Aplicada al Derecho

En materia conceptual desde 2017 han aparecido los conceptos legaltech y Lawtech que se

utilizan según el caso y el contexto (Dubois, 2021). Legaltech comúnmente se entiende como el

uso de la tecnologı́a para brindar servicios legales (Munisami, 2019; Soukupova, 2021; Szostek,

2021). Por lo que se podrı́a definir como el uso de la tecnologı́a en servicios legales orientados a:

Reducir o eliminar la necesidad de acudir al sector legal de forma tradicional.

Acelerar los trámites y la gestión de tareas de los propios abogados, reduciendo el coste y el

tiempo que un abogado debe invertir en sus tareas.

Simplificar el contacto entre los profesionales del derecho y los potenciales clientes.

14


Lawtech se utiliza para describir varios tipos de tecnologı́as que tienen como objetivo

apoyar, complementar o reemplazar los métodos tradicionales para brindar servicios legales, o

que mejoran la forma en que opera el sistema de justicia (Webley y col., 2019), cubriendo una

amplia gama de herramientas y procesos, tales como:

Automatización de documentos.

Chatbots y gestores de consultas.

Contratos legales inteligentes

Sistemas de gestión del conocimiento.

A pesar de que la validez y la generalización de cada concepto se discute ampliamente

(Ashley y col., 2001; McGinnis & Pearce, 2019; R. Susskind, 2008; R. E. Susskind & Susskind,

2015), debido a que ambos reflejan evidentes similitudes, varios investigadores consideran que

Legaltech serı́a el término apropiado para referirse a tecnologı́as aplicadas a la profesión del

derecho (Salmerón-Manzano, 2021), ya que describe las actividades del sector legal, al igual que

RegTech la tecnologı́a que ayuda a cumplir con la regulación, InsurTech servicios de seguros con

base tecnológica (Gramegna & Giudici, 2020), o FinTech finanzas y tecnologı́a para acelerar la

digitalización e inclusión del sector financiero y asegurador (Rundo y col., 2019).

4.2. Evolución del Procesamiento de Lenguaje Natural

Por su parte, la aplicación de tecnologı́a al ámbito jurı́dico llegó de la mano de múltiples

investigaciones para representar el lenguaje humano (Collins y col., 2017; Lehnert, 1977, 1981;

Pazzani, 1983; Schank & Abelson, 1975), que originalmente se enfocaban en tareas de traducción

automática. Hacia finales de la década de 1980, la mayorı́a de estudios en procesamiento de

lenguaje, se centraron en modelos estadı́sticos, capaces de generar mejores representaciones del

lenguaje y de tomar decisiones probabilı́sticas (Chowdhary, 2020; Liberman, 1991).

15


Durante la década de 1990, estos métodos puramente estadı́sticos, fueron esenciales para

mantener el ritmo del enorme flujo de texto en lı́nea. Los N-Grams1 que son un tipo de modelo

probabilı́stico para predecir el siguiente elemento en una secuencia, en forma de una cadena

de Markov de orden (n − 1), se volvieron útiles, reconociendo y rastreando grupos de datos

lingüı́sticos de forma numérica.

Al inicio de esta década, derivadas de las redes neuronales feed-forward2 (Goldberg, 2016;

Rumelhart y col., 1986), aparecieron modelos de redes neuronales recurrentes (RNN) como la que

se describe en la figura 1(a), capaces de resolver ciertas tareas eficientemente (Schmidhuber, 1993).

Sin embargo, a estas redes de impulso infinito les lleva demasiado tiempo aprender a almacenar

información en intervalos de tiempo prolongados a traves del algoritmo de propagación hacia atrás

(Leung & Haykin, 1991), la razón de esto es que los gradientes para optimizarlas, tienden a crecer

o a desvanecerse con el tiempo, debido a que estos no dependen únicamente del error presente sino

también de los pasados (Hochreiter & Schmidhuber, 1997).

Para resolver este problema, en 1997 se introdujeron las redes de memoria a corto y

largo plazo ”Long short - term memory - (LSTM)” (Leung & Haykin, 1991), como la descrita

en la figura 1(b), permitiendo que los gradientes fluyan sin cambios. Aunque estas solamente

satisfacen el evento en que el gradiente converge a cero, dejando abierta la posibilidad a que este

crezca infinitamente (Calin, 2020). A pesar de ofrecer avances relevantes en el campo, las RNN,

sólo fueron especialmente relevantes hasta 2007, gracias a su capacidad para procesar secuencias

temporales, se popularizaron en aplicaciones para el reconocimiento de voz, reconocimiento de

patrones de texto y sı́ntesis de texto a voz.

Posteriormente, en 2014 se introdujeron las unidades recurrentes cerradas ”Gated recurrent

units - GRU” (Cho y col., 2014) descritas en la figura 1(c),que son una variación de las LSTM con

menor complejidad, ya que carecen de una puerta de salida (Gers y col., 2000), por lo que, pueden

1Un n-grama es una subsecuencia de elementos en una secuencia. Es usado en el estudio del lenguaje natural para
construir los n-gramas sobre la base de distintos tipos de elementos como por ejemplo fonemas, sı́labas, letras, palabras
o subpalabras.

2Una red feedforward es la forma más sencilla de una red neuronal. En ella, la información se mueve en una única
dirección, Desde los nodos de entrada, a través de los nodos ocultos y hacia los nodos de salida.

16


facilitar la captación de dependencias sin ignorar la información pasada de fragmentos de datos

secuenciales, logrando en algunos casos generar resultados superiores (Gruber & Jockisch, 2020).

Cabe mencionar que este tipo de morfologı́as, ha contribuido positivamente con el objetivo inicial,

es decir, la calidad de los textos traducidos. La figura 1 Redes Neuronales Recurrentes (RNN),

ilustra en detalle la forma más básica de los tres tipos de redes neuronales recurrentes mencionadas

previamente.

(a) RNN (b) LSTM (c) GRU

(d) Función RNN (e) Función LSTM (f) Función GRU

Figura 1: Redes Neuronales Recurrentes (RNN)

Nota: Adaptado de ”A hybrid forecasting model using LSTM and Prophet for energy
consumption with decomposition of time series data”, (p. 1001) Arslan, 2022, PerlJ.

- RNN: xt: vector de entrada (m× 1), ht : vector de capa oculta (n× 1), ot : vector de salida
(n× 1), bh : vector de sesgo (n× 1), U,W : matrices de parámetros (n×m), V : matriz de

parámetros (n× n), σh, σy : funciones de activación.
- LSTM: ht, Ct vectores de capa oculta, xt : vector de entrada, bf , bi, bc, bo : vector de sesgo,

wf ,Wi,WC , wo : matrices de parámetros, σ, tanh : funciones de activación
- GRU: ht : vectores de capa oculta, xt : vector de entrada, bz, br, bh : vector de sesgo,

wz,Wr,Wh : matrices de parámetros, σ, tanh : funciones de activación

17


Finalmente en 2014, con fundamento en las redes LSTM se plantea la arquitectura de redes

neuronales (Codificador - Decodificador). El codificador utiliza una LSTM para leer la secuencia

de entrada, un paso de tiempo a la vez, para obtener una representación vectorial de dimensión

fija, y luego el decodificador usa otra LSTM profunda para extraer la secuencia de salida. Esta

segunda red es esencialmente una RNN excepto que está condicionada por la secuencia de entrada

(Kalchbrenner & Blunsom, 2013; Sundermeyer y col., 2014; Sutskever y col., 2014).

Formalmente, la primera red lee una secuencia de vectores X = (x1, · · · , xTx) en un vector

c con una red tal que ht = f(xt, ht−1) y c = q({h1, · · · , hTx}), donde ht ∈ Rn es un estado oculto

en el tiempo t, c es un vector generado a partir de la secuencia de los estados ocultos, f y q

son funciones no lineales. En este caso utilizando una LSTM como f y q({h1, · · · , hT}) = hT

(Sennrich y col., 2015).

La segunda red es entrenada para predecir la siguiente palabra yt′ dado el vector de contexto

c y todas las palabras predichas previamente {y1, · · · , yt′−1} (Bahdanau y col., 2014; Webber

y col., 2020). En otras palabras, el decodificador define una probabilidad sobre la traducción,

descomponiendo la probabilidad conjunta en los condicionales ordenados:

p(y) =
T∏
t=1

p(yt|{y1, · · · , yt−1}, c), (1)

donde y = (y1, · · · , yTy ). Con una red RNN, cada probabilidad condicional se modela

como: p(yt|y1, · · · , yt−1, c) = g(yt, st, c), siendo g una función no lineal que genera la probabilidad

de yt, y st es el estado oculto de la red (Bahdanau y col., 2014).

Seguidamente en 2015, se conjetura que el uso de un vector de longitud fija es un cuello de

botella para el rendimiento de esta arquitectura básica “codificador-descodificador”, por lo cual,

se propone dejar que el modelo busque automáticamente partes de una oración que son relevantes

para predecir una palabra objetivo, sin tener que formar estas partes como un segmento rı́gido

(Bahdanau y col., 2014).

Concretamente, se propone reemplazar el codificador por una red recurrente bidireccional

18


BiRNN3 (Graves y col., 2013; Schuster & Paliwal, 1997) y redefinir la ecuación 1 del decodificador

como p(yi|y1, · · · , yi−1, X) = g(yi−1, si, ci) donde si es un estado oculto RNN para el tiempo i,

calculado por si = f(si−1, yi−1, ci) y la probabilidad está condicionada a un vector de contexto

distinto ci para cada palabra objetivo yi y X es la primera secuencia de vectores. El vector de

contexto ci depende de una secuencia de anotaciones (h1, · · · , hTx) a las que un codificador asigna

la oración de entrada, cada anotación hi contiene información sobre toda la secuencia de entrada

con enfoque en las partes que rodean la i− esima palabra.

Este vector de contexto ci calculado como una suma ponderada de las anotaciones hi:

ci =
Tx∑
j=1

exp[a(si−1, hj)]∑Tx

j=1 exp(eik)
hj· (2)

donde a(si−1, hj) es un modelo de alineación que califica qué tan bien coinciden las entradas

alrededor de la posición j y la salida en la posición i, la puntuación se basa en el estado oculto

de la RNN si−1 justo antes de emitir yi en la ecuación p(yi|y1, · · · , yi−1, X) = g(yi−1, si, ci) y la

j − esima anotación hj de la oración de entrada y eik es la puntuación de cada una de las demás

anotaciones de la secuencia.

Lo anterior, implementa un mecanismo de atención en el decodificador que le permite

decidir las partes de la oración fuente a las que prestar atención, liberando al codificador de la tarea

de recoger toda la información de la oración fuente en un vector de longitud fija (Bahdanau y col.,

2014). Este enfoque logra un rendimiento de traducción superior al de las propuestas anteriores

(Bojar y col., 2014), al tiempo que es adoptado como la tecnologı́a central en los servicios de

traducción.

Al mismo tiempo que se desarrollaron las RNN, en 1982 se presentó la primera red neuronal

convolucional “Convolutional Neural Network - CNN” denominada neocognitron (Fukushima &

Miyake, 1982), propuesta como mecanismo para reconocimiento de patrones visuales. Capaz de

autoorganizarse mediante el aprendizaje sin un profesor, adquiriendo la habilidad de reconocer

3Las redes neuronales recurrentes bidireccionales (BiRNN) conectan dos capas ocultas de direcciones opuestas a
la misma salida. Con esta forma de aprendizaje profundo generativo, la capa de salida puede obtener información de
los estados pasados y futuros simultáneamente.

19


patrones de estı́mulo basados en la similitud geométrica sin afectarse por sus posiciones.

Esta red consta de una capa de entrada (matriz de fotorreceptores) seguida de una conexión

en cascada de estructuras modulares, cada una compuesta por dos capas de celdas conectadas. La

primera capa de cada módulo son células “S”, que tienen caracterı́sticas similares a las células

simples, y la segunda capa consiste en células “C” similares a las células complejas, imitando el

funcionamiento de las células de la corteza visual primaria de un cerebro biológico, (Gross y col.,

1972; Hubel & Wiesel, 1962, 1965).

En 1998, utilizando varios mecanismos para el reconocimiento de caracteres escritos a

mano, se demostró que una CNN diseñada como en la figura 2 para comprender la variabilidad de

las formas 2D, superaba las demás técnicas (LeCun y col., 1998). De esta forma, se estableció un

nuevo paradigma de aprendizaje, llamado redes de transformadores de gráficos (GTN) (Chellapilla

y col., 2006), que permite a la red adaptarse de manera global a los múltiples módulos de los

sistemas de reconocimiento de documentos de la vida real, convirtiéndose en una de las primeras

redes desplegadas comercialmente (Ahlawat y col., 2020; Wu y col., 2014).

Figura 2: CNN Reconocimiento Óptico de Caracteres

Nota: Adaptado de “Comparison Of Learning Algorithms For Handwritten Digit Recognition”,
(p. 4) LeCun y col., 1995, Accelerating the world’s research

Desde entonces, las redes CNN han sido refinadas e implementadas para entrenarse en

unidades de procesamiento gráfico (GPU), convirtiéndose en el estándar para muchas tareas de

20


vision por ordenador y una gran cantidad de aplicaciones comerciales (dos Santos y col., 2018;

Gavali & Banu, 2020; Ngo y col., 2021; Strigl y col., 2010). Lo anterior, permitió el desarrollo de

modelos precisos, transferibles y eficientes para acelerar el descubrimiento y desarrollo de nuevos

materiales, aplicados, por ejemplo en microscopı́a electrónica para la clasificación de la estructura

cristalina de los materiales, como se ilustra en la figura 3, descubriendo nuevas estructuras al

evaluar más de 46774 materiales (Sanyal y col., 2018; Zaloga y col., 2020).

Figura 3: Ejemplo de Red CNN para Clasificación

Nota: Adaptado de “Insightful classification of crystal structures using deep learning”, (p. 5)
Ziletti y col., 2018, Natire Comunications

Además de esto, las CNN gradualmente han comenzado a estar presentes en el campo

del procesamiento del lenguaje natural, a menudo en tareas como; el análisis de sentimiento, la

recuperación de información, la clasificación de texto y documentos, y el modelado de oraciones

(Dos Santos & Gatti, 2014; R. Johnson & Zhang, 2014; Shen y col., 2014; Sun y col., 2015;

Weston y col., 2014; Y. Zhang & Wallace, 2015). Comúnmente con estructuras altamente eficientes

y relativamente simples como la que se muestra en la figura 4. La idea fundamental en esta

arquitectura es que la ventana deslizante o filtro capturará, del mismo modo que con el procesado

de imágenes, caracterı́sticas importantes del texto que luego se pueden utilizar en muchas de las

tareas previamente mencionadas (Y. Liu, Fan y col., 2019; Moschitti y col., 2014).

Las anteriores aplicaciones consideran el uso exclusivo de redes CNN, sin embargo, se

conocen algunos hı́bridos entre las RNN y las CNN que procesan secuencias de texto en las

21


arquitecturas de tipo codificador - decodificador (Kalchbrenner & Blunsom, 2013).

Figura 4: Red CNN para Aplicaciones de PLN

Nota: Adaptado de “A Study on Voice Command Learning of Smart Toy using Convolutional
Neural Network”, (p. 1211) Lee y Park, 2018, The Transactions of the Korean Institute of

Electrical Engineer, Rahman y Finin, 2019

Hasta 2017, las RNN dominaban gran parte de las tareas de procesamiento de lenguaje

natural, pues el lenguaje humano es precisamente una secuencia de palabras. Y estas redes se

especializan en procesar este tipo de datos. Aunque eficaces en la generación de textos cortos

altamente coherentes, por su memoria de corto plazo son incapaces de mantener su coherencia en

secuencias extensas.

Entonces, a partir de los modelos de traducción que se fundamentan en redes CNN o RNN

complejas que incluyen un codificador y un decodificador, propuestas desde 2014, se introduce

la arquitectura de la figura 5 denominada Transformer o transformador de oraciones (Vaswani

y col., 2017). Esta red neuronal adapta unicamente el mecanismo de atención presente en las RNN

(Bahdanau y col., 2014), eliminando por completo la recurrencia y las convoluciones.

Esta red tiene una memoria de largo plazo, gracias a los mecanismos de auto-atención

introducidos, al mismo tiempo, es capaz de procesar datos en paralelo, requiriendo un menor

22


tiempo de entrenamiento, lo que permite contraer el coste computacional de propuestas anteriores

(Ghaderi, s.f.). Además, se demostró que el Transformador generaliza bien otras tareas al aplicarlo

con éxito en análisis distintos a la traducción automática (Acheampong y col., 2021; Tunstall y col.,

2022; Yates y col., 2021).

Figura 5: Arquitectura de la Red Transformer

Nota: Adaptado de “The Illustrated Transformer ” Alammar, 2018, BlogPost

El Transformador utiliza capas apiladas de auto-atención totalmente conectadas entre el

codificador y el decodificador, como se muestra a la izquierda y derecha de la Figura 5. El primer

bloque que globalmente es un codificador, está compuesto por una pila de N = 6 capas idénticas,

cada una con dos subcapas, (i) un mecanismo de autoatención de cabezales múltiples, y (ii) una

red de retroalimentación simple completamente conectada en cuanto a la posición, adicionalmente

una conexión residual alrededor de cada una de las dos subcapas (He y col., 2016), seguida de

una normalización (Ba y col., 2016). Donde, la salida de cada subcapa es LayerNorm(x +

Sublayer(x)), siendo Sublayer(x) la función implementada por la propia subcapa. Finalmente,

23


para facilitar estas conexiones residuales, todas las subcapas y las capas incrustadas producen

salidas de 512 dimensiones (Vaswani y col., 2017).

El segundo bloque que funciona como un decodificador, también se compone de una pila de

N = 6 capas idénticas. Además de las dos subcapas en cada capa del codificador, el decodificador

inserta una tercera subcapa, que calcula la atención de varios cabezales sobre la salida de la pila del

codificador. De manera similar al codificador, existen conexiones residuales alrededor de cada una

de las subcapas, seguidas de la normalización de capas (Ba y col., 2016; He y col., 2016), en este

caso la subcapa de auto-atención esta modificada para evitar que las posiciones presten atención a

las posiciones posteriores.

Este enmascaramiento, combinado con un vector de posición que compensa todas las

incrustaciones de salida, asegura que las predicciones de la posición i puedan depender únicamente

de las salidas conocidas sean en posiciones menores que i. Dicha codificación de la posición

corresponde a una función seno CP(p,2i) = sin(p/10000
2i
dm ) para el codificador y a una función

coseno CP(p,2i+1) = cos(p/10000
2i
dm ) para el decodificador, donde i es la dimensión, p es la

posición y dm son las 512 dimensiones del modelo (Gehring y col., 2017).

De este punto en adelante, dada su flexibilidad y capacidad, las redes neuronales basadas

en transformers se han convertido en el estándar para la mayorı́a de las tareas de PNL, además

de ser la precursora de diversos modelos de procesamiento de lenguaje altamente eficientes como

BERT, RoBERTa, sBERT, la familia GPT y el más reciente BLOOM (Devlin y col., 2018; Lample

& Conneau, 2019; Lee-Thorp y col., 2021; Y. Liu, Ott y col., 2019; Radford y col., 2018). Por lo

anterior, esta es la arquitectura que se utiliza en esta investigación.

4.3. Procesamiento de Lenguaje Aplicado a la Profesión Legal

La ley tiene el lenguaje en su corazón, por lo que no sorprende que el software que

procesa lenguaje natural desempeñe un papel importante en algunas áreas de la profesión legal

(Dale, 2019). Pero en los últimos años se ha visto un mayor interés en aplicar técnicas modernas

a una gama más amplia de problemas. Permitiendo que existan sistemas que pueden redactar

24


documentos legales, realizar investigaciones jurı́dicas, divulgar documentos en litigios, realizar

procesos automáticos de debida diligencia, proporcionar orientación jurı́dica y resolver litigios en

lı́nea.

Esto es posible mediante tareas como; la búsqueda semántica, la clasificación de textos,

el modelado de temas, la similitud textual semántica, el resumen de documentos, entre otras,

derivadas de los avances en PLN mencionados en la sección 4.2 Evolución del Procesamiento

de Lenguaje Natural.

Del uso de estas tareas en aplicaciones para legaltech se pueden observar diversos trabajos.

Por ejemplo, en “Measuring similarity among legal court case documents” se utilizan medidas

basadas en TF-IDF4 y en similitud avanzadas como modelado de temas e incrustaciones de palabras

y documentos, para calcular la similitud entre dos documentos legales para identificar precedentes

relevantes para un litigio. Demostrando que el uso de incrustaciones funciona mejor que otros

enfoques. (Mandal y col., 2017).

En “Effective deep learning approaches for summarization of legal texts” se proponen

técnicas que utilizan redes neuronales para resumir documentos judiciales. La principal ventaja del

enfoque propuesto es que no se basan en caracterı́sticas hechas a mano, o conocimiento especı́fico

del dominio, ni su aplicación está restringida a un subdominio en particular, lo que los hace aptos

para extenderse también a otros dominios. Las evaluaciones establecen una mayor efectividad en

comparación con otros enfoques. (Anand & Wagh, 2019)

Para mitigar el riesgo de daños ocasionados a las empresas por litigios estratégicos, en el

artı́culo “A semantic analysis approach for identifying patent infringement based on a product –

patent map” los autores proponen el método semántico producto - patente basado en la similitud

tecnológica sujeto - acción - objeto (SAO) para generar mapas de infracción de patentes y sugieren

varios ı́ndices y métodos de subagrupación para interpretar el mapa. Particularmente, explotan

datos sobre tecnologı́a y productos relacionados con la lámpara de diodos emisores de luz (LED).

4TF-IDF, frecuencia de término - frecuencia inversa de documento, es una medida numérica que expresa cuán
relevante es una palabra para un documento en una colección. Esta medida se utiliza a menudo como un factor de
ponderación en la recuperación de información y la minerı́a de texto.

25


(Park & Yoon, 2014)

Legal Judgement Prediction (LJP) aplica técnicas de procesamiento de lenguaje natural

para predecir el resultado de un juicio en función de los hechos de un caso, utilizando un marco de

aprendizaje de las dependencias topológicas entre las subtareas del proceso legal. Al poner a prueba

este método en casos penales en el sistema de derecho civil, se obtienen mejoras consistentes sobre

otros métodos que usan una única tarea para la predicción de fallos judiciales (Zhong y col., 2018).

26


5. Hipótesis

H1. Mediante los modelos transformer aplicados a tareas de búsqueda y similitud textual, es

posible medir la compatibilidad de una decisión corporativa con la regulación financiera

local.

H2. La métrica de similitud del coseno es una medida valida para calcular la compatibilidad de

las decisiones corporativas con el orden jurı́dico financiero.

27


6. Variables

6.1. Leyes, Jurisprudencia y Doctrina

Las normativas aplicables a la actividad financiera están organizadas jerárquicamente ası́:

(i) la Constitución Polı́tica de Colombia; (ii) las leyes marco, expedidas por el Congreso de la

República, las leyes ordinarias, las resoluciones y cartas circulares que expide el Banco de la

República en desarrollo de sus funciones, y los decretos con fuerza de ley que expide el Gobierno

con base en facultades extraordinarias, como el Estatuto Orgánico del Sistema Financiero (Alesina,

2005). (iii) Los decretos reglamentarios que expide el Gobierno en desarrollo de las leyes marco y,

(iv) las cartas circulares y las resoluciones que expide la Superintendencia Financiera en ejercicio

de su actividad de inspección y vigilancia (Cárdenas y col., 2008). Estas normas, en conjunto,

conforman el ordenamiento jurı́dico financiero de Colombia.

Por otra parte, la doctrina se refiere al conjunto de opiniones, conceptos y aclaraciones

que emite la Superintendencia Financiera, que dan resolución a posibles controversias que no se

encuentren legisladas de manera particular (Lax, 2011). Es decir, son una guı́a de cómo aplicar

e interpretar las leyes emitidas por el orden jurı́dico Financiero (Rubin & Feeley, 1995; Tiller &

Cross, 2006). De modo que, se podrı́an definir como aquellos elementos a los que se acude para

tomar decisiones de una manera objetiva.

Finalmente, la jurisprudencia, es el conjunto de sentencias y demás resoluciones judiciales

emitidas en un mismo sentido por los órganos judiciales del ordenamiento jurı́dico financiero

(Taruffo, 2007). Tiene un valor fundamental como fuente de conocimiento del derecho, con el

cual se procura evitar que una misma situación sea interpretada en forma distinta por otros (Vidal,

1991).

6.2. Decisiones Corporativas

Cada acción que lleva a cabo una empresa es el resultado de una decisión que puede

afectar sus operaciones, sus objetivos y sus actividades futuras (Stagner, 1969), al comprender su

28


importancia y los diferentes tipos, esta puede asegurarse de adoptarlas correctamente en diversas

situaciones y momentos.

Las decisiones corporativas tomadas por una empresa pueden ser de diversos tipos, por

ejemplo; estratégicas, polı́ticas, operativas, organizacionales, rutinarias, entre otras (Kownatzki

y col., 2013; Lim & Chung, 2021). Todas ellas, tienen un contexto, un ámbito de aplicación, un

proceso para su determinación y un cierto nivel de importancia relativa (Belkaoui & Karpik, 1989).

En este sentido, las polı́ticas contables, financieras, de riesgos, comerciales, los planes de negocio,

las ideas de nuevos productos, los planes de expansión, la modificación de la estructura corporativa

y administrativa, la incursión en otros mercados, por mencionar algunos, son ejemplos en los que

convergen dichas acciones, comúnmente plasmados en diversos documentos empresariales.

Al momento de evaluar sus alternativas en el proceso de toma de decisiones, una empresa

debe considerar limitaciones como el mercado objetivo, el tamaño, las capacidades y su regulación

particular aplicable (Arrow, 1974), condiciones que pueden variar entre una y otra por el objeto

social que cada cual desarrolla.

Una limitación de especial importancia en este proceso es el orden jurı́dico, ya que toda

acción debe guardar correspondencia con dicho marco aplicable. En efecto, para esta investigación,

las decisiones corporativas, serán todas aquellas acciones que tome una empresa para desarrollar

un objeto social y que su desarrollo sea impactado por un precepto normativo financiero.

6.3. Tratamiento de las Variables

Para el modelo propuesto en esta investigación, el ordenamiento jurı́dico, la jurisprudencia

y la doctrina financiera se denominarán el Corpus o Contexto. Por otra parte, las acciones o

decisiones corporativas se denominarán Query o Consulta debido a que es la variable a la cual se

le medirá su compatibilidad con el Corpus. No obstante, el Corpus mantendrá sus tres divisiones

y la consulta se tratará individualmente por cada decisión corporativa que se requiera validar, en

detalle su tratamiento se describe en la sección 7 Metodologı́a.

29


7. Metodologı́a

Esta investigación adopta un enfoque mixto, al desarrollar un método cuantitativo que

permite medir el grado de compatibilidad de las decisiones corporativas con el ordenamiento

jurı́dico financiero colombiano. Concretamente, el proceso consiste en generar una representación

de documentos y oraciones en un espacio vectorial, también conocidas como incrustaciones de

oraciones y documentos o embedings, para el texto contenido en la legislación financiera local,

incluyendo la jurisprudencia y doctrina asociada. Para posteriormente, utilizando el mismo espacio,

incrustar el texto de una decisión corporativa, con lo cual, es posible medir la similitud semántica

entre ambas representaciones del texto. En la Figura 6 se ilustra el enfoque general propuesto.

Dichas incrustaciones son generadas por un transformador de oraciones llamado RoBERTa

“Robustly optimized BERT approach” (Y. Liu, Ott y col., 2019), este modelo consta de una

arquitectura particular de redes neuronales dispuestas en capas con un mecanismo de autoatención

similar al que se ilustra en la figura 5, capaz de generar representaciones de palabras, oraciones

o documentos en vectores densos de 768 dimensiones, ricos en información del lenguaje y su

contexto, esta arquitectura se aborda más en detalle en la sección 7.3.

La codificación de contexto implica que, a diferencia de los modelos tradicionales basados

en representaciones dispersas del lenguaje que producen el mismo vector para, por ejemplo, la

palabra “banco”, ya sea “un banco cubierto de nieve” o “El Banco de la República”, este modelo

modifica la codificación de “banco” en función del contexto circundante.

La similitud semántica entre palabras, oraciones y documentos, se puede obtener utilizando

la métrica del coseno, como se detalla en la sección 7.4, esta medida aprovecha la representación

del texto como un vector en un espacio de alta dimensión para calcular la concurrencia entre ellos,

y es valida por su amplio uso en el campo de PLN (Kang y col., 2020; Nguyen & Bai, 2010;

Rahutomo y col., 2012; Zhou y col., 2020).

30


7.1. Enfoque General Propuesto

Figura 6: Arquitectura del Modelo

Nota: Adaptado de “Optimizing Bi-Encoder for Named Entity Recognition via Contrastive
Learning”, (p. 3) S. Zhang y col., 2022, Microsoft Research y “Trans Encoder Unsupervided
Sentence Pair Modelling Through Self and Manual Destillations”, (p. 2) F. Liu y col., 2021,

University of Cambridge Amazon Research

1 En este primer paso, el texto del ordenamiento jurı́dico financiero colombiano y el de la
decisión corporativa objeto de validación, se convierte a vectores de números reales con el
método que se describe en la sección 7.2.

2 Este paso toma los vectores generados en el paso 1 y utilizando la arquitectura descrita en
la sección 7.3 y el método (Bi-codificador) de la sección 7.3.1 se codifica y empareja el texto
en un espacio vectorial denso de 768 dimensiones.

3 Con la salida del paso 2 se calcula la similitud del coseno descrita en la sección 7.4.

4 En este paso se ejecuta un codificador cruzado como se describe en la sección 7.3.2 sobre
las salidas del paso 3 y se calcula una nueva similitud de coseno.

5 Este último paso toma la salida del paso 4 , promedia los resultados de similitud de acuerdo
a la sección 7.5, presenta resultado de similitud y traduce los vectores generados al texto
original de entrada.

31


Las secciones 2 , 3 y 4 de la figura 6 consideran una tarea general de coincidencia

semántica entre un contexto y una consulta (Legislación y Decision Corporativa) (Ye y col., 2022).

Lo anterior, tiene un alto interés práctico en un amplio espectro de aplicaciones empresariales,

como la búsqueda web y la respuesta automatizada a preguntas (Ferrucci & Lally, 2004; Lewis &

Young, 2019; Masson & Paroubek, 2020). En este caso se puede considerar como el aprendizaje

de una función de puntuación f : C × L → R, donde C es un conjunto de consultas y L es un

conjunto de candidatos. La función f asigna un par de consultas y candidatos (Sc, Sl) ∈ C × L a

una puntuación de relevancia pcl. La consulta Sc está representada por n palabras Sc = [c1, . . . , cn]

y el candidato Sl está representado por m palabras Sl = [l1, . . . , lm].

7.2. Tratamiento inicial del texto de la Legislación Financiera Local y de las

Decisiones Corporativas - (Contexto y Consulta)

7.2.1. Algoritmo de Codificación de Pares de Bytes (BPE)

Como se menciona en la sección 7.3 RoBERTa adopta la codificación BPE para el conjunto

de datos de entrenamiento5 (Bowman y col., 2015; Conneau y col., 2018; Gururangan y col., 2018;

Williams y col., 2017), este método es originalmente un algoritmo para compresión de información

mediante la búsqueda de combinaciones comunes de pares de bytes (Gage, 1994). Sin embargo,

actualmente se usa en PNL para hallar la forma más eficiente de representar texto en forma de

tokens.

Tokenizar un texto es dividirlo en unidades más pequeñas, que luego se convierten en

identificadores únicos (Ids) (Dai y col., 2019; Eyre y col., 2021; Graën y col., 2018), el algoritmo

BPE utilizado en RoBERTa se fundamenta en unidades de subpalabras a nivel de byte (Y. Liu,

Fan y col., 2019), que se extraen realizando un análisis estadı́stico del corpus de entrenamiento

(Sennrich y col., 2015), formalmente el procedimiento es el siguiente:

1. BPE, toma un contexto base C que se normaliza para obtener un vocabulario de tamaño k.

5ESXNLI: solo la parte en español, SNLI y MultiNLI: traducido automáticamente

32


2. Vk ← es el vocabulario con todos los tokens o n− gramas únicos en C.

3. En seguida se toma el par de tokens (tm, tr) más frecuente en C

4. El par (tm, tr) genera un nuevo token (tm, tr)→ tN .

5. Este nuevo token se agrega al vocabulario tN + Vk → Vk+1. Donde Vk es el vocabulario

inicial del numeral 1 y Vk+1 es el vocabulario inicial más en nuevo token tN

6. Cada ocurrencia de (tm, tr) en C se reemplaza con el nuevo token tN .

7. Finalmente, se repite el proceso desde 3, hasta no hallar nuevos tokens para agregar al

vocabulario Vk.

8. El tamaño final del vocabulario VkRoBERTa es igual al tamaño del vocabulario inicial, más el

número de operaciones de combinación.

7.2.2. Codificación del Texto de Entrada - Tokenización

Para codificar los nuevos datos, en este caso la legislación financiera local y la decisión

corporativa (Contexto y Consulta) el proceso es el mismo de la sección 7.2.1, como resultado se

obtiene una lista de tokens VkL y VkC que ya están presentes en el diccionario inicial VkRoBERTa, si

quedan algunos n− gramas que el algoritmo BPE de RoBERTa no vio en el entrenamiento, estos

son reemplazadas por tokens desconocidos [UNK].

De esta forma, las oraciones del contexto y la consulta serán representadas en vectores de

números de 512 tokens, los valores numéricos corresponderán al identificador de cada token en el

diccionario VkRoBERTa.

7.2.3. Decodificación

é ı́

VkRoBERTa ó

33


7.3. Incrustación de Legislación y Decisiones Corporativas - Embeding

Para mapear el par (Sl, Sc) ∈ L×C se utiliza un transformador de oraciones, previamente

entrenado en una tarea de inferencia de lenguaje natural (NLI) del idioma español denominado

ROBERTa (Y. Liu, Fan y col., 2019; Radford y col., 2019). A pesar de conservar la estructura

original de transformer, este adopta 12 capas (L = 12) de codificador y decodificadores, un

tamaño de capa oculta (H = 768) y (A = 12) cabezas de autoatención en total 110M parámetros,

adicionalmente, adopta el método de codificación descrito en la sección 7.2 “Byte Pair Encoding

- BPE” para el texto de entrada (Yates y col., 2021).

El modelo transformer consiste en varias capas de autoatención apiladas con conexiones

residuales. Cada capa de atención propia recibe n incrustaciones {xi}nn=1 correspondientes a tokens

de entrada únicos y genera n incrustaciones {zi}nn=1, conservando las dimensiones de entrada. El

i − esimo token se asigna a través de transformaciones lineales a una clave ki, una consulta qi y

un valor vi. La i − esima salida de la capa de autoatención se obtiene ponderando los valores vj

por el producto escalar normalizado entre la consulta qi y otras claves kj , dividido por la raı́z de la

dimensión de los vectores clave
√
dk:

zi =
m∑
j=1

softmax({⟨qi, kj′⟩√
dk
}nj′=1)j · vj · (3)

7.3.1. Codificador Doble (Bi-Encoder)

En la sección 2 de la figura 6 se emplean codificadores dobles para cada uno de los elementos del

corpus (3 Bi-Codificadores), cada par CL y CC codifican separadamente la consulta y la legislación en el

espacio como:

vl = Poling(CL(Sl)), vc = Poling(CC(Sc)) (4)

Luego se usa la distancia de coseno para medir la relevancia entre sl y sc. La función Pooling()

selecciona la primera muestra de CL(Sl) y CC(Sc) como sus incorporaciones finales.

34


7.3.2. Codificador Cruzado (Cross-Encoder)

En la sección 4 de la figura 6 se utiliza un codificador cruzado que es un método basado en la

interacción, que aplica RoBERTa en la concatenación de Sc y Sl como:

Pcl = RoBERTa([[CLS];Sc; [SEP ];Sl; [SEP ]]) (5)

Donde [CLS] es un token de entrada adicional para agregar la incrustación de salida y [SEP ] es

una notación para la separación. Este método logra una mayor precisión que otros métodos basados en

RoBERTa debido a la codificación contextual de alta calidad generada por la autoatención total.

7.4. Similitud del Coseno

ó

ó

Sim cos(ul, vc) =

∑n
a=1 ulivci√∑n

a=1 u
2
li

√∑n
a=1 v

2
ci

(6)

Sim cos(ul, vc) =
ul · vc

||ul|| · ||vc||
(7)

é

ó á

á ı́ á

á á á

ó ó

35


7.5. Obtención de Resultados

ı́

P̄ =

∑n
i=1 Simi

nsim
; simi > 0 (8)

ú ó á

ú ú ó á

ı́

36


8. Trabajo de Campo

8.1. Recolección de Información

8.1.1. Regulacion Financiera (Corpus o Contexto)

Debido al principio de democracia participativa contenido en la Constitución Polı́tica de Colombia,

todo el texto que compone el ordenamiento jurı́dico, la doctrina y la jurisprudencia de la actividad financiera

colombiana se puede hallar y extraer con cierta facilidad de las páginas web de las entidades administrativas

del estado, descritas ee la tabla 1.

Entidad Tipo de Documento Clasificación
Secretaria General del Senado Constitución Polı́tica Legislación
Función Pública Leyes Legislación

Decretos Legislación
Superintendencia Financiera Circulares Externas Legislación

Cartas Circulares Legislación
Resoluciones Legislación
Doctrina y Conceptos Doctrina
Fallos Jurisdiccionales Jurisprudencia
Jurisprudencia Financiera Jurisprudencia

Banco de la República Cartas Circulares Legislación
Resoluciones Legislación

Corte Constitucional Boletines Jurisprudencia
Corte Suprema de Justicia Boletines Jurisprudencia

Tabla 1: Fuentes de Datos

Nota: Se incluye como fuente de información a la web de la Función Pública, ya que esta, es una entidad
técnica, estratégica y transversal del Gobierno Nacional que agrupa un gran número de leyes, decretos,
cartas circulares, resoluciones, entre otros documentos emitidos por las entidades que hacen parte del

ordenamiento jurı́dico financiero.

Para obtener el texto mencionado anteriormente se utiliza un algoritmo de web scraping con la

librerı́a BeautifullSoup (L. Richardson, 2007), primero se obtienen todas los url’s contenidos en un sitio

web y posteriormente se extrae el texto de la regulación, un ejemplo de como realizar esta extracción desde

una url se muestra en el anexo B.

37

http://www.secretariasenado.gov.co
https://www.funcionpublica.gov.co
https://www.superfinanciera.gov.co/jsp/index.jsf
https://www.banrep.gov.co/es
https://www.corteconstitucional.gov.co
hhttps://cortesuprema.gov.co/corte/


8.1.2. Desciciones Corporativas (Query Consulta)

Para la validación del modelo propuesto se toman diferentes muestras de polı́ticas, planes de negocio

y otras decisiones corporativas, como las descritas en la tabla 2, sobre las cuales se conocen ampliamente las

normas asociadas y que cualitativamente se reconocen como decisiones acordes con la legislación financiera

local.

Tipo Decisión
Objetivo del FIC El objetivo del Fondo de Inversión Colectiva es proporcionar a los

inversionistas un instrumento de inversión de renta fija de baja duración, con
el perfil de riesgo conservador, cuyo propósito es la estabilidad del capital
en un horizonte de inversión de corto plazo (Davivienda, 2022).

Código de Ética 12. Compromiso frente al Riesgo de Lavado de Activos y de la Financiación
del Terrorismo
Los directores, administradores y funcionarios de Corficolombiana
mantienen la cultura de prevenir, detectar y controlar que la Corporación
sea utilizada como instrumento para el lavado de activos y la financiación
del terrorismo (LA/FT).
Por tal motivo, se ha implementado el Sistema de Administración de
Riesgo de Lavado de Activos y Financiación del Terrorismo (SARLAFT),
el cual contiene las polı́ticas de ética que orientan la actuación de
los directores, administradores y funcionarios para el cumplimiento del
mismo, las polı́ticas de vinculación y conocimiento de clientes y de sus
transacciones con la Corporación, los procedimientos y metodologı́as para
la identificación, evaluación, control y monitoreo de riesgos, la capacitación
al personal y la colaboración con las autoridades contribuyendo al
aseguramiento de la confianza del público en la Corporación y en el sistema
financiero colombiano (Corficolombiana, 2021).

Alcance Polı́tica
Tratamiento de Datos

El tratamiento que se realice por parte de la entidad. se basará en la
autorización otorgada por el titular y tomará en cuenta las finalidades
expresamente informadas.
Ası́ mismo, en desarrollo de su actividad y gestión, y con el fin de brindar
colaboración empresarial entre las empresas del grupo, durante la ejecución
de sus actividades podrá efectuar el tratamiento de datos personales de
forma conjunta con las entidades que pertenezcan o llegaren a pertenecer
al GRUPO, o a quien represente sus derechos u ostente en el futuro la
calidad de acreedor, cesionario, o cualquier calidad frente a los titulares
de la información (Bancolombia, 2022).

(continua en la página siguiente)

38


Tipo Decisión
Alcance Polı́tica
Tratamiento de Datos

Se entenderán que son parte del GRUPO las entidades que pertenezcan o
puedan llegar a pertenecer al Grupo de acuerdo con la ley, sus filiales y/o
subsidiarias, o las entidades en las cuales estas, directa o indirectamente,
tengan participación accionaria o sean asociados, domiciliadas en Colombia
y/o en el exterior.

Términos y Condiciones Actividad de Financiación Colaborativa - Crowdfunding
La Bolsa de Valores de Colombia S.A. (en adelante “bvc”) administra
una plataforma que realiza la actividad de financiación colaborativa.
Tal Plataforma de Financiación Colaborativa se denomina a2censo (en
adelante a2censo o la Plataforma). La administración de la actividad de
financiación colaborativa realizada por bvc se desarrolla básicamente a
través de una infraestructura tecnológica, que puede incluir interfaces,
plataformas, páginas de internet u otro medio de comunicación electrónica
o digital, a través del cual se pone en contacto un número plural de
aportantes con receptores que solicitan financiación en nombre propio
para destinarlo a un proyecto productivo. La financiación colaborativa se
materializa a través de la adquisición de valores de financiación colaborativa
y es realizada directamente por los Aportantes en favor de los Receptores
(bvc - bolsa de valores de colombia, 2020).

Tabla 2: Decisiones Corporativas

8.2. Transformación

Para agilizar los procesos de lectura y escritura del texto recuperado del ordenamiento jurı́dico

colombiano y para facilitar su utilización en el modelo, los marcos de datos recuperados se transforman al

formato Feather con compresión estándar (LZ4) mediante la librerı́a Pyarrow, este es un formato de archivo

portátil para almacenar tablas Arrow, utilizando el formato Arrow IPC internamente.

8.3. Estructura del Modelo

La estructura del modelo descrito en la figura 6 se implementó utilizando las bibliotecas Transformer,

Pytorch, Pandas, Numpy, y Pyarrow (Harris y col., 2020; pandas development team, 2022; Paszke y col.,

2019; N. Richardson y col., 2022; Wolf y col., 2020) en el lenguaje python (Van Rossum & Drake, 2009)

como se muestra en el anexo A.

39


8.4. Análisis de Resultados

Las validaciones del modelo se ejecutaron utilizando los métodos descritos en las secciones 7.2 a

7.5, con los conjuntos de datos recuperados de las páginas web descritas en la tabla 1 para el contexto, y 100

decisiones corporativas como las descritas en la tabla 2 para las consultas de validación, los resultados más

relevantes observados para el modelo utilizado se presentan en los apartados a continuación.

8.4.1. Estructura Semántica del Texto

Las normas de textualidad señalan que la cohesión se refiere a la estabilidad de un texto que se

mantiene gracias a la continuidad de los elementos que lo conforman (De Beaugrande & Dessler, 1997).

Esta noción de continuidad se basa, en la suposición de que existe una relación entre los diferentes elementos

lingüı́sticos que configuran el texto, mientras que la coherencia es algo que va más allá de lo que se encuentra

en la superficie del texto, ya que es un juego entre el texto mismo y los conocimientos que tiene el lector,

que a diferencia de la cohesión, alude a elementos intangibles (Hernández Osuna & Ferreira Cabrera, 2016;

Sleimi y col., 2018).

Aunque en la literatura la discusión de los anteriores conceptos es amplia (Parsing, 2009), en el

campo de la lingüı́stica computacional, la cohesión se refiere a la forma en que las unidades textuales son

enlazadas, y la coherencia se refiere a las relaciones de significados entre dos unidades léxicas (Gardner

y col., 2018), estas dos normas, conforman la estructura semántica del texto en el procesamiento de lenguaje

natural, es decir, que dicha semántica implica el uso y el significado de palabras o frases en un contexto

(Gabrilovich & Markovitch, 2009).

El transformer RoBERTa utilizado en este trabajo, gracias a los mecanismos de atención, logra

representar dicha estructura semántica de forma adecuada para el ordenamiento jurı́dico colombiano, en

la figura 8 se muestra una representación aproximada en dos dimensiones del espacio vectorial denso

generado por el modelo, esta representación captura la relación entre oraciones que se encuentran dispersas

en todo el contexto y genera grupos en regiones puntuales del espacio cuando se hace referencia a elementos

particulares, como se puede observar en los gráficos 8(a) y 8(b) respectivamente.

40


Figura 7: Representación del Contexto

(a) Relación Extensa (b) Relación Local

Figura 8: Relaciones del Contexto

Nota: Gráficos generados desde de la web Embeding Projector, para los vectores del modelo RoBERTa
utilizado

41

https://projector.tensorflow.org


8.4.2. Principales Resultados y su Comparación

Como se mencionó previamente, el modelo ROBERTa hace uso de la estructura semántica que

incluye la desambiguación del sentido, es decir, que deriva el significado de una oración en función del

contexto, lo cual representa una ventaja para la medida de similitud propuesta, al poner a prueba esto,

los resultados observados demuestran que, se recuperan adecuadamente las normas asociadas a la decisión

corporativa objeto de validación, con su respectivo puntaje de compatibilidad, resultando tı́picos, valores

entre 0.73 y 0.94 de similitud media, del el grupo de 100 decisiones evaluadas como se muestra en la

tabla 3.

% Rango Puntaje de Similitud Media
2% 0.05 0.20
5% 0.21 0.60
7% 0.61 0.72
33% 0.73 0.80
52% 0.81 0.94
1% ≥ 0.95

Tabla 3: Resultados Generales

Al entrar en detalle en los resultados anteriores se encuentra, por ejemplo, que al tomar el texto

completo de la cuarta decisión corporativa detallada en la tabla 2 (Términos y condiciones), el modelo

recupera, además de otras normas relacionadas, las detalladas en la tabla 4 con una similitud media de 0.83,

valor que indica que la polı́tica es altamente compatible con el orden jurı́dico aplicable.

No. Norma
1 La actividad de financiación colaborativa es aquella desarrollada por

entidades autorizadas por la Superintendencia Financiera de Colombia,
a partir de una infraestructura electrónica, que puede incluir interfaces,
plataformas, páginas de internet u otro medio de comunicación electrónica,
a través de la cual se ponen en contacto un número plural de aportantes con
receptores que solicitan financiación en nombre propio para destinarlo a un
proyecto productivo de inversión.

(continua en la página siguiente)

42


No. Norma
2 La actividad de financiación colaborativa será desarrollada por sociedades

anónimas de objeto exclusivo que tengan como propósito poner en contacto
a un número plural de aportantes con receptores que solicitan financiación
en nombre propio para destinarlo a un proyecto productivo, las cuales
se denominarán sociedades de financiación colaborativa. Las bolsas de
valores y los sistemas de negociación o registro de valores autorizados por
la Superintendencia Financiera de Colombia, también podrán realizar la
actividad de financiación colaborativa.

3 Para efectos de la actividad de financiación colaborativa, se denomina
genéricamente como aportante, a las personas que intervienen en cualquier
operación de financiación que se lleve a cabo a través de las entidades
autorizadas para realizar la actividad de financiación colaborativa con el
fin de financiar proyectos productivos.

Tabla 4: Resultado Términos y Condiciones

Algoritmo Python 1: Ressultado Terminos y Condiciones
1 search_and_Similarity_q(consulta = ’La Bolsa de Valores de Co ...’)

0.87 La actividad de financiacion colaborativa es aquella desarrollada...
...
...
...
-------------------------------
Puntaje Medio Similitud total: 0.83

El extracto de las anteriores normas corresponden al libro 41 Actividad de Financiación Colaborativa,

Tı́tulo 1 del Decreto 2555 de 2010, artı́culos 2.41.1.1.1 al 2.41.1.1.5, adicionado por el artı́culo 1 del Decreto

1357 de 2018. Al verificarlo detalladamente, en efecto, corresponde al marco normativo aplicable a la

polı́tica de términos y condiciones de la plataforma a2censo (bvc - bolsa de valores de colombia, 2020),

plataforma que cumple adecuadamente las disposiciones aplicables, por lo cual, es razonable el puntaje de

compatibilidad observado previamente.

Ahora bien, si se toma la siguiente descripción del objeto social de otra plataforma de financiación

colaborativa, el modelo retorna un resultado de compatibilidad media de 0.67 y un marco normativo similar

al de la tabla 4.

Vaki es una plataforma de crowdfunding o financiamiento colectivo, donde puedes crear campañas
a las cuales llamamos Vakis. Una campaña de crowdfunding básicamente es una ”vaca en lı́nea”,
donde se busca recaudar fondos de diferentes personas que comparten los mismos ideales y quieren
llevar a cabo un proyecto juntos (Vaki, 2020).

43


Algoritmo Python 2: Ressultado Vaki
1 search_and_Similarity_q(consulta = ’Vaki es una plataforma de crow...’)

...

...

...

...

...
-------------------------------
Puntaje Medio Similitud total: 0.67

En este caso, al realizar una validación exhaustiva del resultado del modelo, se observa que aunque

las plataformas son similares en su funcionamiento, “LaVaquinha S.A.S - Vaki”, no es una entidad vigilada

y autorizada por la Superintendencia Financiera de Colombia, el tipo de sociedad no corresponde con las

definidas en la norma, entre otras, lo cual, indica que el valor de compatibilidad obtenido es adecuado,

dado que el orden jurı́dico financiero es el correcto para la entidad, sin embargo, su objeto social no

satisface cabalmente los requerimientos de dichas normas. Cabe mencionar que lo discutido anteriormente

no implica que la entidad Vaki no cumpla con la regulación colombiana, pues este estudio se limita al

ordenamiento jurı́dico financiero, es decir, que la entidad puede operar bajo regulaciones particulares que

no son estrictamente financieras.

Otro resultado observado en el caso de Vaki, es que el modelo calcula algunos valores de similitud

negativos, lo cual, indicarı́a que la decisión corporativa es opuesta a la regulación, este resultado podrı́a ser

contradictorio y conducir a mediciones inconsistentes en algunos casos como se menciona en la sección 9

más adelante. Por parte de la jurisprudencia, el modelo no recupera resultados, mientras que en la doctrina

se recupera los conceptos 019009738 - 001 del 14 de febrero de 2019, 2019111966 - 002 del 22 de agosto

de 2019, 2018126630 - 001 del 8 de noviembre de 2018 y 2017008080 - 001 del 24 de febrero de 2017 de

la Superintendencia Financiera, que contribuyen con la explicación de los resultados ya mencionados.

Otros resultados relevantes surgen de la evaluación de los textos de la tabla 5, donde se detallan dos

polı́ticas asociadas al patrimonio mı́nimo con el que debe contar cada fondo de inversion colectiva, tomadas

de los reglamentos de dos vehı́culos de inversión, pertenecientes a la misma categorı́a y tipo, administrados

por dos sociedades fiduciarias reconocidas del sistema financiero colombiano.

Texto Descripción Score

(continua en la página siguiente)

44


Texto Descripción Score
FIC1 El Fondo de Inversión Colectiva deberá tener el patrimonio mı́nimo

establecido en el artı́culo 3.1.1.3.5 del Decreto 2555 de 2010 o
cualquier norma que lo modifique o sustituya.
De esta manera y de conformidad con la normatividad
citada anteriormente, el patrimonio mı́nimo del Fondo de
Inversión Colectiva deberá ser equivalente a treinta y nueve mil
quinientos (39.500) unidades de valor tributario (UVT) .

0.9250

FIC2 El Fondo deberá mantener un patrimonio mı́nimo equivalente a
2.600 salarios mı́nimos legales mensuales vigentes.

0.7230

Decreto2555 Artı́culo 3.1.1.3.5 Monto mı́nimo de participaciones.
Todo Fondo de Inversión Colectiva en operación deberá tener
un patrimonio mı́nimo definido en el respectivo reglamento, el
cual no podrá ser inferior al equivalente a treinta y nueve mil
quinientos (39.500) unidades de valor tributario (UVT) .

1

Tabla 5: Patrimonio Mı́nimo y Regulación Aplicable

Aunque, el texto de cada polı́tica de patrimonio mı́nimo es substancialmente diferente, ambas

cumplen con los requisitos normativos del artı́culo 3.1.1.3.5, lo anterior es verificable si se tiene en cuenta

que los reglamentos de estos tipos de fondos debe ser autorizados por el regulador, y en efecto se encuentran

con operación vigente, por lo cual, de manera simple se entenderı́a que los valores de compatibilidad son

adecuados. Sin embargo, considerando la notable diferencia en su puntuación de similitud, es necesario

comprender como se ubican estas dos polı́ticas en el espacio vectorial del orden jurı́dico financiero, lo cual

se muestra en la figura 9.

(a) FIC1 Vs Decreto2555 (b) FIC2 Vs Decreto2555 (c) FIC1 Vs FIC2

Figura 9: Representación Gráfica

Nota: ( · ) Representa el contexto de orden jurı́dico financiero, ( · ) Corresponde a la norma recuperada por
el modelo en función de la decisión corporativa de consulta, y ( · ) es la incrustación de la decisión

corporativa en el mismo espacio vectorial del contexto.

45


Al fijar la atención en la figura 9(c), se puede notar que la polı́tica de patrimonio mı́nimo del fondo

1 y 2 se ubican cerca en el espacio vectorial, con un puntaje de similitud entre sı́ de 0.9133, indicando esto

que su puntaje individual en relación con el artı́culo que los gobierna, debiera ser un valor más cercano.

Utilizando los valores de Shapley, que son un enfoque ampliamente utilizado de la teorı́a de juegos

cooperativos, que permite saber cuánto ha contribuido a la predicción cada una de las caracterı́sticas (Aumann

& Shapley, 2015; Ethayarajh & Jurafsky, 2021), en este caso para observar la contribución al puntaje de

similitud, de cada elemento en la oración, se obtienen los resultados que se muestran en la figura 10.

(a) FIC1 Vs Decreto2555 (b) FIC2 Vs Decreto2555

Figura 10: Valores de Shapley

Los valores de Shapley permiten identificar que el texto resaltado en Rojo en la tabla 5, influye de

forma importante en el valor de compatibilidad de la polı́tica del FIC1, pues mientras que elementos como

los resaltados en verde , le permiten al modelo identificar adecuadamente el marco normativo aplicable, el

texto en Rojo al ser una copia literal de la norma, acerca de manera importante la decisión corporativa al

contexto particular.

Lo anterior, no es estrictamente un error, sin embargo, genera un efecto de sobre ajuste en el modelo

que debe ser tratado, y es que al verificar el conjunto de decisiones corporativas, se identifica una propensión

de los administradores a transcribir fragmentos literales de las normas aplicables, y por consiguiente se

requiere establecer una forma de manejo que se discutirá en la sección 9.

Finalmente, continuando con los resultados de la tabla 5, al explorar los valores de similitud del

coseno recuperados por el codificador cruzado en la metodologı́a propuesta, para el top 5 de normas más

46


compatible, se tienen los resultados de la figura 11, presentados en forma de una matriz.

(a) FIC1 Vs TOP5 (b) FIC2 Vs TOP5

Figura 11: Similitud del Coseno

Nota: 0 corresponde a la polı́tica de patrimonio mı́nimo y 1-5 corresponde al top 5 de normas compatibles

Al tomar la primera columna de la figura 11(a) se observa que la fila 1 con puntaje 0.90 , pertenece

a la legislación discutida previamente, lo mismo sucede, en la columna 1 de la figura 11(b) fila 2 con puntaje

0.81 , lo que corresponde a un resultado correcto.

No obstante, al entrar en detalle de las normas recuperadas con los valores entre 0.78 y 0.80 de la

figura 11(a), y los valores 0.67 a 0.73 de la figura 11(b), son validas en el contexto general de los fondos

de inversión colectiva, pero se refieren a un tipo de fondo en especı́fico, en este sentido, para el enfoque

aquı́ propuesto, los resultados recuperados son correctos. No obstante, para un resultado más preciso de la

relación de contexto, serı́a necesario indexar el orden jurı́dico en clusters más pequeños, correspondiendo

esto a un enfoque futuro de investigación que se menciona en la sección 10 de este documento.

47


9. Discusión

Aunque el enfoque general propuesto logra buenos resultados, también puede llegar a presentar

ciertas imposiciones, como las mencionadas previamente en la sección 8.4.2 Principales Resultados y su

Comparación, para comprender dichas observaciones inconsistentes, se pueden abordar en tres categorı́as.

1. Cuando se trató el caso de la plataforma de financiación colaborativa (Vaki) y la legislación normativa

aplicable de la tabla 4, se observaron ciertos valores de similitud negativos, lo cual, es potencialmente

probable que tenga origen en diseño conceptual del modelo RoBERTa, pues este no es sensible a

la polaridad de los fragmentos de texto (Ferreira y col., 2014; Schulder y col., 2017), ocasionando

colisiones semánticas entre oraciones que naturalmente no están relacionadas, pero que generalmente

los modelos de PNL juzgan como similares (Song y col., 2020).

2. En los resultados de la tabla 5, se resalta un sobre ajuste en las medidas de similitud, comprensible

por la inclinación a redactar polı́ticas con contenidos literales de las normas, pese a ello, no son

efectos deseables en aplicaciones del mundo corporativo, dado que a presencia lleva falsos positivos,

no obstante, incrementar un mecanismo de resumen basado en PNL (Adhikari y col., 2020; LeClair

y col., 2019), para la entrada de la decisión corporativa en el modelo aquı́ propuesto, mitigarı́a estos

efectos.

3. Un resultado que se considera relevante y potencialmente contradictorio para el enfoque propuesto, es

la capacidad interna del modelo para generar categorı́as y subcategorı́as de contextos muy particulares,

a partir del orden jurı́dico global, al suponer que las normas colombianas son exhaustivas y detalladas,

observando valores inconsistentes en el caso de las polı́ticas de patrimonio de los Fondos de Inversión.

Particularidad en la cual se puede profundizar adoptando enfoques de indexación en la arquitectura

propuesta (Bast y col., 2016; J. Johnson y col., 2019).

En definitiva, la metodologı́a propuesta para medir la compatibilidad de las decisiones corporativas

con el ordenamiento jurı́dico financiero colombiano, tiene potenciales factores de mejora, que podrı́an

permitirle al modelo desenvolverse correctamente en aplicaciones del ámbito corporativo, en este sentido,

una modificación que se considera prudente en el enfoque propuesto, una vez validados en detalle los

resultados obtenidos durante el trabajo de campo y análisis, consiste en establecer umbrales en la puntuación

48


de similitud para facilitar la diferenciación entre aquellas decisiones compatibles y no compatibles con la

regulación financiera.

En todo caso, los resultados iniciales permiten aproximarse en la dirección correcta a un método de

validación automatizada que mitiga los costes de acudir a expertos de la profesión legal para la validación

de los documentos corporativos.

49


10. Conclusiones y Trabajo Futuro

10.1. Conclusiones

En esta investigación se explora cómo determinar el grado de compatibilidad entre una decisión

corporativa y la legislación financiera colombiana, en especı́fico, como medir de forma automatizada la

similitud entre estos dos elementos de texto, haciendo uso de las técnicas más recientes para el procesamiento

de lenguaje natural, desarrolladas en el campo de la lingüı́stica computacional. Expresamente, empleando

un modelo probabilı́stico comúnmente conocido como transformer o transformador de oraciones, nombrado

RoBERTa por sus creadores (Y. Liu, Ott y col., 2019).

Para ello, se propone la arquitectura de la figura 6 que tiene fundamento en el transformador

RoBERTa, dicha estructura computacional, aprovecha los conceptos de estudios previos en métodos de

recuperación de información, incluyendo tres codificadores dobles y un codificador cruzado, en combinación

con la métrica de similitud del coseno, para dar respuesta a los objetivos planteados.

Los resultados obtenidos discutidos en la sección 8.4.2, demuestran la capacidad de la metodologı́a

para obtener una puntuación de compatibilidad entre una decisión corporativa y el orden jurı́dico financiero

aplicable, en este caso mediante la similitud del coseno, comparable a una evaluación no automatizada

realizada por un evaluador humano, resolviendo de este modo, el problema y objetivo central de esta

investigación.

Ası́ mismo, las representaciones estructurales generadas y discutidas en la sección 8.4.1, permiten

concluir que el núcleo del enfoque propuesto, representado por el modelo de lenguaje RoBERTa, posee

la capacidad para representar de forma adecuada la estructura semántica del contexto del orden Jurı́dico

financiero colombiano, y naturalmente, durante el desarrollo de la investigación y el trabajo de campo

realizado, fue posible obtener la información necesaria para el modelo, a traves de un proceso automatizado

conocido como “web scraping”.

En consecuencia, el desarrollo de cada una de las etapas de esta investigación, ha permitido cumplir

rigurosamente con los objetivos especı́ficos propuestos al comienzo de este documento, descritos en la

sección 2.2 y que fueron necesarios para alcanzar plenamente el objetivo principal.

Finalmente, aunque los resultados obtenidos precisan refinamiento, resultan interesantes para continuar

50


investigando y robusteciendo el enfoque propuesto, de tal forma que pueda ser útil en aplicaciones del ámbito

corporativo.

10.2. Trabajo Futuro

El método propuesto en el enfoque de esta investigación se puede continuar investigando en profundidad

y potencialmente robustecerse para mitigar las posibles distorsiones en sus resultados, mediante:

El uso de los enfoques basados en gradientes y otros métodos de mitigación para tratar las colisiones

semánticas observadas en la sección 9.

El preprocesado de las decisiones corporativas, con un método que permita sintetizarlas, sin perder

sus caracterı́sticas principales.

La integración de extracción de ontologı́as, para construir ı́ndices automáticos que conservan la

semántica y permitan segmentar el contexto global para obtener resultados más precisos.

Establecer capas finales de clasificación con umbrales de puntuación de similitud, para facilitar la

comprensión de los resultados a los usuarios finales no experimentados.

51


A. Anexo 1 Código Python del Modelo

Algoritmo Python 3: Script del Modelo
1 #from xxxxxxxx_xxxxxxxxxxxx import xxxxxxxxxxxxxxxx
2 #from xxxxxxxxxx import xxxxxxxxxxx
3 #from xxxxxxxx_xxxxxxxxxxxx import xxxxx, xxxxxxxxxx
4 #import xxxxxx.xxxxxx as xxxxxx
5 #import xxxxxx as xxxx
6 #import xxxx as xxxx
7 #import xxxxx
8 #import xxxx
9

10 #xxxx_xxx = r’xxxxxx/xxxxxx’
11 #xxxxx = xxx.xxxxx.xxxxx(xxxxxx_xxxx, ’xxxx’)
12 #xxxx_xxx = "xxxxxxxxxx.arrow"
13 #xxxxx_xxx = xxxxxxx.xxxx_xxxxxxx(xxxxx+xxxx.xxxxxxxxxx)
14 #xxxxxxx = xxxxxx(xxxx_xxxxx[’xxxxxxx’])
15 #xxxxxxx = [xxxxxx for xxxxxxx in xxxxx if xxx(xxxxxx) !=x]
16

17 #xxxxxxxxx= ’xxxxx_xxxx’
18

19 #xx_xxxxxx = xxxxxxxxxxxxxx(xxxxxxxxxxx)
20 #xx_xxxxxxx.xxxx_xxx_xxxxxxx = xxxxxxx
21 #xxxxxx_xx = xxxxx
22

23 #xxxx_xxxxxxx = xxxxxxxxxxxxx(xxxxxxxxxxx)
24

25 #xxxxxx_xxxxxxxxx = xxxxxxx.Xxxxxxx(xxxxx,
26 # xxxxxxxxxxxx=xxxxx,
27 # xxxxxxxxxxxx=xxxxxx)
28

29 def search_and_Similarity_query(query):
30 #xxxx("xxxxxxxxxxxxx xxxxx:", xxxxxx)
31

32 #xxxxx_xxxxxxx = xxxxxxxxx.xxxxxx(xxxxxx,
33 # xxxx_xx_xxxxxr=Xxxxx)
34 #xxxxxxxxxxxxx = xxxxxxxxxxxx.xxxx()
35 #xxxx = xxx.xxxxxX_xxxxxxxx(xxxxx_xxxxxxxxx,
36 # xxxxxxxx_xxxxxxxx,
37 # xxx_xxx=xxxxxx_xxxx)
38 ##xxxx = XXXX[###]
39 #XXXX_XXXXX = [[XXXX, xxxxx[xxxx[’xxxxxx_xxx’]]] for xxxxx in xxxx]
40 #xxxx_xxxxxxxx = xxxxx_xxxxxxx.xxxxxxx(xxx_xxxx)
41 #for xxx_xx in xxxx(xxx(xxxx_xxxx)):
42 # xxxxx[xxxx][’xxxxx-xxxxxx’] = xxxxxxxx[xxxxx]
43

52


44 #xxxxxx("xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx")
45

46 #xxxxx("xxx xxxxx_xxxxxxx ")
47 #xxxxx = xxxxxxx(xxxxx,
48 # xxxx=xxxxxxx x: x[’xxxxxx’],
49 # xxxxx=Xxxx)
50 #xxxxxx_xxx = xxxxx()
51 #for xxx in xxxx[##:###]:
52 # xxxx_xxxxx += xxxxx[’Xxxxx’]
53 # xxxxx("\t{:.#f}\t{}".xxxxx(xxxxxx[’xxxx’],
54 # xxxx_xxx[xxxx[’xxx_xxxxx’]].xxxxxx("\n", " ")))
55 #xxxxxx("\nxxxxxxxxnxxxxxxxxxxxxxxx")
56 #xxxx("xxxx xxxxx xxx xx.xxxxxxxx:",
57 # "{:.#f}".xxxxxxx(xxxxxxx/#))
58

59 #xxxx("xxxx xxxxx xxx xx.xxxxxxxx:",
60

61 #xxxx("xxx xxxxx Xxxxxxxx")
62 #xxxxx = xxxxxx(hxxxx,
63 # xxxxx=xxx x: x[’xxxxxxxe’],
64 # xxxxx=xxxx)
65 #xxxxx_x = fxxxxx()
66 #for xxxx in xxxxx[#:#]:
67 # xxxx_xxxx += xxx[’xxxxxx-xxxxx’]
68 # xxxxxx("\t{:.#f}\t{}".xxxxx(xxx[’xxx-xxxxx’],
69 # xxxx[xxxxx[’xxx_xxxx’]].xxxx("\n", " ")))
70

71 #xxxxxx("\nxxxxxxxxxxxxxxxxxxxxn")
72 #xxx("xxxxxx xxxxx xxxxx xxxxx xxxxx:",
73 # "{:.#f}".xxxxx(xxxx_xxxx/####))
74 #xxxxxx("\nxxxxxxxxxxxxxxxxxxxxn")
75 #xxxxxx("xxxxx xxxxxx xxxxxxx xxxxxx:",
76 # "{:.#f}".xxxxxxx(xxxxxxx/######))
77 pass
78

79 ################################################################
80 qyery = ’’ #define query
81 search_and_Similarity_query(query)

Para obtener más información y el código fuente póngase en contacto con el autor de este documento al
correo electrónico: ecaceres3941@universidadean.edu.co

53

mailto:ecaceres3941@universidadean.edu.co


B. Anexo 2 Recolección de Datos

Algoritmo Python 4: Busqueda de Información
1 #import xxxxxx.xxxxxxxx as xxxxxxx
2 #from xxxx import xxxxxxxxx
3 #import xxxx as xxxxxx
4 #import xxxxxx as xxxxx
5 #import xxxxxxxx
6 #import xxxx
7 #import xxxx
8

9 #xxxxxxx = xxx.xxxx.xxxxxxx(__file__)
10 #xxxxx = xxx.xxxxx.xxxxx(xxxxx_xxx, ’XXX’)
11

12 def xx_xxxx_Xxxx_Xxxx(xxxx):
13 #return xxxx.xxxxxxx_xxx("XXXXX")
14 pass
15

16 def xxx_xxxxxxxx_xxxxx(XXXXX):
17 #xxxx = xxxxxxxxx.xxxxx(xxxxx)
18 #xxxx = xxxxxxxxxxxx(xxxxx.xxxxx, "xxxx.xxxxxxx")
19 #xxxxx = xxxxx.xxxx_xxxx(’xxxx’,{’xxxxx’:’xxx’}, xxxxx=###)
20 #xxx_xxxx =[k.xxx_xxxxx() for k in xxxxx ]
21 #xxxxxx = xxxx.xxxx_xxxx(’xxx’,{’xxxxx’:’xxxxx’})
22 #xxxx_xxxx = [v.xxxx_xxxx() for v in xxxxxx]
23 #xxxx = xxx.xxxx__xxxxxx(xxx_xxxxx, xxx(xxx_xxxxx)/#####)
24 #xxx_xxxx = [a.xxxx("xxxxx") for a in xxxxxx]
25 #xxx = xxxx.xxxxxx(xxxxx,xxxxxx=xxx_x_xxx)
26 #xxxx = xxxx.xxxxxxx(’=$&([ˆ ]*)’,xxxxxx)
27 #xxxxxx.xxxxxx_Xxxx(xxx,
28 # xxxxx+xxxx.xxxx+xxxx+’.arrow’,
29 # xxxxxx=’xxxx’)
30

31 #with xxxxx(xxxxx + xxxx.xxxxx + xxxxx + ’_xxxx.txt’,"w") as f:
32 # for xxxx in xxxx_xxxxxx:
33 # f.xxxxxx(xxxxxxx + "\r\n\n")
34

35 pass
36

37 def xxx_xxxx_xxxxx_xxxx(XXX):
38 #xxxx = xxxxxx.xxxxx(XXX)
39 #xxxx = xxxxxxxxxx(xxxxx.xxxxxx,"xxxx.xxxxxx")
40

41 #xxxxx = xxxx.xxxx_x_xxx("xxx",
42 # {’xxxxx’:’xxxxxxx-xxxxxxxx’})
43 #xxxxx_xxxx = [p.xxxxx_xxx() for p in xxxxxx]

54


44 #xxX_xxxx = re.xxxxxx(’?i=([ˆ ]*)’, url)
45

46 #with xxxxx(xxxxx + xxx.xxxxx + xxx_xxxx+’.xxxx’,"w") as f:
47 # for xxxx in xxxx_xxxxx:
48 # f.xxxxxx(xxxxxx + "\r\n\n")
49

50 #xxxx= xxxx.xxxxx(xxx_xxxx, xxxxxx=[’xxxxxx’])
51 #xxxxx[’xxxx’]= xxxxx
52 #xxxx.xxxxx_xxxxxxx(xxx,
53 # xxx+xxxx.xxxx+xxx_xxx+’.arrow’,
54 # xxxxxxxx=’xxxxx’)
55 pass

Para obtener más información y el código fuente póngase en contacto con el autor de este documento al
correo electrónico: ecaceres3941@universidadean.edu.co

55

mailto:ecaceres3941@universidadean.edu.co


Referencias

Acheampong, F. A., Nunoo-Mensah, H., & Chen, W. (2021). Transformer models for text-based

emotion detection: a review of BERT based approaches. Artificial Intelligence Review,

54(8), 5789-5829.

Adhikari, S., y col. (2020). Nlp based machine learning approaches for text summarization. 2020

Fourth International Conference on Computing Methodologies and Communication (ICCMC),

535-538.

Ahlawat, S., Choudhary, A., Nayyar, A., Singh, S., & Yoon, B. (2020). Improved handwritten digit

recognition using convolutional neural networks (CNN). Sensors, 20(12), 3344.

Alammar, J. (2018). https://jalammar.github.io/illustrated-transformer/

Alesina, A. (2005). Institutional reforms: The case of Colombia. MIT press.

Anand, D., & Wagh, R. (2019). Effective deep learning approaches for summarization of legal

texts. Journal of King Saud University-Computer and Information Sciences.

Arrow, K. J. (1974). The limits of organization. WW Norton & Company.

Arslan, S. (2022). A hybrid forecasting model using LSTM and Prophet for energy consumption

with decomposition of time series data. PeerJ Computer Science, 8, e1001.

Ashley, K., Branting, K., Margolis, H., & Sunstein, C. R. (2001). Legal Reasoning and Artificial

Intelligence: How Computers ”Think”Like Lawyers. University of Chicago Law School

Roundtable, 8(1), 1-28.

Aumann, R. J., & Shapley, L. S. (2015). Values of non-atomic games. Princeton University Press.

Aziz, H. M., Sorguli, S., Hamza, P. A., Sabir, B. Y., Qader, K. S., Ismeal, B. A., Anwar, G.,

Gardi, B., y col. (2021). Factors affecting International Finance Corporation. International

Journal of Humanities and Education Development (IJHED), 3(3), 148-157.

Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016). Layer normalization. arXiv preprint arXiv:1607.06450.

Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to

align and translate. arXiv preprint arXiv:1409.0473.

Bancolombia, G. (2022). https://www.bancolombia.com/

56

https://jalammar.github.io/illustrated-transformer/
https://www.bancolombia.com/


Bast, H., Buchhold, B., Haussmann, E., y col. (2016). Semantic search on text and knowledge

bases. Foundations and Trends® in Information Retrieval, 10(2-3), 119-271.

Belkaoui, A., & Karpik, P. G. (1989). Determinants of the corporate decision to disclose social

information. Accounting, Auditing & Accountability Journal, 2(1), 0–0.

Berger-Walliser, G., & Scott, I. (2018). Redefining corporate social responsibility in an era of

globalization and regulatory hardening. American Business Law Journal, 55(1), 167-218.

Bojar, O., Buck, C., Federmann, C., Haddow, B., Koehn, P., Leveling, J., Monz, C., Pecina, P.,

Post, M., Saint-Amand, H., y col. (2014). Findings of the 2014 workshop on statistical

machine translation. Proceedings of the ninth workshop on statistical machine translation,

12-58.

Bowman, S. R., Angeli, G., Potts, C., & Manning, C. D. (2015). A large annotated corpus for

learning natural language inference. arXiv preprint arXiv:1508.05326.

bvc - bolsa de valores de colombia. (2020). a2censo. https://a2censo.com

Calin, O. (2020). Deep learning architectures. Springer.

Cárdenas, M., Junguito, R., & Pachón, M. (2008). Political institutions and policy outcomes in

Colombia: The effects of the 1991 constitution. Policymaking in Latin America: how politics

shapes policies, 199-242.

Chellapilla, K., Puri, S., & Simard, P. (2006). High performance convolutional neural networks for

document processing. Tenth international workshop on frontiers in handwriting recognition.

Cho, K., Van Merriënboer, B., Bahdanau, D., & Bengio, Y. (2014). On the properties of neural

machine translation: Encoder-decoder approaches. arXiv preprint arXiv:1409.1259.

Chowdhary, K. (2020). Natural language processing. Fundamentals of artificial intelligence, 603-649.

Collins, A., Brown, J. S., & Larkin, K. M. (2017). Inference in text understanding. En Theoretical

issues in reading comprehension (pp. 385-408). Routledge.

Conneau, A., Lample, G., Rinott, R., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V.

(2018). XNLI: Evaluating cross-lingual sentence representations. arXiv preprint arXiv:1809.05053.

Corficolombiana. (2021). https://www.corficolombiana.com

57

https://a2censo.com
https://www.corficolombiana.com


Cummings, K. M., Morley, C., Horan, J., Steger, C., & Leavell, N.-R. (2002). Marketing to America’s

youth: evidence from corporate documents. Tobacco control, 11(suppl 1), i5-i17.

Dai, Z., Yang, Z., Yang, Y., Carbonell, J., Le, Q. V., & Salakhutdinov, R. (2019). Transformer-xl:

Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860.

Dale, R. (2019). Law and word order: NLP in legal tech. Natural Language Engineering, 25(1),

211-217.

Davivienda, F. (2022). Fondo de Inversion Colectiva Renta Fija. https://fidudavivienda.davivienda.

com

De Beaugrande, R., & Dessler, W. (1997). Introducciona la linguistica del texto. Barcelona: Ariel

Linguistica.

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional

transformers for language understanding. arXiv preprint arXiv:1810.04805.

Dos Santos, C., & Gatti, M. (2014). Deep convolutional neural networks for sentiment analysis of

short texts. Proceedings of COLING 2014, the 25th international conference on computational

linguistics: technical papers, 69-78.

dos Santos, F. F., Pimenta, P. F., Lunardi, C., Draghetti, L., Carro, L., Kaeli, D., & Rech, P. (2018).

Analyzing and increasing the reliability of convolutional neural networks on GPUs. IEEE

Transactions on Reliability, 68(2), 663-677.

Dubois, C. (2021). How do lawyers engineer and develop legaltech projects?: A story of opportunities,

platforms, creative rationalities, and strategies. Law, Technology and Humans, 3(1), 68-81.

Ethayarajh, K., & Jurafsky, D. (2021). Attention flows are shapley value explanations. arXiv preprint

arXiv:2105.14652.

Eyre, H., Chapman, A. B., Peterson, K. S., Shi, J., Alba, P. R., Jones, M. M., Box, T. L., DuVall,

S. L., & Patterson, O. V. (2021). Launching into clinical space with medspaCy: a new

clinical text processing toolkit in Python. AMIA Annual Symposium Proceedings, 2021,

438.

58

https://fidudavivienda.davivienda.com
https://fidudavivienda.davivienda.com


Ferreira, J. Z., Rodrigues, J., Cristo, M., & de Oliveira, D. F. (2014). Multi-entity polarity analysis

in financial documents. Proceedings of the 20th Brazilian Symposium on Multimedia and

the Web, 115-122.

Ferrucci, D., & Lally, A. (2004). UIMA: an architectural approach to unstructured information

processing in the corporate research environment. Natural Language Engineering, 10(3-4),

327-348.

Fukushima, K., & Miyake, S. (1982). Neocognitron: A self-organizing neural network model for

a mechanism of visual pattern recognition. En Competition and cooperation in neural nets

(pp. 267-285). Springer.

Gabrilovich, E., & Markovitch, S. (2009). Wikipedia-based semantic interpretation for natural

language processing. Journal of Artificial Intelligence Research, 34, 443-498.

Gage, P. (1994). A new algorithm for data compression. C Users Journal, 12(2), 23-38.

Gardner, M., Grus, J., Neumann, M., Tafjord, O., Dasigi, P., Liu, N., Peters, M., Schmitz, M., &

Zettlemoyer, L. (2018). Allennlp: A deep semantic natural language processing platform.

arXiv preprint arXiv:1803.07640.

Gavali, P., & Banu, J. S. (2020). Bird species identification using deep learning on GPU platform.

2020 International Conference on Emerging Trends in Information Technology and Engineering

(ic-ETITE), 1-6.

Gehring, J., Auli, M., Grangier, D., Yarats, D., & Dauphin, Y. N. (2017). Convolutional sequence

to sequence learning. International conference on machine learning, 1243-1252.

Gers, F. A., Schmidhuber, J., & Cummins, F. (2000). Learning to forget: Continual prediction with

LSTM. Neural computation, 12(10), 2451-2471.

Ghaderi, S. (s.f.). Transformers in Action: Attention Is All You Need A brief survey, illustration,

and implementation.

Goldberg, Y. (2016). A primer on neural network models for natural language processing. Journal

of Artificial Intelligence Research, 57, 345-420.

59


Graën, J., Bertamini, M., Volk, M., Cieliebak, M., Tuggener, D., & Benites, F. (2018). Cutter: a

universal multilingual tokenizer. CEUR Workshop Proceedings, (2226), 75-81.

Gramegna, A., & Giudici, P. (2020). Why to buy insurance? an explainable artificial intelligence

approach. Risks, 8(4), 137.

Graves, A., Jaitly, N., & Mohamed, A.-r. (2013). Hybrid speech recognition with deep bidirectional

LSTM. 2013 IEEE workshop on automatic speech recognition and understanding, 273-278.

Gross, C. G., Rocha-Miranda, C. d., & Bender, D. (1972). Visual properties of neurons in inferotemporal

cortex of the Macaque. Journal of neurophysiology, 35(1), 96-111.

Gruber, N., & Jockisch, A. (2020). Are GRU cells more specific and LSTM cells more sensitive in

motive classification of text? Frontiers in artificial intelligence, 3, 40.

Gururangan, S., Swayamdipta, S., Levy, O., Schwartz, R., Bowman, S. R., & Smith, N. A. (2018).

Annotation artifacts in natural language inference data. arXiv preprint arXiv:1803.02324.

Hahn, T. B. (1998). Text retrieval online: historical perspective on web search engines.

Harris, C. R., Millman, K. J., van der Walt, S. J., Gommers, R., Virtanen, P., Cournapeau, D.,

Wieser, E., Taylor, J., Berg, S., Smith, N. J., Kern, R., Picus, M., Hoyer, S., van Kerkwijk,

M. H., Brett, M., Haldane, A., del Rı́o, J. F., Wiebe, M., Peterson, P., . . . Oliphant, T. E.

(2020). Array programming with NumPy. Nature, 585(7825), 357-362. https://doi.org/10.

1038/s41586-020-2649-2

He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition.

Proceedings of the IEEE conference on computer vision and pattern recognition, 770-778.

Hernández Osuna, S., & Ferreira Cabrera, A. (2016). Procesamiento semantico automatico, enfocado

en la coherencia textual, para apoyar la produccion escrita de noticias. Estudios filologicos,

(58), 97-122.

Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8),

1735-1780.

Hubel, D. H., & Wiesel, T. N. (1962). Receptive fields, binocular interaction and functional architecture

in the cat’s visual cortex. The Journal of physiology, 160(1), 106.

60

https://doi.org/10.1038/s41586-020-2649-2
https://doi.org/10.1038/s41586-020-2649-2


Hubel, D. H., & Wiesel, T. N. (1965). Receptive fields and functional architecture in two nonstriate

visual areas (18 and 19) of the cat. Journal of neurophysiology, 28(2), 229-289.

Johnson, J., Douze, M., & Jégou, H. (2019). Billion-scale similarity search with gpus. IEEE

Transactions on Big Data, 7(3), 535-547.

Johnson, R., & Zhang, T. (2014). Effective use of word order for text categorization with convolutional

neural networks. arXiv preprint arXiv:1412.1058.

Kalchbrenner, N., & Blunsom, P. (2013). Recurrent continuous translation models. Proceedings of

the 2013 conference on empirical methods in natural language processing, 1700-1709.

Kang, Y., Cai, Z., Tan, C.-W., Huang, Q., & Liu, H. (2020). Natural language processing (NLP) in

management research: A literature review. Journal of Management Analytics, 7(2), 139-172.

Khaled, R., Ali, H., & Mohamed, E. K. (2021). The Sustainable Development Goals and corporate

sustainability performance: Mapping, extent and determinants. Journal of Cleaner Production,

311, 127599.

Kownatzki, M., Walter, J., Floyd, S. W., & Lechner, C. (2013). Corporate control and the speed of

strategic business unit decision making. Academy of Management Journal, 56(5), 1295-1324.

Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint

arXiv:1901.07291.

Lax, J. R. (2011). The new judicial politics of legal doctrine. Annual Review of Political Science,

14, 131-157.

LeClair, A., Jiang, S., & McMillan, C. (2019). A neural model for generating natural language

summaries of program subroutines. 2019 IEEE/ACM 41st International Conference on

Software Engineering (ICSE), 795-806.

LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document

recognition. Proceedings of the IEEE, 86(11), 2278-2324.

LeCun, Y., Jackel, L., Bottou, L., Brunot, A., Cortes, C., Denker, J., Drucker, H., Guyon, I., Muller,

U., Sackinger, E., y col. (1995). Comparison of learning algorithms for handwritten digit

recognition. International conference on artificial neural networks, 60(1), 53-60.

61


Lee, K.-M., & Park, C.-W. (2018). A Study on Voice Command Learning of Smart Toy using

Convolutional Neural Network. The transactions of The Korean Institute of Electrical

Engineers, 67(9), 1210-1215.

Lee-Thorp, J., Ainslie, J., Eckstein, I., & Ontanon, S. (2021). Fnet: Mixing tokens with fourier

transforms. arXiv preprint arXiv:2105.03824.

Lehnert, W. G. (1977). A conceptual theory of question answering. Proceedings of the 5th international

joint conference on Artificial intelligence-Volume 1, 158-164.

Lehnert, W. G. (1981). Plot units and narrative summarization. Cognitive science, 5(