BERT, que significa Representaciones de codificador bidireccional de Transformers, se basa en Transformers, un modelo de aprendizaje profundo en el que cada elemento de salida está conectado a cada elemento de entrada, y las ponderaciones entre ellos se calculan dinámicamente en función de su conexión.
Cómo funciona BERT
El objetivo de cualquier técnica de PNL dada es comprender el lenguaje humano tal como se habla de forma natural. En el caso de BERT, esto generalmente significa predecir una palabra en un espacio en blanco. Para hacer esto, los modelos normalmente necesitan entrenarse usando un gran repositorio de datos de entrenamiento especializados y etiquetados. Esto requiere un laborioso etiquetado manual de datos por parte de equipos de lingüistas.
BERT, sin embargo, se entrenó previamente utilizando solo un corpus de texto plano sin etiquetar. Continúa aprendiendo sin supervisión del texto sin etiquetar y mejorando incluso cuando se usa en aplicaciones prácticas (es decir, búsqueda de Google). Su entrenamiento previo sirve como una capa base de “conocimiento” para construir. A partir de ahí, BERT puede adaptarse al creciente cuerpo de contenido y consultas que se pueden buscar y ajustarse a las especificaciones del usuario. Este proceso se conoce como aprendizaje por transferencia.
BERT es también la primera técnica de PNL que se basa únicamente en el mecanismo de auto atención, que es posible gracias a los transformadores bidireccionales en el centro del diseño de BERT. Esto es importante porque a menudo, una palabra puede cambiar de significado a medida que se desarrolla una oración. Cada palabra agregada aumenta el significado general de la palabra en la que se enfoca el algoritmo NLP. Cuantas más palabras estén presentes en total en cada oración o frase, más ambigua se vuelve la palabra en foco. BERT explica el significado aumentado leyendo bidireccionalmente, teniendo en cuenta el efecto de todas las demás palabras en una oración en la palabra de enfoque y eliminando el impulso de izquierda a derecha que predispone las palabras hacia un cierto significado a medida que avanza una oración.
¿Para qué se utiliza BERT?
BERT se utiliza actualmente en Google para optimizar la interpretación de las consultas de búsqueda de los usuarios. BERT sobresale en varias funciones que lo hacen posible, que incluyen:
- Tareas de generación de lenguaje basadas en secuencia a secuencia, tales como:
- Respuesta a preguntas
- Resumen de resúmenes
- Predicción de oraciones
- Generación de respuestas conversacionales
- Tareas de comprensión del lenguaje natural como:
- Resolución de polisemia y correferencia (palabras que suenan o se ven iguales pero tienen diferentes significados)
- Desambiguación del sentido de las palabras
- Inferencia de lenguaje natural
- Clasificación de sentimiento
Se espera que BERT tenga un gran impacto en la búsqueda por voz, así como en la búsqueda basada en texto, que ha sido propensa a errores con las técnicas de PNL de Google hasta la fecha. También se espera que BERT mejore drásticamente el SEO internacional , porque su habilidad para comprender el contexto lo ayuda a interpretar patrones que comparten diferentes idiomas sin tener que comprender el idioma por completo. En términos más generales, BERT tiene el potencial de mejorar drásticamente los sistemas de inteligencia artificial en todos los ámbitos.
BERT es de código abierto, lo que significa que cualquiera puede usarlo. Google afirma que los usuarios pueden entrenar un sistema de preguntas y respuestas de última generación en solo 30 minutos en una unidad de procesamiento de tensor en la nube (TPU) y en unas pocas horas usando una unidad de procesamiento gráfico ( GPU ). Muchas otras organizaciones, grupos de investigación y facciones separadas de Google están afinando la arquitectura del modelo BERT con entrenamiento supervisado para optimizarlo para su eficiencia (modificando la tasa de aprendizaje, por ejemplo) o especializarlo para ciertas tareas al entrenarlo previamente con ciertos representaciones contextuales.