Respuesta a incremento de ciberacoso en las redes sociales
Jueves 26 de enero de 2017, p. 35
Ante el incremento de las incidencias de ciberacoso en redes sociales, servicios de mensajería instantánea y correo electrónico, el estudiante del Instituto Politécnico Nacional (IPN) Juan Carlos Ramos Márquez desarrolló un programa que detecta los tuits de contenido ofensivo.
La investigación hecha en el Centro de Investigación en Computación (CIC) analiza el contenido de los mensajes de Twitter, únicamente en español. Con la asociación de algoritmos que, por medio de técnicas de procesamiento de lenguaje natural, verifican si los tuits son parte de un ciberacoso.
El sistema desarrollado por el politécnico de maestría tiene 69 por ciento de efectividad en la detección de tuits de contenido ofensivo. Y sólo debe iniciarse en la computadora para que analice los mensajes y los etiquete si son de acoso o no.
El proceso de elaboración del programa requirió en primera instancia de la adquisición de datos, un conjunto de palabras consideradas ofensivas, coordenadas geográficas para delimitar a México, emoticones y el símbolo @
para identificar al usuario.
Con esta información se realizó el entrenamiento con tres sistemas de clasificadores, los cuales se encargan del análisis y, basado en los elementos que contenga el tuit, juzgará si es de acoso y después determinará el porcentaje de contenido ofensivo.
Los mensajes deben contener al menos dos referencias para hacer el estudio, ya que está basado en el sistema binario, el cual sólo tiene dos opciones: ofensivo o no. Los resultados mostraron que una mayor cantidad de tuits de hostigamiento tienen emoticones, explicó Ramos Márquez.
El hostigamiento tiene otras clasificaciones como peleas en línea, exclusión de usuarios, revelación o compartición de datos, fotos o videos personales sin autorización y suplantación o robo de identidad.
Para la tesis, de la cual fue asesor Francisco Hiram Calvo Castro del CIC, se crearon técnicas de Ngramas sintácticos, los cuales se emplean comúnmente en el diseño de núcleos que permiten a los algoritmos automáticos de aprendizaje la extracción de datos, a partir de cadenas de texto, en este caso los tuits, además detectan palabras mal escritas.
El siguiente paso del trabajo sería incrementar el tamaño del corpus del programa y utilizar la información inherente a los mensajes como imágenes en formatos JPG y GIF, así como links, además, se quiere procesar los enunciados que conlleven tono sarcástico, burlón o estén escritos con palabras deformadas, como las que sustituyen la letra Q, por la K.