АНАЛІЗ ТА ВІЗУАЛІЗАЦІЯ ДАНИХ ТА ГЕНДЕРНІ СТУДІЇ: досліджуємо онлайн-насильство Як великі мовні моделі (на кшталт GPT) можуть бути корисними для задач класифікації та роботи з великими обсягами даних? За допомогою GPT-4o Юлія Дукач, викладачка курсу “Основи роботи з аналізу та візуалізації даних” в своєму дослідженні Ложка хейту. Онлайн-насильство щодо журналісток у коментарях YouTube разом з колегами проаналізували 285 000 коментарів до 2300 відео, де щонайменше одна жінка виступає в ролі ведучої або інтервʼюерки. Для цього вони написали деталізований промпт, що містив опис кожного з десяти видів онлайн-насильства разом із характерними прикладами українською та російською мовами. В результаті виявилося, що близько 9% проаналізованих коментарів містили ознаки щонайменше одного виду онлайн насильства. Найчастіше зустрічались мова ненависті, погрози фізичним насильством та мізогінія. “Наше дослідження в першу чергу має підсвітити ту кількість онлайн насильства, з якою стикаються українські журналістки щодня та пояснити ширшій аудиторії на дуже конкретних даних і прикладах чому це – не про свободу слова, а навпаки про наступ на неї”, - розповідає Юлія. “Ми довели, що алгоритми модерації платформи для української мови залишаються недосконалими та часто не помічають навіть ті види та прояви онлайн насильства, які порушують політики платформи. Крім цього, ми протестували можливість GPT-4o виявляти та класифікувати онлайн насильство в коментарях. Не можу не подякувати YouTube за відкритий та дружній до аналітиків YouTube API – з його допомогою 300 тисяч коментарів я вивантажила буквально за 1 годину”. |