Các mô hình ngôn ngữ lớn liệu có thể phát hiện những lời mỉa mai?

Thứ năm - 25/01/2024 21:17 0

Mô hình ngôn ngữ lớn (LLM) là các thuật toán học sâu tiên tiến có thể phân tích lời nhắc nhở từ nhiều ngôn ngữ khác nhau của con người, sau đó tạo ra các câu trả lời thực tế và đầy đủ. Cấp mô hình xử lý ngôn ngữ tự nhiên (NLP) đầy hứa hẹn này ngày càng trở nên phổ biến sau khi phát hành nền tảng ChatGPT của Open AI, nền tảng này có thể nhanh chóng trả lời nhiều loại truy vấn của người dùng và tạo ra các văn bản viết có tính thuyết phục cho các mục đích sử dụng khác nhau.

Nguồn: Pixabay

Khi các mô hình này ngày càng phổ biến, việc đánh giá khả năng và hạn chế của chúng là vô cùng quan trọng. Những đánh giá này cuối cùng có thể giúp biết được các tình huống trong đó LLM hữu ích nhất hoặc ít hữu ích nhất, đồng thời xác định các cách có thể cải thiện chúng.

Nhà nghiên cứu Juliann Zhou, Đại học New York, gần đây đã thực hiện một nghiên cứu nhằm đánh giá hiệu suất của hai LLM được đào tạo để phát hiện những ngôn từ mỉa mai của con người. Những phát hiện của bà được đăng trên arXiv, đã giúp mô tả được các tính năng và thành phần thuật toán có thể nâng cao khả năng phát hiện lời mỉa mai của cả tác nhân AI và robot.

Nhà nghiên cứu Juliann Zhou viết trong bài báo của mình: “Trong lĩnh vực phân tích tình cảm của Xử lý ngôn ngữ tự nhiên (NLL), khả năng xác định chính xác lời mỉa mai là cần thiết để có thể hiểu rõ ý kiến thực sự của mọi người. Vì sử dụng lời mỉa mai thường dựa trên ngữ cảnh nên nghiên cứu trước đây đã sử dụng các mô hình biểu diễn ngôn ngữ, chẳng hạn như Máy vectơ hỗ trợ (SVM) và Bộ nhớ ngắn hạn dài (LSTM), để xác định lời mỉa mai bằng thông tin dựa trên ngữ cảnh. Đổi mới sáng tạo trong NLP gần đây đã cung cấp nhiều khả năng hơn để phát hiện sự mỉa mai".

Nguồn ảnh: Juliann Chu.

Phân tích tình cảm là một lĩnh vực nghiên cứu đòi hỏi phải phân tích các văn bản thường được đăng trên nền tảng truyền thông xã hội hoặc các trang web khác để hiểu rõ hơn về cảm nhận của mọi người về một chủ đề hoặc sản phẩm cụ thể. Ngày nay, nhiều công ty đang đầu tư vào lĩnh vực này vì nó có thể giúp họ hiểu cách họ có thể cải thiện dịch vụ và đáp ứng nhu cầu của khách hàng.

Hiện tại có một số mô hình NLP có thể xử lý văn bản và dự đoán giọng điệu cảm xúc tiềm ẩn của chúng, hay nói cách khác biết được liệu chúng có đang thể hiện cảm xúc tích cực, tiêu cực hay trung tính hay không. Tuy nhiên, nhiều đánh giá và bình luận được đăng trực tuyến chứa đựng sự mỉa mai và châm biếm có thể đánh lừa mô hình phân loại họ là "tích cực" trong khi thực tế họ đang thể hiện cảm xúc tiêu cực hoặc ngược lại. Do đó, một số nhà khoa học máy tính đã cố gắng phát triển các mô hình có thể phát hiện ra sự mỉa mai trong văn bản viết. Hai trong số những mô hình hứa hẹn nhất trong số này, được gọi là CASCADE và RCNN-RoBERTa, đã được các nhóm nghiên cứu riêng biệt giới thiệu năm 2018

Về cơ bản, Juliann Zhou đã thực hiện một loạt thử nghiệm nhằm đánh giá khả năng của mô hình CASCADE và RCNN-RoBERTa trong việc phát hiện những lời mỉa mai trong các bình luận được đăng trên Reddit, nền tảng trực tuyến nổi tiếng thường được sử dụng để xếp hạng nội dung và thảo luận về các chủ đề khác nhau. Khả năng phát hiện sự mỉa mai trong văn bản mẫu của hai mô hình này cũng được so sánh với hiệu suất trung bình của con người trong cùng nhiệm vụ này (được báo cáo trong nghiên cứu trước) và với hiệu suất của một số mô hình cơ sở để phân tích văn bản.

Juliann Zhou kết luận trong bài báo của mình: “Chúng tôi nhận thấy rằng thông tin theo ngữ cảnh, chẳng hạn như nhúng tính cách người dùng, có thể cải thiện đáng kể hiệu suất, không khác gì khi kết hợp của máy biến áp RoBERTa, so với cách tiếp cận CNN truyền thống hơn. Với sự thành công của cả hai cách tiếp cận dựa trên ngữ cảnh và dựa trên máy biến áp, như được thể hiện trong kết quả của chúng tôi, việc tăng cường máy biến áp với các tính năng thông tin theo ngữ cảnh bổ sung có thể là một hướng đi cho các thử nghiệm trong tương lai".

Các kết quả thu thập được trong nghiên cứu gần đây này có thể sớm định hướng cho các nghiên cứu tiếp theo trong lĩnh vực này, cuối cùng góp phần phát triển LLM có khả năng phát hiện tốt hơn những lời mỉa mai và châm biếm trong ngôn ngữ của con người. Những mô hình này cuối cùng có thể được chứng minh là công cụ cực kỳ có giá trị để nhanh chóng thực hiện phân tích cảm tính về các bài đánh giá, bài đăng trực tuyến và nội dung khác do người dùng tạo.

P.T.T (NASATI), theo https://techxplore.com, 1/2024

Nguồn: Sưu tầm

  Ý kiến bạn đọc

Thống kê truy cập
  • Đang truy cập136
  • Hôm nay30,046
  • Tháng hiện tại910,762
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây