Kêu gọi đóng góp dữ liệu tiếng ho cho dự án xét nghiệm nhanh COVID-19

Chủ nhật - 25/07/2021 22:37 0

Các kỹ sư công nghệ Việt Nam đang kêu gọi cộng đồng ủng hộ 5.000 dữ liệu tiếng ho để xây dựng phần mềm AI phát hiện người dương tính với Sars-CoV-2.

Quyên góp tiếng ho, đẩy lùi COVID-19 | Ảnh: Dự án AICOVIDVN

Dự án này mang tên AICOVIDVN, do cộng đồng hơn 200 chuyên gia và hơn 1.000 kỹ sư người Việt thực hiện, với sự cố vấn và bảo trợ của nhiều chuyên gia y tế và AI, cùng một số nhà sáng lập của các công ty công nghệ có tên tuổi.

Theo các nhà điều hành dự án, nguyên tắc "xét nghiệm" bệnh với người dùng rất đơn giản. Khi hệ thống AI đã hoàn thiện, chỉ cần người tham gia ho vào bộ thu tiếng trên điện thoại, hệ thống AI sẽ phân tích tiếng ho và đưa ra chẩn đoán nhanh xem họ có bị nhiễm virus hay không.

Điều này hứa hẹn giúp cho việc tìm kiếm người nhiễm bệnh ở các giai đoạn khác nhau (kể cả khi chưa có triệu chứng) được nhanh chóng, thuận tiện và nhẹ nhàng hơn trên diện rộng, đặc biệt trong bối cảnh nhiều tỉnh thành phải giãn cách xã hội.

Dự án gồm 4 giai đoạn: (i) Xây dựng AI Engine trên dữ liệu tiếng ho từ nước ngoài chưa được làm sạch; (ii) Phát triển giải pháp AI trên dữ liệu tiếng ho từ Việt Nam; (iii) Thử nghiệm tích hợp giải pháp AI vào các ứng dụng, giải pháp đang được sử dụng và (iv) Đóng gói và bàn giao giải pháp tới Ban Chỉ đạo Quốc gia Phòng chống Covid-19.

Cần dữ liệu tiếng ho từ người Việt để trở nên tối ưu

Trong thời gian qua, các nhà phát triển dự án đã xử lý làm sạch và dán nhãn hơn 7.000 mẫu dữ liệu tiếng ho của người nước ngoài từ Thụy Sĩ, Ấn Độ và một số quốc gia khác để huấn luyện mô hình AI.

Đến nay, dự án đang bước vào giai đoạn 2 nhằm phát triển AI tối ưu cho người Việt, và cần huy động ít nhất 10.000 mẫu tiếng ho, trong đó có 100-500 mẫu dương tính, để giúp cho chất lượng giải pháp được tốt hơn. Hiện nay, dự án đang kêu gọi cộng đồng Việt Nam ủng hộ thêm 5.000 mẫu tiếng ho mới.

"Do đặc tính tiếng ho có sự khác biệt giữa những người đến từ các quốc gia khác nhau. Vì vậy, việc có được tiếng ho từ chính người Việt là điều rất cần thiết", các thành viên dự án cho biết.

Ý tưởng của dự án này dựa trên nhiều nghiên cứu khoa học khác nhau, trong đó chủ đạo là nghiên cứu của Đại học MIT (Mỹ) công bố vào tháng 1/2020. Tại đây, khi đối chiếu với các đối tượng được chẩn đoán bằng xét nghiệm COVID chính thức, mô hình chẩn đoán AI đã đạt được độ nhạy (phản ánh khả năng người có bệnh được chẩn đoán đúng là dương tính) đạt 98,5% và độ đặc hiệu đạt 94,2% (phản ánh khả năng người không có bệnh được chẩn đoán đúng là âm tính).

Đối với các ca nhiễm không có triệu chứng, nó đạt được độ nhạy 100% và độ đặc hiệu là 83,2%. Điều này cực kỳ quan trọng bởi việc tìm kiếm những người mắc bệnh chưa có triệu chứng là mấu chốt của bài toán. Nhóm MIT đã đệ trình giải pháp lên Cục quản lý Thực phẩm và Dược phẩm Hoa Kỳ (FDA) và đang chờ được cấp phép để ứng dụng kết quả nghiên cứu trên diện rộng.

Nhiều nhóm nghiên cứu khác cũng đang đào tạo các mô hình AI tương tự, bao gồm: dự án Cough Against Covid của Viện trí tuệ nhân tạo Wadhwani ở Mumbai (Ấn Độ), dự án COVID-19 Sounds của Đại học Cambridge (UK) và dự án Coughvid của Viện Công nghệ Liên bang Thụy Sĩ Lausanne. Tuy nhiên, độ chính xác của các dự án này chênh lệch khá lớn, từ 60%-90%.

Có 4 nhóm đặc điểm sinh học, mà các nhà nghiên cứu của MIT, cũng như đội ngũ tại Việt Nam đã sử dụng để phân tích tiếng ho, bao gồm:

• Sự thay đổi về âm thanh được phát ra từ dây thanh quản
• Sự thay đổi về biểu đạt trạng thái cảm xúc
• Sự thay đổi về âm thanh từ phổi và đường hô hấp
• Sự thoái hoá cơ bắp

Thuật toán AI sẽ dựa trên các tiêu chí này để phân tích hàng ngàn mẫu tiếng ho của người dương tính với COVID-19, người không bị bệnh hay bị các bệnh gây tổn thương phổi khác; từ đó nhận diện được các đặc điểm của tổn thương do COVID gây ra. Đây là điều mà tai thường sẽ không phát hiện được, ngay cả các bác sĩ.

AICOVIDVN vẫn chưa công bố rõ hai chỉ số về độ nhạy và độ đặc hiệu. Tuy nhiên, chỉ số AUC (hay hiệu suất của mô hình, được tính từ độ nhạy và độ đặc hiệu) của họ sau giai đoạn 1 đã đạt 91%, chỉ chênh khoảng 6% so với kết quả của MIT. Nhóm nghiên cứu cho rằng giải pháp của mình cần thêm nhiều dữ liệu để nâng cấp, và cần thẩm định y khoa, hiệu chỉnh để loại bỏ các sai sót chuyên môn.

Trong giai đoạn 2, họ đặt mục tiêu độ chính xác của thuật toán AI đạt trên 95%. Nếu thuận lợi, giải pháp AICOVIDVN sẽ được chuyển giao cho các cơ quan chức năng thẩm định và nâng cấp vào cuối tháng 8/2021.

AICOVIDVN là dự án y tế nhận diện COVID-19 bằng tiếng ho đầu tiên tại Việt Nam. Trước đó, các kỹ sư Việt Nam tại tập đoàn FPT hay Bkav đã huấn luyện AI để tìm bệnh nhân COVID-19 bằng phân tích hơi thở, hay nước muối sinh lý. So với tiếng ho, dữ liệu từ các phương pháp phân tích này có phần phức tạp hơn để xử lý.

Theo khuyến cáo của WHO, một giải pháp xét nghiệm nhanh có thể đưa vào sử dụng nếu đảm bảo đủ hai tiêu chí: độ nhạy đạt từ 80% trở lên và độ đặc hiệu đạt từ 97% trở lên.

Đóng góp dữ liệu tiếng ho bằng cách nào?

Mọi người dân Việt Nam, ưu tiên đối tượng F0-F1-F2-F3 có thể vào cổng tiếp nhận dữ liệu tiếng ho trên Zalo hoặc Messenger của dự án, sau đó thu âm và nhắn tin theo cú pháp:

1. Ho (4-5 tiếng)
2. Tôi tin mình là F... (Vui lòng bỏ qua nếu chưa rõ)
=> và gửi file ghi âm

Trang thông tin chính thức của dự án:
Website: https://www.covid.aihub.vn
Fanpage: https://www.facebook.com/aicovn

Ngô Hà