CAN THO CITY DEPARTMENT OF SCIENCE AND TECHNOLOGY
Bao nhiêu ảnh y tế là đủ cho AI học tập?
Theo các nhà phát triển hệ thống AI xử lý ảnh y tế, tới một ngưỡng nào đó, khi tăng số lượng ảnh huấn luyện, hiệu năng của mô hình AI sẽ không tăng đáng kể.

Dữ liệu đóng vai trò quyết định khi huấn huyện AI | Ảnh minh họa : istock

Trong số nhiều ứng dụng về chăm sóc sức khỏe của trí tuệ nhân tạo (AI) và học máy, chẩn đoán hình ảnh y tế có lẽ là lĩnh vực đang có nhiều hứa hẹn nhất.

Khi những công cụ phân tích nâng cao này được sử dụng để giải mã bản chất phức tạp của các bức ảnh X-quang, cộng hưởng từ (MRI), chụp CT và nhiều kết quả xét nghiệm khác, chúng đã chứng minh được khả năng trích xuất những thông tin có ý nghĩa để đưa ra quyết định chẩn đoán hoặc hỗ trợ chẩn đoán. Đôi khi, những kết quả này có độ chính xác cao hơn so với con người.

Tuy nhiên, đào tạo được một hệ thống AI hình ảnh chính xác và hiệu quả không phải là điều dễ dàng. Nó đòi hỏi phải có các tập dữ liệu lớn, được dán nhãn đầy đủ nhưng tương đối khó tiếp cận vì liên quan đến dữ liệu cá nhân. Có thể nói, dữ liệu ảnh y tế là một trong những thách thức mà các nhóm nghiên cứu và công ty công nghệ trong lĩnh vực này cần phải vượt qua.

Về cơ bản, tập dữ liệu đào tạo càng lớn thì độ chính xác của hệ thống AI trong việc phân loại bệnh càng cao. Câu hỏi đặt ra là, cần tối thiểu hoặc tối đa bao nhiêu ảnh y tế để một hệ thống AI có thể học tập hiệu quả?

Một nghiên cứu của TS. Synho Do và các cộng sự tại khoa X-quang, Bệnh viện Đa khoa Massachusetts và Trường Y khoa Harvard công bố năm 2015 đã xem xét vấn đề này. Họ sử dụng các bộ dữ liệu hình ảnh chụp CT về não, cổ, vai, ngực, bụng, và xương chậu chất lượng cao, tăng dần về số lượng (mỗi bộ tăng 1.000 ảnh) để đào tạo các mạng neuron tích chập và xây dựng đường cong học tập của các mạng AI đó.

Các tác giả nhận xét trong báo cáo rằng độ chính xác của AI khi phân loại ảnh tăng nhanh chóng từ kích thước huấn luyện nhỏ ban đầu đến một kích thước nhất định, nhưng không tăng đáng kể khi có kích thước dữ liệu lớn hơn. Sau đó, đường cong học tập đạt đến trạng thái ổn định và không thay đổi nhiều về độ chính xác, bất kể quy mô của dữ liệu đào tạo.

Dựa trên đường cong học tập mà kết quả nghiên cứu vạch ra, họ kết luận rằng cần bắt đầu bằng một tập dữ liệu đào tạo khoảng 5.000 ảnh cho mỗi lớp để có độ chính xác mong muốn (99,5%).

Hầu hết các cơ sở dữ liệu được sử dụng trong các nghiên cứu cho đến nay bị giới hạn ở 10.000 hình ảnh hoặc ít hơn. Các bộ dữ liệu về y tế được chia sẻ miễn phí trên Internet thường khá hạn chế, chỉ tầm 1.000 - 2.000 ảnh và các nhãn ở đó thiên về bệnh lý (có bệnh hay không có bệnh) hơn là các nhãn chỉ ra tổn thương.

Đầu năm 2021, VinBigdata lần đầu tiên mở bộ dữ liệu gần 18.000 ảnh X-quang được thu thập và gán nhãn bởi các bác sĩ chẩn đoán hình ảnh uy tín của Việt Nam cho cộng đồng.

Theo kỹ sư Nguyễn Bá Dũng, Trưởng nhóm Phân tích ảnh y tế tại Trung tâm Xử lý ảnh y tế, VinBigdata, tùy vào module AI y tế, các bộ dữ liệu tầm vài chục ngàn và có độ chính xác 90 - 95% đã có thể gọi là tối ưu cho mô hình AI.

Đồng tình với nhận định này, TS. Phạm Huy Hiệu, chuyên gia nghiên cứu thị giác máy tính tại VinBigdata, dẫn lại kết quả một bài báo liên quan đến xử lý ảnh X-quang phổi của một nhóm nghiên cứu tại Mỹ, trong đó các tác giả đưa ra con số khoảng 25.000 hình ảnh dán nhãn là đủ. Khi tăng lượng hình ảnh dán nhãn lên 30.000, 50.000 và 70.000, các tác giả nhận thấy hiệu năng của thuật toán không thay đổi đáng kể.

Về mặt lý thuyết, càng nhiều dữ liệu và nhãn gắn càng chất lượng thì càng có cơ hội xây dựng những mô hình AI mạnh mẽ. Tuy nhiên, trên thực tế, các nhóm nghiên cứu phải cân nhắc khả năng tài chính để xác định xem có thể thu được bao nhiêu dữ liệu và thuê được bao nhiêu bác sĩ dán nhãn.

Do vậy, theo TS. Phạm Huy Hiệu, nếu một mô hình chỉ sử dụng 25.000 hình ảnh đã đảm bảo đủ hiệu năng và triển khai được trong thực tế thì các nhà phát triển hoàn toàn có thể chấp nhận tập dữ liệu đó mà không nhất thiết phải tăng thêm hình ảnh.

Thông thường, để tăng số lượng và sự đa dạng của dữ liệu đào tạo đầu vào, các nhóm nghiên cứu có thể tạo thêm ảnh mới dựa trên ảnh chất lượng đã có bằng cách sử dụng những phép biến đổi ảnh như cắt ngẫu nhiên, xoay lật, dịch chuyển, thay đổi độ sáng hoặc làm sai mờ ảnh gốc.

Ngô Hà

www.khoahocphattrien.vn (ctngoc)
Most viewed news

Apple Plans to Transform Siri into a Chatbot

Apple is reportedly preparing a major upgrade for iOS 27 and macOS 27, with a strong focus on AI-powered photo editing and a redesigned Siri that behaves more like a chatbot than ever before.

YouTube Tests New AI-Powered Q&A Search Mode

YouTube is experimenting with a new AI-driven search experience designed for users who often turn to the platform for recipes, travel planning, or step-by-step tutorials. Instead of simply returning a list of videos, the new tool allows users to ask direct questions and receive structured, step-by-step answers that blend text, short clips, and full-length videos.

Russian Engineers Double CNC Processing Speed with Breakthrough Machine Design

In a major leap for modern manufacturing, researchers at Izhevsk State Technical University (IzhGTU) named after M.T. Kalashnikov have developed a new method for operating CNC machining centers that doubles productivity without requiring expensive hardware upgrades.

Xiaomi’s Next-Gen XRING O3 Chip Leak Points to Foldable Phone Debut

Xiaomi is reportedly preparing to launch its self-developed XRING O3 processor, with leaks suggesting it will debut inside the upcoming Xiaomi 17 Fold. The new chip appears in Mi Code under the codename “lhasa”, hinting at a design optimized for multitasking on foldable devices.

Resolutely promoting digital transformation, developing science and technology, and reforming administrative procedures

The Government Office issued Notice No. 167/TB-VPCP concluding the second meeting in 2026 of the Government’s Steering Committee for the development of science, technology, innovation, digital transformation, and Project 06.

Scientific and technological autonomy: From accumulated foundations to value creation

Strategic autonomy in science and technology is no longer a distant goal but has become an urgent requirement as the accumulated foundation is now sufficient and the time for action has matured. With distinctive advantages such as rare earth resources, tropical forest ecosystems, abundant fisheries, and an important geostrategic position, Vietnam has a solid basis to develop and master technologies from its internal capacity, thereby creating differentiated and sustainable competitive advantages.

Nurturing high-quality technology human resources from P-Innovation 2026

On April 3, the Posts and Telecommunications Institute of Technology held the Final Round of the P-Innovation 2026 competition, aiming to promote the development of an innovation ecosystem within the university environment, associated with training high-quality human resources and developing technology products.

Guidelines for the dedicated data transmission network serving Party and State agencies

The Minister of Science and Technology has issued Circular No. 06/2026/TT-BKHCN stipulating details and providing guidance on several provisions of Decision No. 33/2025/QĐ-TTg dated 15 September 2025 of the Prime Minister on the Dedicated Data Transmission Network serving Party and State agencies.

The development of science, technology, and innovation becomes the main driver of economic growth.

Deputy Prime Minister Nguyen Chi Dung signed Decision No. 604/QD-TTg dated 02/4/2026 approving the adjustment and supplementation of the Strategy for the development of science, technology, and innovation to 2030 (the Strategy).

Related news
CAN THO CITY DEPARTMENT OF SCIENCE AND TECHNOLOGY

Copyright @ 2021 belongs to the Can Tho City Department of Science and Technology
Address: No. 02, Ly Thuong Kiet, Ninh Kieu Ward, Can Tho City
Phone: 0292.3820674, Fax: 0292.3821471; Email: sokhcn@cantho.gov.vn
Head of the Editorial Board: Mr. Tran Dong Phuong An - Deputy Director of the
Can Tho City Department of Science and Technology

Copyright © 2021 All rights reserved | This template is made by CASTI'1987