Nhóm sinh viên dùng AI chuyển đổi thủ ngữ sang giọng nói và văn bản

0:00 / 0:00
0:00
Nhóm sinh viên dùng AI chuyển đổi thủ ngữ sang giọng nói và văn bản
SVVN - 6 sinh viên trường ĐH Bách khoa (ĐHQG TP. HCM) đã nghiên cứu chế tạo một thiết bị dùng AI để chuyển ngôn ngữ ký hiệu (thủ ngữ) sang giọng nói và văn bản, giúp người khiếm thanh và khiếm thính có thể giao tiếp dễ dàng với cộng đồng.

Nhóm gồm Nguyễn Quang Đức, Lê Đỗ Thanh Bình, Phan Quốc Long, Nguyễn Thành Lưu, Bùi Ngô Hoàng Long (cùng khóa 2018, khoa Khoa học và Kỹ thuật Máy tính) và Cao Khánh Gia Hy (khóa 2020, khoa Quản lý Công nghiệp).

Theo trưởng nhóm Nguyễn Quang Đức, nước ta hiện có khoảng 1 đến 2,5 triệu người khiếm thanh và người khiếm thính, tương đương dân số một tỉnh. Tuy nhiên có rất ít phiên dịch viên ngôn ngữ ký hiệu. Riêng tại Hà Nội hiện chỉ có 6 người đạt đến trình độ có thể dịch các lĩnh vực cho người điếc, trong cả nước có khoảng 10 người. Hiện nay, những người khiếm thanh, khiếm thính hiện vẫn đang sử dụng thủ ngữ (ngôn ngữ ký hiệu Việt Nam) để giao tiếp trong cuộc sống. Cách này có nhiều điểm hạn chế như: người tương tác buộc phải biết thủ ngữ, thời gian tương tác lâu, dễ nhầm lẫn. Đặc biệt, nhu cầu lớn nhưng nước ta rất ít các trung tâm dạy thủ ngữ.

Nhóm sinh viên dùng AI chuyển đổi thủ ngữ sang giọng nói và văn bản ảnh 1

Nhóm nghiên cứu và các giảng viên tư vấn gồm TS Quản Thành Thơ và TS Võ Thanh Hằng.

Đức cho biết, dự án “Thiết bị giao tiếp thông minh dành cho người khiếm thanh, khiếm thính – Speak your mind” (SYM) là thiết bị giao tiếp sử dụng công nghệ AI để chuyển ngôn ngữ ký hiệu sang văn bản và giọng nói phát ra từ các thiết bị điện thoại thông minh để những người khiếm thanh, khiếm thính dễ dàng trao đổi thông tin với mọi người.

Sản phẩm là một thiết bị tích hợp phần mềm thông minh nhằm hỗ trợ người khiếm thanh có thể tương tác với mọi người một cách dễ dàng và thuận tiện hơn bằng cách chuyển đổi thủ ngữ thành văn bản và giọng nói. Thiết bị bao gồm bao gồm hai thành phần: mô-đun camera được gắn trên nón và ứng dụng trên điện thoại Android.

Theo Hoàng Long, chuỗi hình ảnh thủ ngữ của người dùng được ghi nhận từ camera sẽ đi qua bộ nhận diện các điểm chốt của bàn tay MediaPipe của Facebook và được trích xuất thành các đặc trưng. Mô hình AI được huấn luyện trước bằng mạng học sâu sẽ dự đoán từ tương ứng. Kết quả này sẽ xuất ra dưới dạng văn bản và giọng nói thông qua Text2Speech API của Google.

Nhóm sinh viên dùng AI chuyển đổi thủ ngữ sang giọng nói và văn bản ảnh 2

Mô phỏng hoạt động của thiết bị qua chiếc nón.

Camera nhỏ gọn và các linh kiện điện tử được lắp đặt trong hộp nhựa gắn vào nón của người dùng. Vật liệu sử dụng cho hộp chứa linh kiện điện tử là nhựa sinh học (Polylactic Acid – PLA) không độc hại, không gây ảnh hưởng đến sức khỏe người tiêu dùng và có khả năng dễ phân hủy, thân thiện với môi trường

Khi người dùng nhấn nút khởi động của thiết bị, camera này sẽ ghi nhận và chuyển dòng hình ảnh vào ứng dụng của chúng tôi đã cài đặt sẵn trên điện thoại thông minh của người dùng. Ứng dụng sẽ sử dụng các công nghệ ở trên để chuyển dòng hình ảnh thủ ngữ thành văn bản và giọng nói tương ứng hiện lên màn hình và phát ra loa. Bằng cách này, người đối diện có thể hiểu được điều mà người khiếm thanh, khiếm thính cần truyền đạt mà không cần phải học qua thủ ngữ. Ngoài ra, ứng dụng còn có chức năng lưu lại thủ ngữ cùng với văn bản và phát âm tương ứng. Chức năng này giúp cho những người muốn học thủ ngữ có thể lưu trữ bài học một cách dễ dàng. Nói cách khác, hệ thống của chúng tôi vừa là thiết bị dịch thủ ngữ sang văn bản và lời nói, vừa là ứng dụng hỗ trợ học thủ ngữ hiệu quả.

Đối tượng khách hàng mục tiêu trước mắt của sản phẩm hướng đến trong 3 năm tới là cá nhân những người khiếm thanh, khiếm thính và phụ huynh của những người bị khiếm thanh, khiếm thính tại Việt Nam.

Theo đánh giá của nhóm tư vấn gồm TS Võ Thanh Hằng (Khoa Môi trường và tài nguyện) và TS Quản Thành Thơ (Phó Khoa Khoa học và kỹ thuật máy tính), tính độc đáo và sáng tạo của SYM còn là toàn bộ sản phẩm được mã hóa bằng tiếng Việt, dễ dàng sử dụng đối với khách hàng. Bên cạnh đó, thiết bị cũng tích hợp các ngôn ngữ khác nhau đáp ứng các đối tượng khách hàng.

Quang Đức cho biết, giá thành sản phẩm thấp cũng là một ưu thế của dự án: “Nhóm người điếc/khiếm thính có thu nhập bình quân cao nhất ở mức 3 triệu đồng một tháng, so với mức thu nhập chung trên cả nước 5,4 triệu đồng một tháng.”

Nhóm sinh viên dùng AI chuyển đổi thủ ngữ sang giọng nói và văn bản ảnh 3

Tổng quan giao diện của ứng dụng trên thiết bị Android.

Dựa vào chi phí cố định 1 sản phẩm (dao động khoảng 405.600 VND) và chi phí biến động, phân khúc thị trường cùng những dòng sản phẩm cạnh tranh cùng phân khúc, SYM định giá sản phẩm phân phối đến tay người dùng chỉ từ 800.000 – 1 triệu đồng. Một nghiên cứu tiến hành tại Hà Nội, Thái Nguyên, Nghệ An, TP.HCM và Đà Nẵng 2017 với 574 người khuyết tật chỉ ra rằng những người khuyết tật nói chung, người khiếm thanh, khiếm thính nói riêng rất khó khăn để tiếp cận các dịch vụ y tế, giáo dục, tỷ lệ thất nghiệp cao, cảm nhận bị kỳ thị ảnh hưởng đến đời sống vật chất, tinh thần.

Dự án của nhóm đang tham gia cuộc thi “Sinh viên với quyền sở hữu trí tuệ S&IP” năm 2021 với chủ đề “Từ ý tưởng đến cơ hội kinh doanh” do Trung tâm Sở hữu trí tuệ và Chuyển giao Công nghệ (IPTC) ĐHQG TP.HCM phối hợp cùng Khu Công nghệ phần mềm (Khu CNPM) ĐHQG TP. HCM và Trung tâm Nghiên cứu Đào tạo và Hỗ trợ tư vấn, Cục Sở hữu trí tuệ, Bộ KH - CN tổ chức

MỚI - NÓNG

Có thể bạn quan tâm

“Nghề mới cho thế hệ mới” - Định hướng nghề cho tương lai bắt đầu từ đâu?

“Nghề mới cho thế hệ mới” - Định hướng nghề cho tương lai bắt đầu từ đâu?

SVVN - Chương trình lớp 10 triển khai từ năm học 2022 - 2023 đánh dấu sự thay đổi lớn khi học sinh được tự lựa chọn 5 môn học để theo đuổi. Như vậy, ở tuổi mười lăm, các bạn trẻ đã cần nghiêm túc cân nhắc và đưa ra quyết định về hướng phát triển cho tương lai. Cuốn sách hướng nghiệp “Nghề mới cho thế hệ mới” sẽ giúp các em học sinh và phụ huynh định vị sở trường và đam mê, từ đó có định hướng để trau dồi kiến thức và kỹ năng thực tiễn để tiệm cận những ngành nghề “hot” hiện nay trên thị trường lao động.
Tác giả, nhà báo Nguyễn Tuấn Anh.

Tác giả, nhà báo Nguyễn Tuấn Anh: Viết sách là cách đánh bóng hình ảnh cá nhân của tác giả?

SVVN - Cùng trò chuyện với tác giả, nhà báo Nguyễn Tuấn Anh về xu hướng các tác giả trẻ "tay ngang" xuất bản sách ngày càng nhiều hiện nay. Anh Nguyễn Tuấn Anh đang là Trưởng ban Sinh Viên, báo Tiền Phong, chuyên gia tư vấn xuất bản sách nhiều kinh nghiệm, tác giả sách “6 bước tự xuất bản một cuốn sách”.
'Thánh parody' Thiên An: 'Những sản phẩm của mình không theo hướng câu view'

'Thánh parody' Thiên An: 'Những sản phẩm của mình không theo hướng câu view'

SVVN - Sở hữu kênh YouTube với gần 4 triệu subscribers, cán mốc gần 1,5 tỷ lượt xem, Thiên An là một trong những nhà sáng tạo nội dung đạt thành công đáng mong ước. Giữa cuộc 'chạy đua' view, YouTuber này chú trọng hơn những sản phẩm không theo hướng 'giật tít câu view' mà muốn đề cao tính thời sự, những bài học trong sản phẩm của mình.