Ngôn ngữ học ngữ liệu corpus linguistics là gì năm 2024

  • 1. ỨNG DỤNG NGỮ LIỆU ĐIỆN TỬ TRONG VIỆC GIẢNG DẠY TIẾNG VIỆT CHO NGƯỜI NƯỚC NGOÀI Lê Lâm Thi Trường Đại học Ngoại ngữ, Đại học Huế Tóm tắt Ngày nay, cùng với sự phát triển của khoa học kỹ thuật, việc nghiên cứu và giảng dạy ngôn ngữ cũng có những bước tiến mới. Những nghiên cứu với những thao tác thủ công, dựa trên lý luận dần nhường chỗ cho những nghiên cứu với thao tác tự động, dựa trên kinh nghiệm bằng cách khai thác các kho tài nguyên ngôn ngữ hay còn gọi là kho ngữ liệu điện tử (electronic corpus/e-corpus). Từ các kho ngữ liệu điện tử, các nhà nghiên cứu có thể khai thác để phục vụ nhiều mục đích khác nhau ở nhiều lĩnh vực khác nhau như tìm kiếm, khảo sát, thống kê trong nghiên cứu ngôn ngữ, dịch máy tự động trong hệ thống dịch máy song ngữ, dẫn chứng cách dùng từ tùy thuộc vào ngữ cảnh trong giảng dạy ngôn ngữ, tìm kiếm, phân loại phản hồi của khách hàng về sản phẩm trong kinh tế thương mại…Trong phạm vi bài báo cáo này, tác giả sẽ tập trung phân tích những ứng dụng của ngữ liệu điện tử trong việc giảng dạy tiếng Việt cho người nước ngoài. Kết quả nghiên cứu sẽ chỉ ra một số địa chỉ để khai thác các nguồn ngữ liệu điện tử và ứng dụng chúng trong việc biên soạn giáo trình giảng dạy, giảng dạy ngữ âm, giảng dạy từ vựng và giảng dạy ngữ pháp tiếng Việt cho người nước ngoài. Từ khóa: Ngữ liệu điện tử, tiếng Việt, người nước ngoài 1. Mở đầu Trong những năm cuối thế kỷ XX và những năm đầu thế kỷ XXI, cùng với sự ra đời và phát triển của khoa học máy tính, hướng nghiên cứu liên ngành mới giữa khoa học máy tính và các ngành khoa học khác đã được hình thành. Những nghiên cứu với những thao tác thủ công, dựa trên lý luận dần nhường chỗ cho những nghiên cứu với thao tác tự động, dựa trên kinh nghiệm bằng cách khai thác các kho tài nguyên ngôn ngữ hay còn gọi là kho ngữ liệu điện tử (electronic corpus/e-corpus). Từ các kho ngữ liệu điện tử, các nhà nghiên cứu có thể khai thác để phục vụ nhiều mục đích khác nhau ở nhiều lĩnh vực khác nhau như tìm kiếm, khảo sát, thống kê trong nghiên cứu ngôn ngữ, dịch máy tự động trong hệ thống dịch máy song ngữ, dẫn chứng cách dùng từ tùy thuộc vào ngữ cảnh trong giảng dạy ngôn ngữ, tìm kiếm, phân loại phản hồi của khách hàng về sản phẩm trong kinh tế thương mại… Trong lĩnh vực ngôn ngữ học, ngữ liệu và sử dụng ngữ liệu bắt đầu được chú ý khi các nhà ngôn ngữ học nhận thấy rằng cần đánh giá đúng vai trò của các đơn vị từ vựng và sự diễn đạt nghĩa của chúng trong những bối cảnh sử dụng khác nhau. Nhiều người nghiệm ra rằng phương pháp phân tích theo trực giác cá nhân đã không còn độ tin cậy và cho ra kết quả thuyết phục. Kết quả là những kho ngữ liệu ngày càng trở nên hữu ích cho việc nghiên cứu và giảng dạy ngôn ngữ. Thuật ngữ “ngôn ngữ học ngữ liệu” hay “ngôn ngữ học khối liệu” (corpus linguistics) hẳn không còn xa lạ với những nhà nghiên cứu Việt ngữ học. Là một phân ngành của ngôn ngữ học ứng dụng, ngôn ngữ học ngữ liệu nghiên cứu các hiện tượng ngôn ngữ có thực dưới dạng văn bản và
  • 2. qua các khối ngữ liệu với việc sử dụng công nghệ máy tính hiện đại. Ngày nay, ngôn ngữ học ngữ liệu phát triển rất nhanh và mạnh mẽ theo đà phát triển của khoa học máy tính và kĩ thuật số. Ở Việt Nam đã có nhiều bài viết nói về tầm quan trọng của kho ngữ liệu và ngôn ngữ học ngữ liệu. Tiêu biểu có thể kể đến là bài nghiên cứu của tác giả Đào Hồng Thu (2007) Ngôn ngữ học khối liệu (Corpus) (Phần 1), bài viết Ngôn ngữ học máy tính và việc xây dựng từ điển của hai tác giả Đinh Điền - Hồ Hải Thụy (2011), Sách chuyên khảo Ngôn ngữ học ngữ liệu của tác giả Đinh Điền (2018),… Tuy nhiên, đến nay vẫn chưa có nhiều bài nghiên cứu đi sâu vào việc khai thác và ứng dụng các nguồn ngữ liệu điện tử trong việc giảng dạy tiếng Việt cho người nước ngoài. Nhận thấy kho ngữ liệu ngày càng trở nên hữu ích cho nghiên cứu và giảng dạy ngôn ngữ, đặc biệt là giảng dạy tiếng Việt cho người nước ngoài, bài báo sẽ giới thiệu khái quát về khái niệm kho ngữ liệu và ngôn ngữ học ngữ liệu, đồng thời cũng cố gắng trình bày các nguồn khai thác và cách thức ứng dụng các kho ngữ liệu điện tử trong việc biên soạn giáo trình giảng dạy, giảng dạy ngữ âm, giảng dạy từ vựng và giảng dạy ngữ pháp tiếng Việt cho người nước ngoài. 2. Cơ sở lý luận 2.1. Ngữ liệu điện tử Việc xây dựng các ngân hàng dữ liệu (databank hay database) trên Internet đã có từ rất lâu. Những ngân hàng ngữ liệu này có thể chứa rất nhiều nội dung khác nhau như hình ảnh, âm thanh, văn bản, bảng biểu, lược đồ, mô hình… Những dữ liệu có chất liệu ngôn ngữ thường được tổ chức thành một loại riêng, gọi là corpus (kho ngữ liệu hay khối ngữ liệu). Một tập hợp gồm nhiều corpus gọi là corpora hay corpuses (số nhiều của corpus). Thuật ngữ “ngữ liệu” được tạm dịch từ thuật ngữ tiếng Anh “corpus” có gốc từ tiếng Latin với nghĩa là “thân thể” (body). Vì vậy các từ “corps” (“thân thể” trong tiếng Pháp, “quân đoàn”, “đoàn” trong tiếng Anh) hay từ “corpse” (“tử thi” trong tiếng Anh) cũng là những từ dẫn xuất từ gốc “corpus” này. (Đinh Điền, 2018, tr.1). Có nhiều định nghĩa khác nhau về “ngữ liệu”. Theo Wikipedia, một kho ngữ liệu (corpus hoặc text corpus) được hiểu là một tập hợp đủ lớn các văn bản có cấu trúc đã qua chế biến, và thường được lưu trữ ở dạng điện tử. Người ta sử dụng kho ngữ liệu để phục vụ cho việc phân tích thống kê, xác định tính đúng đắn của một giả thuyết, kiểm tra sự cố hoặc tính hợp lệ của các quy tắc ngôn ngữ trong một bối cảnh đặc thù. Từ điển Oxford Advanced Learner’s Dictionary with Vietnamese Translation (2015) lại định nghĩa “corpus” là “a collection of written and spoken texts” và được dịch là “kho ngữ liệu (nói/viết)”. Theo nhà nghiên cứu Sinclair (1991) thì “ngữ liệu” là “tập hợp các mẫu văn bản được lựa chọn một cách có hệ thống theo những tiêu chí nhất định nhằm đại diện cho một thể loại ngôn ngữ cụ thể với mục đích nghiên cứu ngôn ngữ.”… Trong thời đại khoa học máy tính phát triển với trình độ cao như hiện nay, các kho ngữ liệu thường ngầm định là kho ngữ liệu dạng điện tử nên thuật ngữ “corpus” cũng được hiểu là ngữ liệu điện tử.
  • 3. liệu điện tử chúng tôi muốn đề cập ở đây được hiểu là tập hợp văn bản đơn ngữ, đa ngữ hay song ngữ (gồm các cặp văn bản đã được dịch thủ công, dịch tương ứng 1-1 về mặt ngữ nghĩa) và phù hợp với lĩnh vực, thể loại, niên đại mà ta cần nghiên cứu. Một kho ngữ liệu có thể chứa văn bản bằng một thứ tiếng đơn lẻ – gọi là kho ngữ liệu đơn ngữ (monolingual corpus), hoặc văn bản bằng nhiều thứ tiếng – gọi là kho ngữ liệu đa ngữ (multilingual corpus). “Các kho ngữ liệu đa ngữ được định dạng đặc thù để có thể so sánh cạnh nhau (side-by-side) được gọi là kho ngữ liệu song song có gióng hàng (aligned parallel corpora). Sự gióng hàng có thể ở các mức như: các từ được gióng hàng từng đôi một (từ của ngôn ngữ A là từ dịch của ngôn ngữ B); các ngữ được gióng hàng từng đôi một (ngữ của ngôn ngữ A là ngữ dịch của ngôn ngữ B); các câu được gióng hàng từng đôi một (câu của ngôn ngữ A là câu dịch của ngôn ngữ B), v.v”. (Vũ Xuân Lương, 2013) Ngoài ra, dựa vào cách xây dựng ngữ liệu, người ta thường chia ngữ liệu thành các loại sau: Ngữ liệu thô (raw corpus): chỉ là tập hợp các dữ liệu mà không có xử lý gì thêm; Ngữ liệu được gắn nhãn (tagged corpus): ngữ liệu trong corpus đã được xử lý như phân tích từ, phân tích cú pháp, gắn nhãn từ loại, … Chẳng hạn, các từ trong cụm từ sẽ được chú giải thông tin về từ loại – gọi là gắn nhãn từ loại (part-of-speech tagging, viết tắt: POS-tagging). Các cụm từ trong câu sẽ được phân tách và gắn nhãn – gọi là phân đoạn cụm từ (chunking). Với các ngôn ngữ đơn lập như tiếng Việt, do ranh giới của từ không được xác định rõ ràng bằng hình thức, nên ngữ liệu thường phải trải qua quá trình xác định đơn vị từ và gắn nhãn khu biệt – gọi là phân đoạn từ (word segmentation), v.v. Trên thế giới hiện nay, một số kho ngữ liệu tiếng Anh nổi tiếng có thể kể đến là Kho ngữ liệu Brown (Brown University Corpus) chứa khoảng một triệu đơn vị từ và cụm từ sử dụng, được đánh dấu theo dạng hình thái từ, kho ngữ liệu Lancaster/Oslo-Bergen (Lancaster/Oslo-Bergen Corpus (LOB)) – bao gồm khoảng một triệu đơn vị từ và cụm từ sử dụng. Kho ngữ liệu này này chứa hai khối liệu con là khối liệu Leeds-Lancaster Treebank và khối liệu Lancaster Parsed – Lancaster Parsed Corpus. Hai khối liệu con được đánh dấu theo dạng cú pháp; Kho ngữ liệu Anh Quốc British National Corpus (BNC) là kho ngữ liệu tiếng Anh có dung lượng lớn nhất hiện nay. Kho ngữ liệu này chứa 100 triệu đơn vị từ và cụm từ sử dụng. Nó được xây dựng vào những năm 90, thế kỷ XX, bao gồm khoảng 90% đơn vị trích rút từ các văn bản và 10% từ ngôn bản. Khối liệu được đánh dấu theo dạng hình thái từ. Và gần đây là sự xuất hiện của Sketch Engine với một bộ ngữ liệu đồ sộ gồm hơn 130 corpus (tính đến tháng 7 năm 2012), trong đó có Kho ngữ liệu BNC, và đặc biệt là Kho ngữ liệu tiếng Việt (VietnameseWaC)... 2.2. Ngôn ngữ học ngữ liệu (Corpus linguistics) Ngôn ngữ học ngữ liệu hay còn gọi là ngôn ngữ học khối liệu là một phân ngành của ngôn ngữ học ứng dụng, được hình thành từ những năm nửa cuối thế kỷ XX và đầu thế kỷ XXI nhằm đáp ứng nhu cầu nghiên cứu ngôn ngữ trong thời đại công nghệ máy tính và nhu cầu dịch tự động phát triển không ngừng. Đây là ngành khoa học nghiên cứu ngôn ngữ trên cơ sở kĩ thuật điện tử số, là khoa học nghiên cứu xây dựng các khối liệu ngôn ngữ, nghiên cứu các phương pháp xử lý dữ liệu và sử dụng ngữ liệu. Việc sử dụng các thí dụ thực tế của văn bản trong nghiên cứu ngôn
  • 4. là một vấn đề mới và được khai thác từ rất lâu. Tuy nhiên, nhờ vào khả năng to lớn trong việc xử lý ngôn ngữ tự nhiên với máy tính, ngôn ngữ học ngữ liệu đã không ngừng phát triển, trở thành một phân ngành nghiên cứu ngôn ngữ khá phổ biến hiện nay. “Ngôn ngữ học ngữ liệu (corpus linguistics) là một nhánh của ngành ngôn ngữ học liên quan tới kĩ thuật xử lý ngữ liệu có dùng máy tính, áp dụng để giải quyết những vấn đề được mô tả với quy mô rộng lớn.” (R. R. K Hartmann and Gregory James, 1998, tr. 31). “Với tư cách là một chuyên ngành mới của Ngôn ngữ học, ngôn ngữ học ngữ liệu chuyên nghiên cứu về cách thức thu thập ngữ liệu, các tiêu chí chọn lựa ngữ liệu (để đảm bảo tính cân bằng, tính đại diện…), cách thức chuẩn hóa, cách thức xử lý ngữ liệu (gán nhãn ngôn ngữ) sao cho chúng ta có thể khai thác kho ngữ liệu đó một cách hiệu quả nhằm phục vụ giải quyết những vấn đề liên quan đến ngôn ngữ.” (Đinh Điền, 2018, tr.5) Theo nhà ngôn ngữ học Đào Hồng Thu, ngôn ngữ học ngữ liệu có thể được hiểu là khoa học nghiên cứu về “thế giới thực” văn bản, thể hiện trong corpora. Corpora được sử dụng trong các nội dung sau: Nghiên cứu ngôn ngữ thực tế: mô tả cách tiếp cận, nghiên cứu về hiệu suất sử dụng ngôn ngữ, thực nghiệm ngôn ngữ; Ngôn ngữ học ứng dụng: cung cấp từ điển đơn ngữ, từ điển thuật ngữ, từ điển song ngữ; Nghiên cứu ngôn ngữ: xác minh giả thuyết, khám phá tri thức (từ vựng, hình thái học, cú pháp,...); Nghiên cứu dịch: các tương đương dịch của cùng một nguồn và ngữ cảnh của chúng, các bộ nhớ dịch, các bản dịch được máy hỗ trợ; Học tiếng: thí dụ thực tế, “giảng dạy bằng thành ngữ”, phát triển chương trình giảng dạy… (Đào Hồng Thu, 1999). 3. Phương pháp nghiên cứu Trong quá trình nghiên cứu, chúng tôi đã tiến hành khảo sát các kho ngữ liệu tiếng Việt đơn ngữ và song ngữ được đăng tải trên Internet và những kho ngữ liệu của Trung tâm Ngôn ngữ học tính toán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh. Qua tìm hiểu, phân tích các kho ngữ liệu, chúng tôi phân loại, lựa chọn ra được những kho ngữ liệu phục vụ cho việc giảng dạy tiếng Việt cho người nước ngoài. Chúng tôi sử dụng phương pháp miêu tả và phân tích những ứng dụng của các kho ngữ liệu này vào việc giảng dạy tiếng Việt trên nhiều lĩnh vực như biên soạn giáo trình giảng dạy, giảng dạy ngữ âm, từ vựng, ngữ pháp tiếng Việt. Quy trình nghiên cứu của chúng tôi gồm 3 bước: 1. Thống kê các kho ngữ liệu có thể dùng để phục vụ cho việc giảng dạy tiếng Việt cho người nước ngoài. 2. Giới thiệu một số ứng dụng của kho ngữ liệu trong việc giảng dạy tiếng Việt cho người nước ngoài. 3.Đề xuất một số giải pháp ứng dụng các kho ngữ liệu hiệu quả hơn trong việc giảng dạy tiếng Việt. 4. Kết quả nghiên cứu
  • 5. ngữ liệu điện tử có thể khai thác và ứng dụng trong việc giảng dạy tiếng Việt cho người nước ngoài Từ khi khái niệm “kho ngữ liệu” được biết đến đầu tiên vào năm 1961 đến nay đã và đang có rất nhiều kiểu ngữ liệu điện tử được xây dựng và phát triển tùy vào những mục đích khác nhau. Các khối liệu này đã và đang đóng vai trò rất quan quan trọng trong nhiều lĩnh vực khác nhau trong đó có lĩnh vực ngữ học ứng dụng. Đối với việc giảng dạy tiếng Việt cho người nước ngoài, chúng tôi nhận thấy nếu có thể khai thác các kho ngữ liệu điện tử dưới đây thì việc giảng dạy sẽ đạt hiệu quả hơn rất nhiều. Bảng 1: Danh sách các khối ngữ liệu có thể khai thác và ứng dụng trong việc giảng dạy tiếng Việt cho người nước ngoài STT Khối ngữ liệu Nội dung Đơn vị quản lý 1 Vietlex 150 triệu âm tiết tiếng Việt Trung tâm Từ điển học (VIETLEX) 2 Cơ sở dữ liệu điện tử 150.000 biểu ghi Cục thông tin khoa học và công nghệ quốc gia Việt Nam 3 Bách khoa toàn thư Việt Nam trực tuyến 40.000 mục từ Viện từ điển học và Bách khoa thư 4 Kho tài nguyên tiếng Việt VLSP 35.000 từ có chú thích Trung tâm Ngôn ngữ học tính toán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố HCM 5 Kho tài nguyên tiếng Việt CLC Từ điển đơn ngữ 40.000 từ Từ điển song ngữ Từ điển chuyên ngành Trung tâm Ngôn ngữ học tính toán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố HCM 6 VTB (Vietnamese Tree Bank) 300 câu có chú thích ranh giới từ Trung tâm Ngôn ngữ học tính toán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố HCM 7 Vcor (Vietnamese corpus) 17 triệu câu, 346 triệu từ Trung tâm Ngôn ngữ học tính toán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố HCM 8 VietnameseWaC 100 triệu từ được gắn thẻ Sketch Engine 1. Kho ngữ liệu Vietlex: http://www.vietlex.com/. Đây là kho ngữ liệu được xây dựng bởi Trung tâm Từ điển học (VIETLEX) là một tổ chức Khoa học và Công nghệ phi chính phủ, do cố GS Hoàng Phê sáng lập năm 1993. Tại Việt Nam, VIETLEX là tổ chức đi đầu trong việc xây
  • 6. liệu tiếng Việt (Vietnamese Corpus), phục vụ cho việc biên soạn từ điển nói riêng và xử lý ngôn ngữ tự nhiên nói chung. Kho ngữ liệu tiếng Việt của VIETLEX hiện chứa khoảng 150 triệu âm tiết, bắt đầu xây dựng từ năm 1997 và liên tục được cập nhật theo thời gian. 2. Cơ sở dữ liệu điện tử của Cục thông tin khoa học và công nghệ quốc gia Việt Nam : http://lhtv.vista.vn hoặc http://db.vista.gov.vn/. Đây là cơ sở dữ liệu toàn văn về tài liệu KH&CN Việt Nam, do Cục Thông tin KH&CN Quốc gia xây dựng và cập nhật từ năm 1987. Hiện tại, cơ sở dữ liệu điện tử này có 150.000 biểu ghi, trong đó 85.000 có đính kèm tài liệu gốc định dạng tệp PDF. STD được cập nhật hàng tuần. Trung bình mỗi năm cập nhật thêm khoảng 11.000 tài liệu mới. Trang cơ sở dữ liệu điện tử này gồm nhiều nhóm dữ liệu, nổi bật nhất có thể kể đến: - Cơ sở dữ liệu công bố kết quả nghiên cứu khoa học công nghệ Việt Nam: Đây là cơ sở dữ liệu thư mục lớn nhất Việt Nam về các báo cáo kết quả của các đề tài nghiên cứu KH&CN các cấp đăng ký và giao nộp tại Cục Thông tin KH&CN Quốc gia bao gồm hơn 10.000 mô tả thư mục và tóm tắt; được cập nhật khoảng 600 báo cáo/năm; - Proquest Central: bộ cơ sở dữ liệu lớn, bao gồm 25 cơ sở dữ liệu đa ngành, xử lý trên 19.000 tạp chí, trong đó có hơn 13.000 tạp chí toàn văn. Dữ liệu của Proquest Central bao quát trên 160 lĩnh vực khác nhau thuộc các ngành khoa học nồng cốt như Kính tế, Y học, Công nghệ, Khoa học xã hội. Ngoài ra Proquest còn cung cấp bản toàn văn của 56.000 luận văn trong các lĩnh vực tâm lý học, kinh doanh, khoa học vật lý, y tế, giáo dục … - Science Direct: nguồn thông tin thiết yếu đối với công tác nghiên cứu và đào tạo. Đây là bộ sưu tập toàn văn bao gồm các tài liệu khoa học nồng cốt với nhiều tạp chí có chỉ số ảnh hưởng cao. Science Direct hiện nay có hơn 9 triệu bài viết toàn văn bao quát trên nhiều lĩnh vực về khoa học, công nghệ. 3. Bách khoa toàn thư Việt Nam trực tuyến của Viện từ điển học và Bách khoa thư, Viện Hàn Lâm khoa học xã hội Việt Nam http://bachkhoatoanthu.vass.gov.vn/Pages/trangchu.aspx. Từ điển bách khoa Việt Nam” là bộ từ điển bách khoa tổng hợp nhiều chuyên ngành. Những kiến thức chuyên ngành trong từ điển có tính chất thông dụng, phù hợp với đông đảo bạn đọc. Nội dung chính của Bách khoa thư là giới thiệu những tri thức cơ bản nhất về đất nước con người, lịch sử xã hội, văn hóa, khoa học, công nghệ Việt Nam xưa và nay; giới thiệu những tri thức văn hóa, khoa học và kỹ thuật của thế giới, chú ý những tri thức cần cho độc giả Việt Nam. 4. Kho tài nguyên cho tiếng Việt VLSP: Đây là kho tài nguyên gồm các từ điển (khoảng 35.000 từ), ngữ liệu đơn ngữ có chú thích (khoảng 10.000 câu có chú thích cú pháp), ngữ liệu song ngữ Anh – Việt (khoảng 100.000 cặp câu) và một số công cụ phân tích tiếng Việt tự động. 5. Kho tài nguyên tiếng Việt CLC bao gồm các kho ngữ liệu điện tử song ngữ do Trung tâm ngôn ngữ học tính toán, trường Đại học Quốc gia, Thành phố Hồ Chí Minh xây dựng. Hiện tại, Trung tâm có thể cung cấp những khối ngữ liệu điện tử song ngữ Anh - Việt, Pháp – Việt, Hàn – Việt, Lào – Việt, Việt – Trung. Các khối ngữ liệu này chạy trên phần mềm CLC Parallel Corpus 2.0 với nhiều chức năng như miêu tả việc sử dụng từ trong văn cảnh song ngữ, đối chiếu cấu trúc, trật tự từ trong câu… Kho tài nguyên này còn bao gồm các tài nguyên ngôn ngữ liên
  • 7. giảng dạy tiếng Việt như Danh sách 3000 từ phổ biến nhất trong tiếng Việt, Từ điển tần số tiếng Việt đầy đủ ( hơn 40.000 mục từ), Từ điển âm thanh của tất cả các âm tiết tiếng Việt phát âm chuẩn (giọng người) và Từ điển âm thanh của tất cả các từ có trong từ điển Tiếng Việt phổ thông (Hoàng Phê) chủ biên phát âm chuẩn (giọng người). Các tài nguyên ngôn ngữ này hiện đang có ở Trung tâm ngôn ngữ học tính toán, trường Đại học Quốc gia, Thành phố Hồ Chí Minh. 6. Ngữ liệu đơn ngữ có chú thích VTB là ngữ liệu gồm 300 câu có chú thích ranh giới từ, từ loại và nhãn thực thể thuộc nhiều lĩnh vực khác nhau. Nguồn ngữ liệu thô được thu thập từ các trang báo điện tử từ năm 2000 đến năm 2010 và được chú thích thủ công bởi các nhân viên và cộng tác viên ngôn ngữ học của Trung tâm dữ liệu Đa ngữ Kim từ điển. 7. Ngữ liệu Vcor là ngữ liệu đơn ngữ tiếng Việt (Vietnamese corpus) gồm hơn 17 triệu câu với hơn 346 triệu từ và 443 triệu chữ (tiếng/âm tiết) thuộc 42 lĩnh vực và gom thành 18 chủ đề (khoa học, kinh tế, văn hóa, xã hội…). Ngữ liệu này được thu thập tự động từ các trang báo điện tử từ năm 2000 đến năm 2010. 8. Khối ngữ liệu tiếng Việt VietnameseWaC https://www.sketchengine.eu/: kho ngữ liệu tiếng Việt gồm 100 triệu từ được thu thập từ các văn bản trên Internet. Khối ngữ liệu này là một phần của kho ngữ liệu đồ sộ Sketch Engine. Đây là khối ngữ liệu có rất nhiều chức năng như Word Sketch (tìm kiếm những cụm từ có chứa từ cần tìm), Thesaurus (tìm kiếm từ đồng nghĩa hoặc có liên quan với từ cần tìm), Concordance (liệt kê những ngữ cảnh có chứa từ cần tìm)… 4.2. Ứng dụng ngữ liệu điện tử trong việc giảng dạy tiếng Việt cho người nước ngoài Từ khi ra đời cho đến nay, ngữ liệu điện tử đã được ứng dụng trong rất nhiều lĩnh vực khác nhau, trong đó có lĩnh vực giáo dục. Việc khai thác và ứng dụng ngữ liệu điện tử trong giảng dạy nói chung và giảng dạy ngoại ngữ nói riêng là hết sức cần thiết. Việc ứng dụng ngữ liệu điện tử trong giảng dạy tiếng Việt cho người nước ngoài có thể được thực hiện trên các lĩnh vực sau đây: * Ứng dụng ngữ liệu điện tử trong việc biên soạn giáo trình tiếng Việt cho người nước ngoài Hiện nay, tiếng Việt đã trở thành một trong 20 ngôn ngữ phổ biến nhất thế giới và ngày càng có nhiều người nước ngoài học tập, nghiên cứu tiếng Việt. Chính vì thế việc nghiên cứu và giảng dạy tiếng Việt cho người nước ngoài cần phải có những bước đột phá mới theo những hướng tiếp cận mới, phương pháp luận mới. Một trong những giảng pháp nhằm nâng cao chất lượng đào tạo tiếng Việt cho người nước ngoài là phải xây dựng được những bộ giáo trình có chất lượng. Để làm được điều này, chúng ta cần quan tâm đến rất nhiều yếu tố và ứng dụng ngữ liệu điện tử trong biên soạn giáo trình giảng dạy tiếng Việt là một trong số đó. Khai thác ngữ liệu điện tử sẽ giúp ích rất nhiều cho người biên soạn giáo trình tiếng Việt trong những công việc sau: - Tìm kiếm ngữ liệu các bài đọc thuộc nhiều chủ đề khác nhau. Việc tìm ngữ liệu cho bài đọc sẽ dễ dàng hơn rất nhiều nếu chúng ta khai thác các kho ngữ liệu. Các kho ngữ liệu thô sẽ rất hữu ích cho việc tìm kiếm này vì thường chúng được sắp xếp theo những chủ đề quen thuộc
  • 8. hàng ngày và cả những chủ đề mang tính hàn lâm. Với kho dữ liệu điện tử của Cục thông tin khoa học và công nghệ quốc gia Việt Nam và từ điển Bách khoa toàn thư Việt Nam trực tuyến của Viện từ điển học và Bách khoa thư, chúng ta có thể tìm kiếm những bài đọc với nhiều chủ đề và thể loại khác nhau hoặc chỉ cần đánh từ khóa sẽ tìm thấy những bài viết liên quan. - Xác định độ khó của bài đọc để biên soạn giáo trình theo từng cấp độ. Để biên soạn giáo trình phù hợp với từng cấp độ, chúng ta cần xem xét đến độ khó của tất cả các từ, các câu và toàn bộ văn bản được sử dụng trong giáo trình. “Độ khó của văn bản là tập hợp tất cả các yếu tố nội tại của văn bản khiến cho văn bản dễ hay khó tiếp thu bởi đa số người đọc ở một cấp độ cụ thể. Độ khó của văn bản phụ thuộc vào độ phổ biến của từ vựng (tuần suất), độ phức tạp của cấu trúc câu (số lượng mệnh đề, chiều dài câu) và tổ chức văn bản (liên kết văn bản).” [Đinh Điền, 2018, tr.263]. Vì vậy trong việc biên soạn giáo trình, chúng ta cần hết sức lưu ý đến độ khó của văn bản cũng như bài tập, câu hỏi đi kèm. Tuy nhiên, độ khó không thể xác định theo cảm quan, cảm tính của người biên soạn vì sẽ có trường hợp người biên soạn cảm thấy dễ nhưng người học ở trình độ thấp chưa chắc cảm thấy như thế. Chính vì vậy để xác định độ khó của văn bản cần có sự góp sức của khoa học máy tính. Chúng ta có thể xây dựng sẵn các kho ngữ liệu bài đọc thuộc nhiều chủ đề khác nhau, sử dụng máy tính để phân loại tự động theo các mức độ khó khác nhau để khi cần sử dụng biên soạn giáo trình cho trình độ nào, chúng ta chỉ sử dụng những bài đọc trong kho ngữ liệu đó. - Xác định độ khó của câu hỏi, bài tập, yêu cầu: Đối với các câu hỏi, phần bài tập cũng cần phải xác định độ khó. Việc lựa chọn ngữ liệu để soạn thảo câu hỏi đặc biệt là câu hỏi trắc nghiệm hoàn toàn phụ thuộc vào người soạn mà không có những tiêu chí thống nhất để đảm bảo rằng độ khó giữa các ngữ liệu nền được cung cấp trong các câu hỏi ở trình độ tương đương là thực sự tương đương. Thay vì hoàn toàn phụ thuộc vào phán đoán của từng người ra đề theo sử dụng phương pháp thủ công (tức mỗi người soạn sẽ phải vừa đọc tư liệu và phán đoán sự phù hợp của từng đoạn ngữ liệu đối với mục đích kiểm tra), rất cần có những tiêu chí khách quan, đơn giản dễ sử dụng để hỗ trợ người soạn trong việc lựa chọn ngữ liệu. Người biên soạn cũng có thể khai thác những tài nguyên của Kho tài nguyên tiếng Việt CLC với từ điển đơn ngữ tiếng Việt với nhiều trường thông tin như hình thái, từ loại, định nghĩa, ví dụ và tần số sử dụng để xây dựng và lựa chọn những bài tập phù hợp với từng trình độ. Những kho ngữ liệu song ngữ cũng rất hữu ích trong việc xây dựng những bài tập dịch theo từng cấp độ… * Ứng dụng ngữ liệu điện tử trong việc giảng dạy ngữ âm, từ vựng, ngữ pháp tiếng Việt Trong quá trình học tiếng Việt, khó khăn đầu tiên mà nhiều người học gặp phải có lẽ là việc phát âm đúng các thanh điệu khác nhau do có thể trong tiếng mẹ đẻ của họ không có thanh điệu. Chính vì vậy nên lỗi phát âm về thanh điệu tiếng Việt là một trong những lỗi rất phổ biến của người học. Trong quá trình giảng dạy đòi hỏi người dạy phải luyện tập phát âm thanh điệu cho học viên nhiều hơn. Với việc khai thác Từ điển âm thanh của tất cả các âm tiết tiếng Việt phát âm chuẩn (giọng người) và Từ điển âm thanh của tất cả các từ có trong từ điển Tiếng Việt phổ thông (Hoàng Phê) chủ biên phát âm chuẩn (giọng người) trong kho tài nguyên tiếng Việt CLC,
  • 9. thể giúp người học phát âm chuẩn hơn nhờ vào kho dữ liệu âm thanh phát âm chuẩn đã thu sẵn. Những dữ liệu âm thanh này cũng dễ dàng sử dụng trong các bài học và bài tập online, giúp sinh viên luyện tập ở mọi lúc, mọi nơi không chỉ trong giờ học ở lớp. Ngoài ra, dữ liệu âm thanh này còn được kết hợp với những hình ảnh hoặc hoạt hình mô phỏng khẩu hình miệng, phương thức cấu âm nên rất thuận lợi cho người học. Hơn nữa, nhờ vào kho ngữ liệu điện tử, người dạy, người dạy có thể lựa chọn ví dụ theo độ phổ biến của âm tiết để giới thiệu cho người học theo từng trình độ. Từ kho ngữ liệu Vcor, người dạy có thể rút ra được danh sách 700 âm tiết thông dụng nhất trong tiếng Việt (chiếm 80% lượt âm tiết xuất hiện trong thực tế) và tần suất sử dụng của chúng. Khi ứng dụng vào giảng dạy, người học cần lựa chọn các âm tiết có tần số sử dụng cao nhất để người học dễ nắm bắt và thực hành. Đối với việc giảng dạy từ vựng tiếng Việt, khai thác và ứng dụng ngữ liệu điện tử là rất cần thiết. Những ứng dụng ngữ liệu trong việc giảng dạy từ vựng có thể kể đến như sau: - Lựa chọn từ vựng hoặc chọn nghĩa thông dụng phù hợp để giảng dạy. Một trong những yêu cầu của việc giảng dạy từ vựng là người học phải xác định được vốn từ vựng cơ bản phù hợp với người học trong quá trình giảng dạy. Khai thác các kho ngữ liệu Vcor và VTB, người dạy có thể rút ra được danh sách các từ được sử dụng theo tần số từ cao đến thấp từ đó nắm được các từ thông dụng nhất trong tiếng Việt. Từ kho VCor, chúng ta có thể thống kê để rút ra từ điển tần số tiếng và từ điển tần số từ. Khi lựa chọn từ để giới thiệu trong từng chủ đề, người học có thể lựa chọn từ ngữ cho phù hợp với từng trình độ của học viên. Tuy nhiên có một vấn đề đặt ra là trong tiếng Việt có rất nhiều hiện tượng đồng âm nên người dạy cũng phải lưu ý chọn nghĩa phù hợp với người học chứ không phải giới thiệu các từ đồng âm hay tất cả các nghĩa của cùng một từ. Chẳng hạn như từ “tốt” có thể là tính từ (tốt đẹp) nhưng cũng có thể là danh từ (con tốt), từ “là” có thể là hệ từ cũng có thể là động từ (là quần áo), từ “của” có thể là giới từ (của tôi) hoặc có thể là danh từ “của cải”. Người dạy có thể căn cứ vào danh sách các từ thông dụng rút ra từ kết quả thống kê tần suất từ theo từ loại trong kho VTB để giải quyết vấn đề này. Với những trường hợp nêu trên, chúng ta nhận thấy từ “tốt” xuất hiện 3624 lần với tư cách là tính từ (tốt đẹp) và 2 lần với tư cách là danh từ (con tốt), tương tự hệ từ “là” xuất hiện cao hơn nhiều lần so với động từ “là”(là áo quần), giới từ “của” cũng xuất hiện cao hơn nhiều so với danh từ “của” (của cải)…Vì vậy ở trình độ thấp, người dạy chỉ nên dạy từ tính từ “tốt”, hệ từ “là” và giới từ “của” và ở trình độ cao hơn người dạy có thể đề cập đến các từ trên với cách dùng là các từ loại khác. Sau đây là bảng thống kê tần suất sử dụng từ tiếng Việt trong kho ngữ liệu VTB. Bảng 2: Thống kê tần suất từ tiếng Việt trong kho ngữ liệu VTB Stt Từ POS f n 3.775 của Nn 4,6789 115
  • 10. 3,4268 2.059 20.793 và Vv 6,1384 4 39.212 các Vv 6,7405 1 3.224 có M 4,5731 147 103 có R 2,9803 5.756 19.385 là Vv 6,0415 5 5.290 là Cs 4,9209 66 143 là Cp 3,0857 4.516 1.749 là M 4,1842 360 186 tốt Aa 3,1813 3.624 25.154 tốt Nn 6,4394 2 Tần suất được tính bằng công thức f = –lg (n/N) với n là số lần xuất hiện của âm tiết và N là tổng số âm tiết trong ngữ liệu VTB. Ví dụ: trong 100 triệu âm tiết, âm tiết “và” xuất hiện 1 triệu lần thì f sẽ là –lg(10exp6/10exp8) = 2. Nếu con số này càng nhỏ (nhỏ nhất là 0), có nghĩa là âm tiết đó xuất hiện càng nhiều và ngược lại (lớn nhất là 8, nếu âm tiết đó chỉ xuất hiện 1 lần). [Đinh Điền, Hồ Xuân Vinh, 2016] - Miêu tả cách dùng từ trong ngữ cảnh. Đối với việc giảng dạy từ vựng, miêu tả cách dùng của từ trong ngữ cảnh là thật sự cần thiết. Mỗi từ có thể có nhiều nghĩa khác nhau và các nghĩa cụ thể của từ phụ thuộc vào ngữ cảnh (context). Chính vì vậy khi xem xét nghĩa của một từ nào đó, chúng ta cần xem xét nó trong ngữ cảnh. Với những kho ngữ liệu, người dạy sẽ dễ dàng cung cấp cho người học những dẫn chứng sinh động về cách dùng từ trong ngữ cảnh qua việc khảo sát trực quan các chuỗi ngôn từ. Chẳng hạn như để trích dẫn ngữ cảnh của từ “đi”, chúng ta chỉ cần nhập từ khóa “đi”, máy sẽ cho ra tất cả những ngữ cảnh có sử dụng từ này. Người học cũng có thể nhìn vào đó để nghiệm ra cách sử dụng của từ này. Sau đây là giao diện và kết quả tìm kiếm ngữ cảnh của từ đi trong kho ngữ liệu Vietlex.
  • 11. tả từ theo ngữ cảnh trong kho ngữ liệu Vietlex - Thống kê, miêu tả các cách dùng của từ: Từ các kho ngữ liệu, chúng ta cũng có thể hiểu được các cách dùng từ khác nhau cũng như khả năng kết hợp của từ đó với những từ khác. Chẳng hạn với kho ngữ liệu VietnameseWaC, người dạy khi đánh vào từ khóa “đi” ở mục Word Sketch sẽ có kết quả 312217 kết hợp có từ “đi” trong tiếng Việt như đi tìm, đi học, đi qua, đi bộ, đi chơi..; bỏ đi, trở đi, giảm đi, chết đi …; vừa đi, đang đi, đã đi,…; đi cấp cứu, đi đày, đi cải tạo … Hình 2: Miêu tả cách dùng từ trong kho ngữ liệu VietnameseWaC
  • 12. pháp tiếng Việt cho người nước ngoài từ lâu đã là vấn đề được nhiều giáo viên dạy tiếng Việt quan tâm bởi lẽ theo nhiều giáo viên đây là lĩnh vực khó dạy nhất. Từ xưa đã có câu “Phong ba bão táp không bằng ngữ pháp Việt Nam”. Đến nay vẫn chưa có một giáo trình ngữ pháp tiếng Việt nào dành cho người nước ngoài. Để việc dạy ngữ pháp tiếng Việt có hiệu quả hơn, người dạy có thể khai thác và ứng dụng các kho ngữ liệu điện tử nhất là những kho ngữ liệu có phần chú thích nhãn ngữ pháp của từ. Với thông tin về tiểu từ loại và ngữ pháp biến đổi từ, kho ngữ liệu EVC có thể đáp ứng được các yêu cầu khai thác chi tiết hơn như tìm từ tiếng Việt theo tiểu từ loại (động từ nội động; ngoại động; danh từ đơn thể, danh từ tổng thể, danh từ khối, …). Ngoài ra, người dạy có thể sử dụng những kho ngữ liệu song ngữ Anh – Việt, Pháp – Việt, Hàn – Việt, Nhật – Việt, Trung – Việt … để hạn chế những ảnh hưởng của chuyển di tiêu cực từ tiếng mẹ đẻ sang tiếng Việt trong quá trình học ngữ pháp. Chẳng hạn như khi dạy về các cấu trúc câu tiếng Việt, người học tiếng Anh sẽ có thể hỏi là “Ở đâu anh làm việc?” do trong tiếng Anh từ để hỏi Where (Ở đâu) luôn đứng đầu câu. Khai thác các kho ngữ liệu song ngữ, người dạy có thể giúp người học quan sát trực quan sự sắp xếp trật từ trong các câu cụ thể từ đó người học có thể nghiệm ra những quy tắc thay đổi trật tự và các nhân tố ảnh hưởng đến trật tự đó. Sau đây là một ví dụ khác về trật tự từ trong câu tiếng Việt và tiếng Anh: Hình 3: So sánh trật tự thành phần câu giữa tiếng Anh và tiếng Việt (Nguồn: Đinh Điền, Lý Ngọc Minh (2015)) 5. Thảo luận và đề xuất Như vậy, chúng ta có thể khẳng định rằng việc khai thác và ứng dụng ngữ liệu điện tử có ý nghĩa rất thiết thực đối với việc giảng dạy tiếng Việt cho người nước ngoài. Tuy nhiên, hiện nay, việc ứng dụng này chưa thật sự phổ biến và chưa đạt được mục đích mong muốn bởi lẽ những kho ngữ liệu tiếng Việt và ngữ liệu song ngữ có chứa tiếng Việt chưa nhiều và được phổ biến rộng rãi. Hầu hết các kho ngữ liệu có gắn nhãn đều không được cung cấp miễn phí, người dạy muốn sử dụng phải mua với giá khá cao. Ngoài ra, hầu hết các kho ngữ liệu có chứa tiếng Việt hiện có đều là kho ngữ liệu phục vụ cho nhiều mục đích khác nhau chứ chưa có những kho ngữ liệu chuyên biệt chỉ phục vụ cho việc giảng dạy tiếng Việt cho người nước ngoài. Tiếp đến, việc khai thác, sử dụng hiện quả các kho ngữ liệu cũng cần đòi hỏi người sử dụng phải có những kiến thức cơ bản về công nghệ thông tin do chúng thường được đọc bởi một phần mềm hay một công cụ tìm kiếm nhất định. Chính vì vậy, chúng tôi xin nêu một số đề xuất nhằm mục đích nâng cao
  • 13. của việc khai thác và ứng dụng được những kho ngữ liệu điện tử trong việc giảng dạy tiếng Việt cho người nước ngoài ở phần dưới đây: Thứ nhất, chúng ta nên xây dựng thêm những khối ngữ liệu chuyên biệt phục vụ cho những mục đích giảng dạy tiếng Việt cụ thể. Chẳng hạn như những khối ngữ liệu phục vụ cho việc biên soạn giáo trình tiếng Việt cho người nước ngoài (khối ngữ liệu các bài text, các bài hội thoại, các mẫu câu theo từng trình độ từ A1-C2), những khối ngữ liệu tiếng Việt chuyên ngành (chuyên ngành du lịch, chuyên ngành thương mại, chuyên ngành hành chính, văn phòng…), những khối ngữ liệu ngân hàng đề thi đánh giá năng lực tiếng Việt theo từng cấp độ, những khối ngữ liệu văn bản nói (hội thoại, thuyết trình, bài giảng, bản tin ..) phục vụ cho việc giảng dạy tiếng Việt. Thứ hai, chúng ta phải không ngừng học tập để nâng cao trình độ sử dụng công nghệ thông tin có như vậy mới khai thác hiệu quả các khối ngữ liệu điện tử. Hiện nay, ngoài những kho ngữ liệu tiếng Việt do người Việt xây dựng còn có những kho ngữ liệu tiếng Việt hoặc ngữ liệu song ngữ chứa tiếng Việt do các tổ chức nước ngoài xây dựng. Muốn sử dụng được chúng, chúng ta phải sử dụng được một số phần mềm và công cụ tìm kiếm ngữ liệu trực tuyến. Thứ ba, chúng ta nên triển khai những đề tài hoặc dự án nghiên cứu về việc khai thác những khối ngữ liệu điện tử để xây dựng các khóa học tiếng Việt online. Khối ngữ liệu không chỉ giúp ích trong việc xây dựng giáo trình bản giấy mà còn rất hữu ích trong việc xây dựng giáo trình online. Nhờ những khối ngữ liệu có sẵn, việc đưa nội dung bài giảng vào các chương trình học online sẽ tiết kiệm được rất nhiều thời gian và công sức của người dạy. 6. Kết luận Trong thời đại 4.0 hiện nay, khoa học máy tính đã phát huy sức mạnh trong nhiều lĩnh vực trong đó có giảng dạy ngôn ngữ. Việc khai thác có hiệu quả những khối ngữ liệu điện tử sẽ góp phần rất lớn trong việc nâng cao chất lượng giảng dạy tiếng Việt cho người nước ngoài. Nhờ khai thác ngữ liệu từ những kho ngữ liệu điện tử, việc biên soạn giáo trình, giảng dạy, đánh giá năng lực tiếng Việt sẽ trở nên chuyên nghiệp và khách quan hơn. Càng ngày yêu cầu của người học tiếng Việt càng cao nên việc khai thác và ứng dụng những kho ngữ liệu trong việc giảng dạy tiếng Việt cần được thực hiện một cách khoa học và hệ thống trong tương lai. Tài liệu tham khảo Đinh Điền, & Hồ Hải Thuỵ (2011). Ngôn ngữ học máy tính và việc xây dựng từ điển. Tạp chí Từ điển học & Bách khoa thư, số 4(12)/7. Đinh Điền, & Lý Ngọc Minh (2015). Ứng dụng ngữ liệu Song ngữ Anh-Việt trong Giảng dạy Ngôn ngữ. Kỷ yếu hội thảo Liên ngành Ngôn ngữ học Ứng dụng & Giảng dạy Ngôn ngữ (tr.559-567). Đinh Điền, & Hồ Xuân Vinh (2016). Ứng dụng kho ngữ liệu trong việc day tiếng Việt cho người nước ngoài. Kỷ yếu hội thảo quốc tế giảng dạy, nghiên cứu Việt Nam học và tiếng Việt (tr. 172-180). Đinh Điền (2018). Sách chuyên khảo ngôn ngữ học ngữ liệu. NXB: Đại học Quốc gia Thành phố Hồ Chí Minh.
  • 14. (2013). Xây dựng kho ngữ liệu áp dụng cho phân tích, xử lý ngôn ngữ và biên soạn từ điển. Truy cập từ http://www.vietlex.com/xu-li-ngon-ngu/123-Xay_dung_kho_ngu_lieu_ap_dung _cho_phan_tich,_xu_li_ngon_ngu_va_bien_soan_tu_dien. Hartmann, R.R.K., & Gregory, J. (1998). Dictionary of lexicography. Routledge, London and New York. Nhiều tác giả. (2015). Oxford Advanced Learner’s Dictionary with Vietnamese Translation, the new 8th edition. Nhà xuất bản Trẻ Sinclair, J. (1991). Corpus concordance collocation. HK: Oxford University Press. Đào Hồng Thu (2007). Ngôn ngữ học khối liệu (Corpus) (Phần 1). Tạp chí Ngôn ngữ và đời sống, số 7(141).
  • 15. OF E-CORPUS IN THE TEACHING OF VIETNAMESE LANGUAGE FOR FOREIGNERS Le Lam Thi University of Foreign Languages, Hue University Abstract Nowadays, with the development of science and technology, the study and teaching of languages has made new strides. The research with manual, theoretical manipulations gradually gave way to the research with automatic manipulations, based on the experience by exploiting the linguistic resources (or corpus). From these corpus, researchers can exploit to serve many different purposes in different fields such as searching, surveying, statistics in language research, automatic machine translation in bilingual machine translation system, documenting the use of words depending on the context in language teaching, searching, classifying customer feedback about products in the commercial economy ... For the purposes of this report, The author will focus on analyzing the applications of corpus in teaching Vietnamese to foreigners. The research results will show the ways to exploit the E-corpus in compiling the Vietnamese teaching books, in Vietnamese phonetic teaching, in Vietnamese vocabulary teaching and Vietnamese grammar teaching for foreigners. Key words: Corpus linguistics, e-corpus, teaching Vietnamese for foreigners

Khó ngủ liệu song song là gì?

Kho ngữ liệu song song (Parallel Corpus) là một tập các văn bản (tài liệu) trong nhiều ngôn ngữ khác nhau, trong đó có một ngôn ngữ nguồn và một hoặc nhiều ngôn ngữ đích được dịch từ ngôn ngữ nguồn. Kho ngữ liệu song ngữ là một tập hợp dữ liệu gồm các cặp văn bản đã được dịch tương ứng 1-1 về mặt ngữ nghĩa.

Corpus based approach là gì?

Phong cách học khối liệu (PCHKL) là một lĩnh vực nghiên cứu mới của phong cách học phương Tây đương đại, ứng dụng những kỹ thuật hiện đại của khoa học máy tính để xử lý văn bản ngôn ngữ với dung lượng lớn.

Linguistics học gì?

Ngôn ngữ học - hay còn được gọi tên tiếng Anh là Linguistics - là lĩnh vực nghiên cứu chuyên sâu nhiều khía cạnh của ngôn ngữ, đồng thời cung cấp cho người học sự hiểu biết về ngữ âm (âm thanh), cú pháp (ngữ pháp) và ngữ nghĩa (nghĩa).