Bước tới nội dung

Dữ liệu liên kết

Bách khoa toàn thư mở Wikipedia

Trong hoạt động tính toán máy tính, dữ liệu liên kết mô tả một phương thức tạo ra dữ liệu có cấu trúc để có thể liên kết được với nhau và trở nên có ích. Dữ liệu liên kết được xây dựng dựa trên các tiêu chuẩn công nghệ Web như HTTPURI để mở rộng khả năng chia sẻ thông tin theo cách có thể được đọc tự động từ các máy tính hơn là việc chia sẻ nội dung trên các trang web để phục vụ cho người dùng. Điều này cho phép các nguồn tài nguyên khác nhau được kết nối và truy vấn.[1]

Ông Tim Berners-Lee, cha đẻ của W3C, đặt ra thuật ngữ trong thảo luận lưu ý thiết kế xoay quanh dự án Semantic Web.[2]

Các nguyên lý

[sửa | sửa mã nguồn]
Tim Berners-Lee tại hội thảo TED năm 2009.

Tim Berners-Lee liệt kê bốn nguyên lý dữ liệu liên kết trong các thảo luận của mình: ghi chú dữ liệu liên kết,[3] được tóm gọn trong các dòng sau:

  1. Dùng URI để nhận dạng mọi thứ.
  2. Sử dụng HTTP URI để mọi thứ này được tham khảo và tìm kiếm ("tham khảo lại") bởi mọi người hay các user agent (phần mềm dưới danh nghĩa người dùng).
  3. Cung cấp thông tin hữu ích về các thứ trên khi các URI của nó được tham khảo lại, sử dụng các định dạng tiêu chuẩn như RDF/XML.
  4. Bao gồm các liên kết đến liên kết khác, các URL có quan hệ bên trong dữ liệu tìm thấy để phát triển khả năng tìm kiếm các thông tin liên quan khác trên Web.

Tim Berners-Lee đã có báo cáo về dữ liệu liên kết tại hội nghị TED năm 2009.[4] Trong hội nghị, ông xác nhận các nguyên lý dữ liệu liên kết bao gồm ba điều đơn giản như sau:

  1. Tất cả các dạng của các thứ khái niệm, chúng có tên và bắt đầu với HTTP ngay bây giờ.
  2. Tôi lấy lại thông tin quan trọng. Tôi sẽ lấy lại một số thông tin trong định dạng tiêu chuẩn là dạng hữu ích mà có thể có ai đó biết về nó và về sự kiện.
  3. Tôi lấy lại thông tin đó, không chỉ lấy về chiều cao và cân nặng của ai đó và nơi họ sinh ra, nó có mối liên hệ. Và khi đó, bất cứ khi nào nó nhấn mạnh một mối quan hệ, sau đó những thứ khác mà nó liên hệ được cho bởi một trong các tên bắt đầu với HTTP.

Lưu ý rằng mặc dù luật thứ hai đề cập đến "các định dạng tiêu chuẩn", nó không cần bất cứ tiêu chuẩn đặc tả nào cả, chẳng hạn như RDF/XML.

Các thành phần

[sửa | sửa mã nguồn]

Dự án liên kết dữ liệu mở cộng đồng

[sửa | sửa mã nguồn]
Thể hiện mối liên kết trong tập dữ liệu liên kết mở

Mục tiêu của dự án liên kết dữ liệu mở cộng đồng của nhóm W3C Semantic Web Education and Outreach là mở rộng Web với dữ liệu chung bằng cách xuất bản các tập dữ liệu mở khác nhau như RDF trên Web và thiết lập các liên kết RDF giữa các mục dữ liệu từ các nguồn tài nguyên khác nhau. Vào tháng 10 năm 2007, tập dữ liệu đã chứa hơn 2 tỷ RDF triple, được liên kết với hơn 2 triệu liên kết RDF.[5][6] Vào tháng 9 năm 2011, tập dữ liệu đã phát triển lên đến 31 triệu triple, liên kết khoảng 504 triệu liên kết RDF. Ngoài ra, còn có một tương tác trực quan của các tập dữ liệu được liên kết để duyệt thông qua các đám mây.[7]

Các dự án châu Âu

[sửa | sửa mã nguồn]

Có nhiều dự án châu Âu về liên kết dữ liệu. Những dự án này bao gồm dữ liệu liên kết mở xoay quanh dự án đồng hồ (LAC)[8], dự án PlanetData,[9] và dự án Linked Open Data 2 (LOD2).[10][11][12]

Tập dữ liệu

[sửa | sửa mã nguồn]
Tập dữ liệu trong dự án Liên kết Dữ liệu mở tháng 9 năm 2007
  • CKAN – đăng ký dữ liệu mở và các gói nội dung được cung cấp bởi Open Knowledge Foundation
  • DBpedia là một tập dữ liệu liên kết có trích xuất từ Wikipedia bao gồm 3.4 triệu khái niệm được mô tả bởi 1 tỷ triple và các tóm tắt trong 11 ngôn ngữ khác nhau.[13][14]
  • GeoNames cung cấp các mô tả RDF của 7.500.000 tính năng địa lý toàn cầu.
  • UMBEL – một cấu trúc tham khảo đơn giản của 20,000 các lớp chủ đề khái niệm và mối quan hệ giữa chúng kế thừa từ OpenCyc, có thể hoạt động như gắn các lớp vào dữ liệu bên ngoài; cũng chứa các liên kết đến 1,5 triệu tên thực thể từ DBpedia và YAGO.
  • FOAF – mô tả tập dữ liệu về người, các thuộc tính và mối quan hệ liên quan.

Mối quan hệ lớp và tập thể hiện dữ liệu

[sửa | sửa mã nguồn]

Sơ đồ click chuột cho thấy các tập dữ liệu cá nhân và các mối quan hệ của chúng trong vòng điện toán đám mây DBpedia-sinh ra LOD, như thể hiện bởi hình phía trên:

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ Bizer, Christian; Heath, Tom; Berners-Lee, Tim (2009). “Linked Data—The Story So Far” (PDF). International Journal on Semantic Web and Information Systems. 5 (3): 1–22. doi:10.4018/jswis.2009081901. ISSN 1552-6283. Truy cập ngày 18 tháng 12 năm 2010. Đã bỏ qua tham số không rõ |unused= (trợ giúp)
  2. ^ Tim Berners-Lee (ngày 27 tháng 7 năm 2006). “Linked Data—Design Issues”. W3C. Truy cập ngày 18 tháng 12 năm 2010.
  3. ^ Design Issues: Linked Data
  4. ^ “Tim Berners-Lee on the next Web”. Bản gốc lưu trữ ngày 10 tháng 4 năm 2011. Truy cập ngày 3 tháng 3 năm 2013.
  5. ^ Linking Open Data
  6. ^ Fensel, Dieter; Facca, Federico Michele; Simperl, Elena (2011). Semantic Web Services. Springer. tr. 99. ISBN 3642191924. Đã bỏ qua tham số không rõ |las5t= (trợ giúp); |first5= thiếu |last5= (trợ giúp)
  7. ^ interactive visualization of the linked data sets
  8. ^ “Linked open data around the clock (LATC)”. Bản gốc lưu trữ ngày 19 tháng 9 năm 2018. Truy cập ngày 3 tháng 3 năm 2013.
  9. ^ “PlanetData”. Bản gốc lưu trữ ngày 21 tháng 4 năm 2021. Truy cập ngày 3 tháng 3 năm 2013.
  10. ^ Linking Open Data 2 (LOD2)
  11. ^ “CORDIS FP7 ICT Projects – LOD2”. European Commission. ngày 20 tháng 4 năm 2010. Bản gốc lưu trữ ngày 6 tháng 9 năm 2012. Truy cập ngày 3 tháng 3 năm 2013.
  12. ^ “LOD2 Project Fact Sheet – Project Summary” (PDF). ngày 1 tháng 9 năm 2010. Bản gốc (PDF) lưu trữ ngày 20 tháng 7 năm 2011. Truy cập ngày 18 tháng 12 năm 2010.
  13. ^ DBpedia, DataHub
  14. ^ Yi Huang, Maximilian Nickel, Volker Tresp, Hans-Peter Kriegel, A Scalable Kernel Approach to Learning in Semantic, Graphs with Applications to Linked Data, Proceedings of the 1st Workshop on Mining the Future Internet, 2010.

Nghiên cứu thêm

[sửa | sửa mã nguồn]

Liên kết ngoài

[sửa | sửa mã nguồn]

Các trường hợp thử nghiệm

[sửa | sửa mã nguồn]