Dữ liệu ngoài chuỗi và nền kinh tế dữ liệu cho Smart Contract
Chainlinker /
Trong hai bài viết trước của chuỗi Giáo dục, chúng tôi đã thảo luận về blockchain và Smart Contract như một cơ sở hạ tầng mới, an toàn và đáng tin cậy để chuyển giao và lưu trữ giá trị. Tương tự như một chiếc máy tính không có Internet, các Smart Contract dựa trên blockchain có giá trị nội tại riêng, chẳng hạn như tạo và hoán đổi token. Tuy nhiên, chúng trở nên mạnh mẽ hơn gấp bội khi được kết nối bên ngoài với nền kinh tế dữ liệu và API đang phát triển nhanh chóng ngoài hệ sinh thái blockchain (ngoài chuỗi).
Các Smart Contract có thể trở thành hình thức thỏa thuận số thống trị trên tất cả các thị trường lớn nếu chúng khai thác thành công kho dữ liệu khổng lồ được tạo ra bởi các nhà cung cấp dữ liệu, API web, hệ thống doanh nghiệp, nhà cung cấp đám mây, thiết bị IoT, hệ thống thanh toán, các blockchain khác, và nhiều hơn nữa.
Trong bài viết này, chúng tôi sẽ xem xét sâu hơn về dữ liệu và API, cụ thể là:
- Dữ liệu là gì và nó thúc đẩy nền kinh tế dữ liệu như thế nào?
- Dữ liệu được tạo ra như thế nào?
- Dữ liệu được trao đổi qua API ra sao?
- Phân tích Big Data là gì?
Việc hiểu toàn diện về nền kinh tế dữ liệu ngoài chuỗi đặt nền tảng cho bài viết tiếp theo, nơi chúng tôi sẽ khám phá cách kết nối các Smart Contract với các tài nguyên này một cách an toàn và đáng tin cậy bằng cơ sở hạ tầng bổ sung được gọi là oracle.
Dữ liệu và Nền kinh tế Dữ liệu
Dữ liệu
Dữ liệu là các đặc điểm hoặc thông tin thu được qua quan sát, chẳng hạn như đo nhiệt độ ngoài trời, tính toán vị trí của một chiếc xe, hoặc ghi lại tương tác của người dùng với một ứng dụng trực tuyến. Tự bản thân nó, dữ liệu thô không đặc biệt có giá trị hoặc đáng tin cậy; nó cần dữ liệu khác để cung cấp ngữ cảnh và sự xác nhận để đảm bảo tính hợp lệ và/hoặc tính xác thực.
Metadata
Metadata là “dữ liệu về dữ liệu”, chủ yếu bao gồm thông tin cơ bản giúp việc theo dõi và làm việc với dữ liệu dễ dàng hơn. Ví dụ, thời gian gửi một tin nhắn văn bản, vị trí địa lý của một phép đo nhiệt độ, hoặc thời lượng của một cuộc gọi điện thoại đều là siêu dữ liệu giúp lập chỉ mục và mang lại ý nghĩa cho dữ liệu.
Làm sạch dữ liệu
Ngoài ra, dữ liệu cần được xử lý và làm sạch để đủ đáng tin cậy cho các ứng dụng quan trọng. Quá trình làm sạch bao gồm loại bỏ các giá trị ngoại lai, phát hiện sai sót, và loại bỏ thông tin không liên quan; ví dụ, so sánh nhiệt độ hiện tại với nhiệt độ lịch sử để phát hiện và ngăn chặn việc sử dụng các giá trị ngoại lai.
Nền kinh tế Dữ liệu
Nền kinh tế dữ liệu là một hệ sinh thái kinh tế nơi tất cả các loại dữ liệu được thu thập, tinh chỉnh và trao đổi theo những cách tạo ra các hiểu biết có giá trị. Những hiểu biết này sau đó được sử dụng để tối đa hóa sản lượng xã hội — một cơ sở dữ liệu sức khỏe chung để lưu trữ các thử nghiệm lâm sàng nhằm hiểu rõ hơn về các tình trạng y tế, hoặc một công ty tư nhân theo dõi hoạt động nội bộ để xác định và cải thiện các điểm kém hiệu quả.
Nền kinh tế dữ liệu đang phát triển mở ra các khả năng mới xung quanh tự động hóa, trong đó dữ liệu dẫn trực tiếp đến việc kích hoạt các hành động kinh tế mà không cần trung gian con người. Ví dụ, tạo một ứng dụng thực hiện thanh toán cho hàng hóa khi ba mảnh dữ liệu được xác nhận: hàng hóa đã đến (dữ liệu GPS), chúng ở tình trạng tốt (dữ liệu IoT), và đã qua hải quan (API web).
Phát hành Dữ liệu
Dữ liệu là sản phẩm phụ của một quá trình hoặc sự kiện. Nó cần một đầu vào (hành động) để tạo ra, một kỹ thuật trích xuất (đo lường) để ghi lại, và một kỹ thuật tổng hợp (phân tích) để mang lại ý nghĩa. Vì quyền truy cập vào các đầu vào cụ thể và kỹ thuật trích xuất/tổng hợp có thể bị giới hạn, không phải tất cả dữ liệu đều được tạo ra như nhau, và không phải ai cũng có khả năng tạo ra dữ liệu chất lượng tương tự.
Một số cách phổ biến nhất để thu thập dữ liệu mới và nguyên bản bao gồm:
- Biểu mẫu (Nhập tay) - dữ liệu được thu thập bởi người dùng điền vào các biểu mẫu công khai hoặc riêng tư, chẳng hạn như tham gia khảo sát, ký tài liệu, và tham gia các diễn đàn xã hội.
- Ứng dụng/Website (Đồng ý sử dụng) - dữ liệu được thu thập khi người dùng đồng ý với các điều khoản và điều kiện của một ứng dụng hoặc website, thường cấp phép hợp pháp để theo dõi một số chỉ số dữ liệu như hoạt động cụ thể của ứng dụng, thói quen duyệt web, và đôi khi cả thông tin hồ sơ chung (giới tính, độ tuổi, v.v.).
- IoT (Giám sát thời gian thực) - dữ liệu được thu thập bởi các thiết bị được trang bị cảm biến và bộ truyền động gửi dữ liệu qua Internet, bao gồm điện thoại thông minh, thiết bị gia dụng thông minh, thiết bị đeo sức khỏe, hàng hóa theo dõi RFID, v.v.
- Quy trình độc quyền / Trải nghiệm cá nhân (Sở hữu) - dữ liệu được thu thập thông qua quyền sở hữu của một công ty đối với một quy trình kinh doanh (có bằng sáng chế hoặc là người dẫn đầu thị trường) hoặc từ trải nghiệm cá nhân độc đáo của một người.
- Nghiên cứu và Phân tích (Kết hợp và Diễn giải) - dữ liệu được thu thập bằng cách lấy các tập hợp dữ liệu hiện có và cung cấp một số diễn giải nguyên bản: đối chiếu với dữ liệu lịch sử, tham chiếu chéo với các tập hợp dữ liệu khác, áp dụng các kỹ thuật lọc và tính toán mới, v.v.
Ngoài ra, còn có các nhà bán lại dữ liệu, họ mua dữ liệu số lượng lớn từ các nhà tổng hợp dữ liệu hoặc các công ty có giá trị, sau đó bán lại cho người dùng cuối. Mặc dù đắt hơn, các nhà bán lại dữ liệu xử lý trước dữ liệu để phù hợp với các bộ lọc hoặc định dạng tùy chỉnh.
Trao đổi Dữ liệu
Nếu dữ liệu trở thành khối xây dựng cốt lõi cho các ứng dụng thế hệ tiếp theo, thì các ngành công nghiệp cần có các thị trường để mua và bán dữ liệu thay vì chỉ dựa vào sản xuất nội bộ. Mua dữ liệu có thể rẻ hơn đáng kể so với sản xuất dữ liệu. Ví dụ, việc tạo một thuật toán xe tự lái yêu cầu một lượng lớn dữ liệu về phát hiện đối tượng, phân loại đối tượng, định vị đối tượng và dự đoán chuyển động. Để có được dữ liệu này, nhà phát triển có thể sản xuất nội bộ bằng cách lái xe hàng triệu dặm hoặc đơn giản là mua nó từ bên ngoài qua một API.
Giao diện Lập trình Ứng dụng (API) là một tập hợp các hướng dẫn về cách một ứng dụng bên ngoài có thể truy cập các tập dữ liệu và/hoặc dịch vụ cụ thể trong hệ thống của bạn. API là phương pháp tiêu chuẩn để mua và bán dữ liệu và dịch vụ ngày nay. Ứng dụng chia sẻ xe phổ biến Uber sử dụng API GPS cho dữ liệu vị trí (MapBox), API SMS cho dữ liệu tin nhắn (Twilio), và API Thanh toán (Braintree) cho dữ liệu thanh toán để quản lý các chức năng ứng dụng phổ biến thay vì xây dựng từng dịch vụ này từ đầu.
API thường được kiếm tiền thông qua các gói đăng ký, nơi người dùng cuối trả tiền theo lần sử dụng (theo mét), sử dụng các gói hàng tháng tiêu chuẩn (được cấp phép), hoặc đồng ý với một số hình thức thanh toán theo cấp bậc. Điều này tạo ra động lực tài chính cho các nhà cung cấp dữ liệu để sản xuất dữ liệu, trong khi người dùng cuối tiêu thụ nó mà không cần cung cấp cơ sở hạ tầng riêng. Nó cũng thiết lập một hợp đồng pháp lý ràng buộc giữa nhà cung cấp API và người dùng trả phí để ngăn chặn các hoạt động độc hại như đánh cắp dữ liệu và bán lại mà không được phép, cũng như giữ nhà cung cấp dữ liệu chịu trách nhiệm về các tiêu chuẩn hiệu suất nhất định.
Có nhiều API mở và miễn phí cho bất kỳ ai truy cập, bao gồm Open Weather Map cho dữ liệu thời tiết, Skyscanner Flight Search cho dữ liệu trạng thái chuyến bay, và GDELT cho dữ liệu về hành vi và niềm tin của con người trên toàn thế giới. Ngoài ra, các chính phủ trên toàn thế giới đang cung cấp ngày càng nhiều dữ liệu thông qua các API mở như một phần của các sáng kiến dữ liệu mở.
Tuy nhiên, các API mở không đáng tin cậy bằng các API trả phí vì chúng thiếu động lực tài chính và hợp đồng pháp lý gắn liền với kiểm soát chất lượng và hiệu suất độ trễ. Phần lớn dữ liệu chất lượng cao được thu thập thông qua các API trả phí, thường có quyền truy cập vào nguồn dữ liệu chính, sở hữu cơ sở hạ tầng đầy đủ, sử dụng đội ngũ giám sát toàn thời gian, và không ngừng đổi mới để cạnh tranh với các nhà cung cấp dữ liệu khác.
Cơ sở hạ tầng và Phân tích Big Data
Con người luôn bị cuốn hút bởi ý tưởng lập trình các hệ thống theo cách mà chúng có thể học hỏi và tự cải thiện. Việc học được thúc đẩy bằng cách thực hiện một hành động, nhận kết quả, phân tích nó so với dữ liệu lịch sử, và thu được những hiểu biết mới về cách thực hiện tốt hơn trong tương lai để đạt được một mục tiêu cụ thể. Vì vậy, đã có một xu hướng lớn trong việc xây dựng cơ sở hạ tầng có thể tiếp nhận một lượng dữ liệu khổng lồ, lọc nó, phân loại nó, và thu được những hiểu biết sâu sắc từ kết quả.
Facebook, Google và Amazon ở phương Tây cùng với Alibaba, Tencent và Baidu ở phương Đông đã trở thành những gã khổng lồ công nghệ vì các ứng dụng Internet được sử dụng rộng rãi của họ tạo ra các kho dữ liệu khổng lồ từ người dùng. Dữ liệu này hình thành nền tảng cho các phân tích dữ liệu tốt nhất thế giới, đặc biệt là phần mềm trí tuệ nhân tạo (AI) và học máy (ML). Các công nghệ này cung cấp những hiểu biết sâu rộng về hành vi người tiêu dùng, xu hướng xã hội và thực tiễn thị trường.
Đồng thời, phần mềm quản lý kinh doanh giúp các doanh nghiệp hiểu rõ hơn về hoạt động của chính họ. Các công ty như SAP, Salesforce và Oracle đã xây dựng phần mềm Quản lý Nguồn lực Doanh nghiệp (ERP), Quản lý Quan hệ Khách hàng (CRM) và phần mềm Quản lý Đám mây giúp các công ty quản lý các quy trình kinh doanh nội bộ bằng cách tổng hợp tất cả dữ liệu và hệ thống của họ để tạo ra những hiểu biết quan trọng.
Điện toán đám mây và lưu trữ cũng ngày càng trở nên phổ biến như một cách để có quyền truy cập đáng tin cậy và rộng rãi hơn vào cơ sở hạ tầng số. Điện toán đám mây cho phép nhiều người dùng khác nhau chia sẻ cơ sở hạ tầng để lưu trữ và xử lý dữ liệu, loại bỏ nhu cầu mỗi người phải cung cấp và vận hành hệ thống riêng. Nó đã cải thiện các quy trình phụ trợ của ứng dụng, tăng cường chia sẻ giữa các hệ thống, và giảm chi phí để truy cập phần mềm AI/ML. Ví dụ, người dùng Google Cloud có thể tận dụng BigQuery, một Dịch vụ Phần mềm cho phân tích mở rộng của hàng petabyte dữ liệu với khả năng ML tích hợp.
Tiến tới Cách mạng Công nghiệp Thứ tư
Khi kết hợp AI/ML, phần mềm quản lý kinh doanh và cơ sở hạ tầng đám mây, nó dẫn đến các công cụ tốt hơn để nâng cao các hiểu biết thu được từ dữ liệu. Thêm vào các xu hướng này là điện toán biên, mạng viễn thông 5G và công nghệ sinh học, mở ra các môi trường dữ liệu kết nối sinh học và thời gian thực ngày càng nhiều. Các hệ thống này liên tục đưa các hệ thống kinh tế hướng tới việc ra quyết định dựa trên dữ liệu thời gian thực với ít nỗ lực của con người hơn, đặc biệt khi dữ liệu được sản xuất và chia sẻ một cách liền mạch, thường xuyên hơn. Trên thực tế, nhiều người đang gọi xu hướng lớn này là Cách mạng Công nghiệp Thứ tư.
Đọc thêm
Tìm hiểu thêm bằng cách xem bài viết tiếp theo trong chuỗi Giáo dục về Vấn đề Oracle. Theo dõi chúng tôi trên X để được thông báo về các bài viết sắp ra mắt và tham gia Telegram của chúng tôi để biết tin tức mới nhất về Chainlink.
Tài liệu: