Bộ dữ liệu AI lấy dữ liệu từ BitcoinTalk, Steemit và US SEC

Colossal Clean Crawled Corpus (C4), một bộ dữ liệu AI được sử dụng bởi các công ty công nghệ lớn. Chứa dữ liệu từ nhiều trang web liên quan đến crypto.

Bộ dữ liệu C4 của AI lấy từ các trang web crypto.

Tờ Washington Post và Viện AI Allen gần đây đã phân tích bộ dữ liệu C4. Xếp hạng các trang web theo số lượng “token” hoặc đoạn văn bản được lấy từ mỗi nguồn.

Ủy ban Chứng khoán và Giao dịch Hoa Kỳ — một phần trong việc lưu trữ nội dung về quy định tiền điện tử — là một trong những nguồn lớn nhất của bộ dữ liệu. Trang web của họ (sec.gov) xếp hạng 3. Và chiếm 36 triệu, tương đương 0,02%, mã token của C4.

Bitcointalk.org, một diễn đàn thảo luận blockchain được tạo bởi Satoshi Nakamoto. Được xếp hạng #780. Trang web này chiếm 6,1 triệu, tương đương 0,004%, mã token của C4.

Các trang web tổng hợp và tin tức về cryptonhư Cointelegraph và Coinmarketcap.com cũng được nhắc đến. Tám trang web như vậy chiếm tổng cộng ít nhất 0,008% mã token của C4. Mặc dù các trang web khác có thể tăng tổng số thực.

Các trang web liên quan đến các loại crypto và trao đổi cụ thể cũng được trình bày trong tập dữ liệu. Nhưng chiếm một lượng mã token đáng kể.

Hai trang web liên quan đến crypto cũng được xếp hạng cao. IPFS (ipfs.io) xếp hạng #16 trong khi Steemit (steemit.com) xếp hạng #594. IPFS là một mạng phân tán từ công ty blockchain Protocol Labs. Trong khi Steemit sử dụng trực tiếp blockchain. Tuy nhiên, các trang web này không nhất thiết phải chứa nội dung liên quan đến crypto

Các trang web chính thống đứng đầu danh sách

Bộ dữ liệu C4 được sử dụng trong các mô hình ngôn ngữ AI từ các công ty công nghệ lớn. Bao gồm T5 của Google và LLaMA của Facebook, theo Washington Post.

Mặc dù các trang web trên nằm trong số các trang web liên quan đến crypto quan trọng nhất của C4. Nhưng đều bị xếp hạng thấp hơn so với các trang web và nguồn tin tức chính thống. Những trang web đó thường bao gồm các chủ đề về crypto. Giống như 1 nguồn dữ liệu chính cho tất cả dữ liệu liên quan đến crypto.

C4 cũng bị chỉ trích vì chứa ngôn từ kích động thù địch và dữ liệu vi phạm bản quyền. Mặc dù tên của tập dữ liệu gợi ý rằng nó đã được “làm sạch”. Nhưng trình biên dịch của nó chỉ sử dụng danh sách 400 từ để kiểm duyệt nội dung cụ thể. Nghĩa là nội dung gây tranh cãi vẫn còn nguyên vẹn.

Sự hiện diện của các trang web crypto, cũng như sự hiện diện của dữ liệu gây tranh cãi. Có thể ảnh hưởng đến mức độ sai lệch được thấy trong nội dung do các chatbot AI tạo ra.