Web deep là gì

Không bao giờ thiếu những câu chuyện đáng sợ về Internet. Chắc hẳn bạn đã rất nhiều lần thắc mắc về Dark Web và Deep Web và thường nghĩ đến những khía cạnh tối tăm khi nhắc đến từ Dark và Deep.

Vậy thực chất Dark Web và Deep Web là gì? Chúng được sử dụng với mục đích như thế nào? Và chúng có thực sự tồi tệ như cái tên của mình không? Hãy cùng tìm hiểu qua bài viết sau đây nhé.

Dark Web và Deep Web là gì? Làm thế nào để truy cập?

Dark Web là một thuật ngữ dành riêng cho một bộ sưu tập các trang web tồn tại trên một mạng được mã hóa và không thể tìm thấy bằng cách sử dụng những công cụ tìm kiếm truyền thống hoặc truy cập bằng cách sử dụng các trình duyệt thông thường.

Phần lớn mọi trang web được gọi là Dark Web đều ẩn danh tính của chúng, sử dụng công cụ mã hóa Tor. Bạn có lẽ biết Tor về khả năng ẩn danh tính và hoạt động của nó. Bạn có thể sử dụng Tor để giả mạo vị trí của mình, làm cho nó xuất hiện như bạn đang ở một nơi khác với địa điểm bạn đang thực sự truy cập, cũng giống như sử dụng một dịch vụ VPN.

Khi một trang web chạy thông qua Tor, nó có cùng kết quả như vậy. Để truy cập vào một trang trong Dark Web mà sử dụng mã hóa Tor, người dùng web cần phải sử dụng Tor. Như địa chỉ IP của người dùng bị trả lại thông qua nhiều lớp mã hóa để xuất hiện ở địa chỉ IP khác trên mạng Tor, đó là của trang web.

Do đó, các trang web trong Dark Web có thể được truy cập bởi bất cứ ai, nhưng rất khó để tìm ra người đứng sau các trang web đó. Và nó có thể nguy hiểm nếu bạn sử dụng và nhận dạng của bạn bị phát hiện.

Dark Web được sử dụng để làm gì?

Không phải mọi Dark Web đều sử dụng Tor. Một số sử dụng những dịch vụ tương tự như I2P, chẳng hạn như Silk Road Reloaded. Nhưng nguyên tắc vẫn giống như vậy. Người truy cập phải sử dụng cùng công cụ mã hóa với trang web và biết cách tìm trang web ở đâu để nhập URL và truy cập.

Dark Web là "ngôi nhà" của các trang web nặc danh chủ yếu hoạt động trong những lĩnh vực bất hợp pháp. Theo một nghiên cứu với 5.000 địa chỉ trên Dark Web, có hơn một nửa số trang web hoạt động bất hợp pháp, bao gồm bán thuốc, chủ nghĩa cực đoan, sách báo khiêu dâm và vũ khí.

Deep Web là gì?

Mặc dù tất cả các thuật ngữ này có xu hướng được sử dụng hoán đổi cho nhau, nhưng chúng không đề cập đến chính xác cùng một ý nghĩa. Deep Web là tất cả những trang web mà các công cụ tìm kiếm không thể tìm thấy.

Do đó, Deep Web bao gồm Dark Web, nhưng cũng bao gồm tất cả cơ sở dữ liệu người dùng, mọi trang web, diễn đàn và các trang web phải trả tiền để truy cập.

Bạn thực sự truy cập vào Deep Web thường xuyên, mỗi ngày. Các email trong tài khoản Gmail của bạn, bảng sao kê ngân hàng trực tuyến, mạng nội bộ văn phòng, tin nhắn trực tiếp trên Twitter, ảnh bạn đã tải lên Facebook và được đánh dấu là riêng tư. Tất cả đều là Deep Web.

Không biết độ rộng lớn của Deep Web là bao nhiêu, nhưng ước tính từ các nhà nghiên cứu cho thấy nó có thể sẽ chiếm hơn 90% toàn bộ nội dung trực tuyến.

Deep Web cũng là nơi mà khối lượng dữ liệu thô được lưu trữ, cho dù tài nguyên của chính phủ, dữ liệu để sử dụng bởi các nhà khoa học hay dưới dạng các cơ sở dữ liệu mà bạn có thể sử dụng cho nghiên cứu của riêng mình.

Dark Internet là gì?

Dark Internet cũng là một một thuật ngữ đôi khi được sử dụng để miêu tả thêm cho ví dụ về mạng, cơ sở dữ liệu hoặc thậm chí là những trang web mà không thể truy cập qua Internet. Trường hợp này vì lý do kỹ thuật hoặc vì các thuộc tính chứa thông tin thích hợp mà ít người sẽ muốn hay trong một số trường hợp vì dữ liệu là riêng tư.

Một nguyên tắc cơ bản là trong khi các cụm từ Dark Web hay Deep Web thường được sử dụng bởi các tờ báo lá cải để đề cập đến thế giới online bí mật nguy hiểm thì Dark Internet là nơi các nhà khoa học lưu trữ dữ liệu thô để nghiên cứu.

Làm thế nào để truy cập vào Dark Web?

Trình duyệt Tor là ứng dụng chính để truy cập vào Dark Web. Tor là từ viết tắt của The Onion Router - định tuyến củ hành cho thấy các lớp bảo mật hoạt động để che giấu vị trí của người dùng và trình duyệt cho phép bạn truy cập các trang web ẩn với hậu tố tên miền .onion.

Bạn chỉ cần tải và cài đặt nó như mọi phần mềm khác. Trong lần khởi chạy đầu tiên, bạn sẽ được nhắc chọn xem bạn có thể kết nối trực tiếp với Tor hoặc nếu bạn cần thiết lập nó cho kết nối Internet bị kiểm duyệt hoặc được cấp quyền.

Phải mất vài giây để thiết lập kết nối và sau khi thành công, bạn đã sẵn sàng để làm những gì bạn muốn. Trình duyệt của Tor giống như bất kỳ trình duyệt web nào khác, chỉ là thêm các thiết lập bảo mật bổ sung. Cài đặt mặc định là tốt cho hầu hết người dùng, nhưng bạn có thể tăng sự bảo mật nếu muốn. Điều này vô hiệu hóa các tính năng bổ sung và làm giảm trải nghiệm người dùng trong quá trình duyệt web.

Bạn cần lưu ý rằng một khi bạn đã vào Dark Web, bạn sẽ có thể truy cập các trang web bất hợp pháp như những trang web bán thuốc phiện, súng và nhiều thứ tồi tệ hơn. Do mặt tối này của Dark Web mà không ai khuyến khích và ủng hộ bạn tìm kiếm Dark Web cho dù chỉ là tò mò.

Cập nhật: 17/09/2018

Deep web - thế giới ngầm của internet, theo những ai đã từng truy cập thì thế giới mạng ngầm này chiếm 96 % của cái thế giới mạng, trong khi hàng loạt các trang web mà ta vẫn truy cập, hàng tỷ các kết quả tìm kiếm trên Google, Yahoo, Bing,... mà chúng ta cứ ngỡ là rộng lớn ấy chỉ chiếm đến 4 % Tôi bắt đầu biết đến deep web hai tháng trước trên một diễn đàn công nghệ, vì tò mò, tôi đã nảy sinh ý muốn truy cập để khám phá, và tôi đã bắt đầu. Tôi bắt đầu bằng việc lên Google, các trang thông tin, các diễn đàn công nghệ để tìm các kết quả về deep web, sau những giờ kiên trì, tôi đã tập hợp được một số link deep web và một số giải pháp bảo mật an toàn. Tôi lựa chọn truy cập bằng cách tạo một máy ảo win xp, sau đó tải về trình duyệt tor brower, tôi theo các đường link đã tập hợp được, ban đầu tôi chỉ nghĩ nó bình thường như bao trang mạng tôi vẫn truy cập hàng ngày, nhưng...

Tôi giật mình trước những gì hiện ra trên màn hình máy tính, những trang web với giao diện chỉ toàn những chữ nhằng nhịt với đủ ngôn ngữ, tuy tiếng Anh tôi còn kém và những thứ tiếng khác đều mù tịt nhưng tôi thấy một cảm giác nguy hiểm gì cứ rình rập theo từng cú click, tôi thấy dường như có ai đang theo dõi tôi, đang biết tôi làm gì. Nhưng hỡi ôi, sự tò mò vẫn khiến tôi tiếp tục, tôi lại lần theo như vậy và trong 20 phút, tôi đi khắp các trang deep web và ... 20 phút ấy tôi tưởng như 20 phút ám ảnh nhất đời tôi, tôi thấy trước mặt những thứ không thể tin được nó có ở trên đời nào là khủng bố, bạo lực, tình ***, những dịch vụ buôn bán ma ***, cần **, hero**, cả những thí nghiệm trên chính loài người, những nhà khoa học điên rồ ấy coi con người như chuột bạch để thí nghiệm những phát minh điên rồ ấy, cả về tình *** trên đời lại có những con người dâ* đãng đến vậy, chúng mang cả trẻ em làm nô lệ tình dục, rồi lại cả những hình ảnh dã man của dịch vụ gi** thuê.

Web chìm (tiếng Anh): deep web) hay còn gọi là mạng chìm (deep web)[1], web ẩn (invisible web[2], undernet, hay hidden web[3]) là từ dùng để chỉ các trang hoặc nội dung trên thế giới mạng World Wide Web không thuộc về Web nổi (Surface Web), gồm những trang không được đánh dấu, chỉ mục (index) và không thể tìm kiếm được khi dùng các công cụ tìm kiếm thông thường. Nội dung của web chìm ẩn bên dưới các bản mẫu HTML,[4][5] và có thể yêu cầu mật khẩu hoặc truy cập bảo mật khác qua trang web công cộng.

Web deep là gì

Các tầng của internet được hình tượng thành một ngọn núi băng, web chìm nằm ở giữa núi băng.

Web chìm bao gồm nhiều ứng dụng rất phổ biến như web mail và ngân hàng trực tuyến nhưng nó cũng bao gồm các dịch vụ mà người dùng phải trả tiền, và được bảo vệ bởi một paywall, như video theo yêu cầu, một số tạp chí và báo chí trực tuyến, và nhiều hơn nữa. Nhà khoa học máy tính Michael K. Bergman được cho là đã tạo ra thuật ngữ này vào năm 2001 như một thuật ngữ lập chỉ mục tìm kiếm.[6]

Năm 2011, lượng thông tin trên web chìm đã vượt hơn hẳn web nổi.

Web chìm là một phần của Internet. Trong một bài báo phát hành năm 2001, nhà học giả cũng như là một doanh nhân tên Michael K. Bergman đã viết: "Những trang deep web hiện nay có kích thước gấp 400 đến 550 lần so với những trang web được định nghĩa thông thường trên thế giới."[7][8][9]

Trong một nghiên cứu tại đại học California, Berkeley năm 2011, dựa trên ước lượng ngoại suy, dung lượng dữ liệu trên web chìm khoảng 7500 terabyte. Cụ thể gồm khoảng 300.000 trang web chìm trong năm 2004, và theo Shestakov, khoảng 14 000 trang web chìm có xuất xứ từ Nga vào năm 2006.

Trong một bài báo chuyên đề về web chìm trên tạp chí Electronic Publishing, Michael Bergman đã nhắc đến việc Jill Ellsworth đã sử dụng thuật ngữ Invisible Web vào năm 1994 để ám chỉ các website không đăng ký với bất kỳ máy tìm kiếm nào cả. Bergman đã trích dẫn một bài viết vào tháng 1 năm 1996 của trâm pu: "Một trang web được thiết kế hợp lý, nhưng người lập ra trang web đó đã không để ý tới việc đăng ký nó với bất kỳ máy tìm kiếm nào. Vì vậy, không ai tìm thấy nó và nó được ẩn. Tôi gọi đó là web ẩn (Invisible Web)."

Thuật ngữ Invisible Web trước đó đã được Bruce Mount và Matthew B. Koll sử dụng tại Personal Library Software, trong một miêu tả về các công cụ cocomelon @1 được tìm thấy trong một ấn phẩm vào tháng 12 năm 1996.

Việc sử dụng lần đầu thuật ngữ Deep Web, hiện nay đã được mọi người công nhận, đó là vào năm 2001 trong một nghiên cứu của Bergman.

Khái niệm hiện tại

Khái niệm Deep Web được sử dụng để chỉ tất cả những trang web mà các máy tìm kiếm như Google, Bing, Yahoo... không thể tìm thấy, bao gồm databases, các thông tin đăng nhập, Webmail,...[10]

Số lượng thông tin trên deep web đang tăng nhanh. Giá trị nội dung của chúng không thể đánh giá đầy đủ được... lượng thông tin được (các máy tìm kiếm) tìm thấy chỉ chiếm 0.03% tổng lượng thông tin có trên Internet.[11]

— Michael K Bergman, [8]

Tài nguyên trên web chìm được phân loại theo một hoặc nhiều loại có trong danh mục sau:

  • Nội dung web động: các trang web động trả về kết quả theo một truy vấn hoặc xử lý theo dạng form, đặc biệt nếu sử dụng các thành phần nhập tên miền mở (như text field); các miền này rất khó xử lý nếu không có kiến thức về tên miền.
  • Các nội dung không được tạo liên kết hyperlink: các trang không liên kết với các trang khác, sẽ ngăn cản các chương trình dò (crawling program) truy cập vào nội dung của nó. Các trang này được truy cập trực tiếp trên thanh địa chỉ trình duyệt, vì không có các đường dẫn từ/trong bất kỳ trang web nào khác.
  • Các trang web phải xác thực truy cập: các trang yêu cầu phải đăng ký và đăng nhập mới vào xem thông tin được (các tài nguyên được password bảo vệ).
  • Các trang web có nội dung thay đổi theo ngữ cảnh: các trang web này hiển thị nội dung thay đổi tùy thuộc vào một số điều kiện tác động, ví dụ như người dùng từ các dải IP của châu Á truy cập vào thì sẽ được xem nội dung phù hợp cho khu vực châu Á.
  • Các nội dung web bị giới hạn truy cập: một số trang web giới hạn việc truy cập tới các nội dung của nó bằng một số phương pháp kỹ thuật như file Robots.txt, CAPTCHAs hoặc tham số HTTP headers để ngăn cấm các máy tìm kiếm truy cập nội dung của nó, cũng như tạo phiên bản cache nội dung.
  • Nội dung sinh từ script hoặc Flash, Ajax: một số trang web chỉ có thể truy cập thông qua một liên kết được sinh ra bởi một đoạn mã JavaScript (mà hva là một ví dụ trực tiếp), hoặc nội dung được nhúng bên trong Flash hoặc chỉ có thể được tải về thông qua Ajax.
  • Các nội dung không theo kiểu HTML/text: Các nội dung dạng text được mã hóa trong các file đa phương tiện (hình ảnh hoặc video) hoặc các định dạng file đặc biệt mà các cỗ máy tìm kiếm không thể xử lý được.
  • Nội dung văn bản chỉ có thể truy cập thông qua giao thức Gopher hoặc các file được lưu trữ trên các máy chủ FTP thì không được lập chỉ mục bởi hầu hết các máy tìm kiếm hiện nay: các máy tìm kiếm thông dụng như Google mặc nhiên không lập chỉ mục cho các trang không dùng giao thức HTTP hoặc HTTPS.

Để khám phá nội dung trên các trang web, các máy tìm kiếm sử dụng các máy dò để lần theo các hyperlink thông qua các số đã biết của cổng giao thức ảo. Kỹ thuật này lý tưởng để khám phá các nguồn tài nguyên trên web nổi, nhưng không có tác dụng mấy đối với web chìm. Ví dụ, những máy dò này không thử tìm các trang liên kết động mà kết quả truy vấn database dựa trên số vô định các truy vấn có thể xảy ra. Chú ý là điều này có thể (một phần) được vượt qua bởi cách cung cấp các đường dẫn tới các kết quả truy vấn, nhưng điều này lại vô tình làm thôi phồng sự nổi tiếng cho một trang deep web.

Vào 2005, Yahoo! thực hiện một dịch vụ tìm kiếm một phần nhỏ của web chìm bằng cách ra mắt Yahoo! Subscriptions. Máy tìm kiếm này tìm kiếm trong vài trang web mà phải đăng ký thành viên mới vào xem nội dung được. Vài trang này hiển thị đầy đủ nội dung cho máy tìm kiếm robot do đó chúng sẽ hiển thị trên kết quả tìm kiếm của người dùng, nhưng sau đó hiển thị lên một trang đăng nhập (log in) hoặc trang đăng ký khi click vào một đường dẫn từ trang kết quả tìm kiếm từ trang đó.

Từ lúc trình duyệt Tor ra đời, người dùng có thể dễ dàng truy cập được vài tầng trong deep web một cách khá an toàn (khỏi những trang dark web hoặc những trang web của tội phạm, web chứa nội dung phi pháp, hacker, thông tin mật...) tràn lan trong deep web mà không được kiểm soát, ảnh hưởng đến sự bảo mật và an toàn của người truy cập. Để duyệt các web trong đấy cần những thư viện các đường dẫn. Và để truy cập được những trang web bảo mật hơn trong web chìm, người dùng cần phải có kiến thức về phần mềm và phần cứng cao. ', ', , và là một vài máy tìm kiếm có khả năng truy cứu vào các trang deep web. Intute đã hết kinh phí vận hành và chỉ lưu trữ tạm thời ngoại tuyến vào tháng 7 năm 2011.

Nói chung, nội dung trên deep web (bao gồm cả dark web) chứa đựng các nội dung sau:[12]

  • Bán vũ khí không có giấy phép
  • Hình ảnh khiêu dâm trẻ em
  • Bán phần mềm độc hại, phần mềm lậu và hướng dẫn về hacking
  • Bán thuốc bất hợp pháp
  • Bán thông tin thẻ tín dụng bị đánh cắp và tài khoản người dùng
  • Bán các tài liệu giả mạo và tiền tệ
  • Tuyển dụng sát thủ
  • Bài bạc
  • Rửa tiền
  • Giao dịch nội gián

Các nhà nghiên cứu đã khám phá ra cách thức dò tìm web chìm một cách tự động. Năm 2011, Sriram Raghavan và Hector Garcia-Molina giới thiệu mô hình kiến trúc cho một máy dò web ẩn, sử dụng các từ khóa cung cấp bởi người dùng hoặc thu thập từ các giao diện truy vấn để truy vấn tới các trang và tài nguyên web chìm. Alexandros Ntoulas, Petros Zerfos, và Junghoo Cho ở UCLA đã tạo ra một máy dò Hidden-Web cho phép tự động tạo ra các truy vấn có ý nghĩa một cách tự động tới các form nhập dữ liệu tìm kiếm. (ví dụ: DEQUEL: ngoài nhập lệnh truy vấn, nó còn chiết xuất dữ liệu có cấu trúc từ các trang kết quả. Một máy dò khác là DeepPeep, một dự án khác của đại học Utah được tài trợ bởi tổ chức National Science Foundation, cho phép tập hợp các nguồn Hidden-Web (dạng Web) trong các tên miền khác nhau dựa vào các kỹ thuật dò tìm dựa trên ngữ cảnh.

Các máy tìm kiếm thương mại đã bắt đầu tạo ra các phương pháp khác nhau để dò tìm web chìm. (Được phát triển đầu tiên bởi Google) và mod oai là các cơ chế cho phép các bên liên quan có thể khám phá các nguồn tài nguyên deep web trên các server (trang chủ) đặc thù. Cả hai cơ chế trên đều cho phép các web server quảng cáo các đường dẫn (URL) được truy cập tới chúng, bằng cách đó nó cho phép tự động khám phá các nguồn tài nguyên không liên kết trực tiếp tới web nổi. Hệ thống duyệt web chìm của Google tính toán trước các tác vụ nhỏ cho mỗi form HTML và đưa vào trang HTML kết quả tìm kiếm vào chỉ mục tìm kiếm của Google. Kết quả hiển thị của các trang web chìm chiếm một ngàn truy vấn trong một giây. Trong hệ thống này, các tính toán trước được thực hiện theo 3 phương thức sau:

  • Chọn các giá trị đầu vào để tìm kiếm các thông tin dạng ký tự (text search) thông qua các từ khóa (keyword),
  • Xác định các yếu tố đầu vào mà chấp nhận chỉ các kiểu dữ liệu xác định nào đó (ví dụ như ngày, tháng...),
  • Chọn một số nhỏ các liên kết đầu vào để tạo ra các URL thích hợp để đưa vào chỉ mục-tìm kiếm-web.

Để tự động xác định một tài nguyên web có phải thuộc dạng web nổi hay web chìm hay không là một việc khó. Một tài nguyên được đánh dấu bởi một search engine, thì không nhất thiết nó thuộc loại web nổi, bởi vì các tài nguyên trên mạng có thể được tìm thấy bằng nhiều phương pháp khác nhau (như Sitemap Protocol, mod oai, OAIster) thay vì các phương pháp dò tìm (crawling) truyền thống. Nếu một máy tìm kiếm cung cấp một đường dẫn của một tài nguyên nào đó trong một kết quả tìm kiếm cụ thể, có thể cho đó là web nổi. Không may là, các máy tìm kiếm không phải không nào cũng cung cấp tất cả các đường dẫn này (backlink). Ngay cả khi có backlink, cũng không cách nào để phát hiện ra nguồn này có cung cấp đường dẫn của chính nó tới các trang web nổi mà không phải crawling toàn bộ trang web hay không. Ngoài ra, cũng có trường hợp một tài nguyên ẩn nấp trên web nổi, và một máy tìm kiếm nào đó chưa tìm ra nó. Do đó, nếu chúng ta có một tài nguyên độc quyền, chúng ta không thể biết chắc chắn tài nguyên đó ẩn nấp trên web nổi hoặc web chìm mà chưa qua crawl (dò tìm) trang web đó.

Hầu kết công việc phân loại kết quả tìm kiếm đã được thư mục hóa web nổi bằng các đề tài. Để phân loại tài nguyên web chìm, Ipeirotis et al đã giới thiệu một thuật toán cho phép phân loại một trang web chìm thành các thư mục mà tạo ra nhiều hit nhất dựa trên vài lựa chọn cẩn thận, các truy vấn-tập trung vào-chủ đề. Các chỉ mục của deep web đang phát triển gồm có OAIsters tại đại học Michigan, Intute tại đại học Manchester, Infomine tại đại học California tại Riverside, và DirectSearch (bởi Gary Price). Các xếp loại này đứng trên một thách thức là việc tìm kiếm web chìm chia ra 2 cấp độ thư mục hóa. Cấp độ 1 là các trang được thư mục hóa thành các chủ đề theo chiều dọc (như sức khỏe, du lịch, ô tô) và các chủ đề-phụ tùy theo tính chất của các nội dung nằm dưới các database (cơ sở dữ liệu) của chúng.

Thách thức lớn hơn nữa là để thư mục hóa và biểu đồ hóa các thông tin trích xuất từ các nguồn web chìm theo nhu cầu người dùng-cuối. Các bản báo cáo tìm kiếm web chìm không thể hiển thị các URL như các tìm kiếm thông thường. Người dùng-cuối mong chờ các công cụ tìm kiếm không chỉ tìm ra những gì họ muốn một cách nhất mà còn phải hiển thị kết quả đó một cách trực quan và thân thiện với người dùng nữa. Để hiểu được ngữ nghĩa, các báo cáo tìm kiếm phải hiểu sâu vào nội dung nằm dưới các tài nguyên này hoặc là người dùng sẽ bị lạc lối trong biển URL mà nội dung đằng sau nó chả ăn nhập gì cả. Định dạng mà các kết quả tìm kiếm hiển thị ra rất phong phú tùy theo chủ đề đặc thù của tìm kiếm nào và loại nội dung được phô ra. Thách thức này là tìm ra và biểu đồ hóa các thành phần dữ liệu tương tự từ nhiều nguồn khác nhau sao cho các kết quả tìm kiếm được sắp xếp trong một định dạng thống nhất trên bản báo cáo tìm kiếm bất kể nguồn tài nguyên mà nó lấy từ đâu.

Việc chia tầng trên Web chìm có ý kiến trái ngược: Một số cho rằng trên Web chìm có 8 tầng (hoặc hơn). Trong khi số khác khẳng định rằng, trên Web chìm hoàn toàn không có tầng nào cả và khái niệm tầng trên Web chìm dùng để chỉ khả năng bảo mật, khó truy cập của một địa chỉ Internet nào đó, hay mức độ nguy hiểm của các thông tin website chia sẻ... được phân ra nhờ FBI.

  • Mức độ 1: Web nổi (Surface Web)

Dùng để chỉ những trang web mà chúng ta vẫn truy cập hàng ngày như Wikipedia, Youtube, Facebook... Chúng gọi chung là Web nổi, mặc dù đôi khi chúng được gọi là Common Web (Web thông thường) và được cho là Tầng 0 của Internet, trong khi những trang web đen hơn như Reddit mới là tầng 1 của Internet.

  • Mức độ 2: Web vô thừa nhận (Bergie Web)

Được cho rằng, đây là tầng cuối cùng mà một người dùng Internet có thể truy cập một cách thông thường nhất mà không cần sự can thiệp khác để có thể truy cập chúng (thông qua một proxy, dùng các trình duyệt hỗ trợ như Tor hoặc có sự can thiệp đặc biệt vào phần cứng máy tính). Theo khuyến cáo, tốt nhất không nên truy cập những trang web sau với mức độ cao hơn 2. Tại đây, bạn có thể bắt gặp những trang web bí mật (ngầm) được liệt kê, ví dụ như 4chan.

  • Mức độ 3: Web ẩn, Web chìm (Deep web, Onion Web)

Tầng này có thể truy cập thông qua proxy hoặc hệ thống mạng Tor. Chứa đựng những thông tin nhạy cảm, kinh dị: ấu dâm, clip kinh dị, trang web của các hacker (các trang chuyên hack).. Vì là tầng đầu tiên của Internet mà việc truy cập phải được phải thông qua một sự hỗ trợ từ mạng Tor hoặc thiết đặt phần cứng, nên đôi khi cũng dùng để chỉ cả những tầng cao hơn của Internet. Tầng này không thể truy cập bằng trình duyệt bình thường vì địa chỉ đuôi của trang web loại này (.onion) khi truy cập sẽ bị DNS xem là địa chỉ web không hợp lệ khi truy cập. Chỉ có khi đã kết nối với Proxy mới có thể vào tầng này bằng trình duyệt bình thường.

  • Mức độ 4: Web điều lệ (Web Charter)

Loại mạng này được chia thành 2 phần, để chỉ cách thức truy cập:

Phần 1: Được truy cập thông qua Tor, chứa đựng những nội dung liên quan đến ma tuý, vũ khí, buôn bán người (human trafficking), giết người thuê, buôn bán các loại mặt hàng cấm. Hoặc các ấn bản cấm (phim, sách về dị giáo, hoặc bạo lực...) thậm chí là chợ đen ma túy như Silk Road. Đây là tầng cuối cùng có thể truy cập bằng trình duyệt Tor khi sử dụng máy tính bình thường. Ở tầng này đối với người dùng chuyên nghiệp thường sẽ sử dụng Linux chứ không phải Windows vì Windows tuy bảo mật nhưng thực tế bên trong có rất nhiều lỗ hổng bảo mật chưa được khai thác rất nguy hiểm cho người sử dụng. Phần 2: Truy cập chỉ khi có sự thay đổi về phần cứng (nâng cấp phần cứng máy tính sao cho thật mạnh rồi tiếp tục vào.) (Ở đây chỉ nên sử dụng Linux chứ không sử dụng Windows vì Windows ở đây đã hết an toàn. Chúng thường chứa đựng thí nghiệm tình dục trên trẻ em, phụ nữ mang thai và các thí nghiệm khoa học kỳ lạ và vô cùng kinh khủng (kể cả trên cơ thể con người), thường khó được chấp nhận được vì tính vô nhân đạo của chúng.
  • Mức độ 5: Web ẩn dạng mạng lưới xuyên thế giới - mạng trong mạng

Nếu muốn truy cập được các trang web tại mức độ 5, cần có một hệ thống máy trạm đặc biệt. Tại đây là nơi rò rỉ những tài liệu mật của Quốc gia, tổ chức mà vẫn thường thấy trên Wikileaks; các hoạt động tâm linh kỳ quái, các hội đoàn hoạt động bí mật, những hoạt động hiến tế... Chỉ có thể truy cập bằng máy trạm. Việc kết nối với loại mạng này được cảnh báo là nên truy cập bằng một loại máy trạm đặc biệt, thường các loại máy này có cấu hình rất mạnh để có thể giải mã tất cả khóa bảo mật có trong trang web. Loại mạng này là mạng - trong - mạng, để kết nối vào loại web này cần thời gian rất lâu do phải kết nối với nhiều máy chủ.

  • Mức độ 6: Diversion Web

Việc truy cập vào Diversion Web đòi hỏi phải hiểu rõ các vấn đề liên quan đến cơ học lượng tử và cần có kiến thức sâu rộng về máy tính và internet. Kể cả việc vượt qua những hàng rào bảo mật của Chính phủ. Không quá nhiều thông tin được biết về các trang web ở mức độ 6, thường được xem là rào cản an toàn cho người truy cập nếu không muốn chịu rủi ro khi tiến sâu hơn.

  • Mức độ 7: The Fog/Virus Soup

Là nơi hoạt động của những chuyên gia An ninh Internet, các hacker, thường diễn ra các hành động phá hoại lẫn nhau, một cách công khai hoặc lén lút nhằm bảo vệ những thông tin mật (những đơn hàng giá trị cao hàng tỷ đôla). Mọi hoạt động tại đây đều không an toàn, đặc biệt là những tài nguyên tải về, thường chứa đựng virus máy tính.

  • Mức độ 8: The Primarch System

Là nơi tận cùng của "Đại dương Internet", được phát hiện ra vào năm 2000 trong một lần rà soát dữ liệu tập trung (Massive Deep Web Scan).

Việc có hay không việc phân tầng Deep Web dựa mức độ bảo mật của chúng vẫn chưa có sự thống nhất.

  • Một số lượng không nhỏ các trang Deep Web cung cấp những thông tin không tốt cho cộng đồng như ma tuý, tình dục (đặc biệt là tình dục liên quan đến trẻ em - ấu dâm, tra tấn tình dục), mua bán vũ khí trái phép. Đặc biệt là giao dịch tiền ảo (như Bitcoin), mua bán nội tạng, mua bán người
  • Deep Web cũng là nơi chia sẻ những tài liệu mật bị rò rỉ, thông qua WikiLeaks chẳng hạn.

Ranh giới giữa những gì mà các cỗ máy tìm kiếm phát hiện được và deep web đã bắt đầu trở nên phai nhòa, khi các dịch vụ search bắt đầu cung cấp dịch vụ truy xuất tới một phần hoặc toàn bộ các nội dung cấm cấp 1. Lượng nội dung deep web đang được mở ra để tự do tìm kiếm khi các nhà xuất bản và thư thiện đồng ý với các cỗ máy tìm kiếm lớn. Trong tương lai, nội dung của deep web có thể bị thu hẹp bởi vì cơ hội tìm kiếm thông tin bằng cách trả phí hoặc các dạng bản quyền khác ra đời.

  • Dark web

  1. ^ Hamilton, Nigel. “The Mechanics of a Deep Net Metasearch Engine”. CiteSeerX 10.1.1.90.5847. Chú thích journal cần |journal= (trợ giúp)
  2. ^ Devine, Jane; Egger-Sider, Francine (tháng 7 năm 2004). “Beyond google: the invisible web in the academic library”. The Journal of Academic Librarianship. 30 (4): 265–269. doi:10.1016/j.acalib.2004.04.010. Truy cập ngày 6 tháng 2 năm 2014.
  3. ^ Raghavan, Sriram; Garcia-Molina, Hector (11–ngày 14 tháng 9 năm 2001). “Crawling the Hidden Web”. 27th International Conference on Very Large Data Bases. Rome, Italy. Kiểm tra giá trị ngày tháng trong: |date= (trợ giúp)
  4. ^ Madhavan, J., Ko, D., Kot, Ł., Ganapathy, V., Rasmussen, A., & Halevy, A. (2008). Google's deep web crawl. Proceedings of the VLDB Endowment, 1(2), 1241-1252.
  5. ^ Shedden, Sam (ngày 8 tháng 6 năm 2014). “How Do You Want Me to Do It? Does It Have to Look like an Accident? – an Assassin Selling a Hit on the Net; REVEALED INSIDE THE DEEP WEB”. Sunday pMail. Trinity Mirror. Truy cập ngày 5 tháng 5 năm 2017 – qua Questia.
  6. ^ Wright, Alex (ngày 22 tháng 2 năm 2009). “Exploring a 'Deep Web' That Google Can't Grasp”. The New York Times. Truy cập ngày 23 tháng 2 năm 2009.
  7. ^ Câu gốc: "The deep web is currently 400 to 550 times larger than the commonly defined world wide web."
  8. ^ a b The dark side of the internet - The Guardian
  9. ^ Deep Web Search Engines to Explore the Hidden Internet - The Hacker News
  10. ^ What is Deep web - Deep Web Search Engines to Explore the Hidden Internet - The Hacker News
  11. ^ The deep web is the fastest growing category of new information on the internet … The value of deep web content is immeasurable … internet searches are searching only 0.03% … of the [total web] pages available.
  12. ^ What's Hiding In The Dark Web? - TruthFinder.com

Lấy từ “https://vi.wikipedia.org/w/index.php?title=Web_chìm&oldid=68250504”


Page 2

4chan là một trang web diễn đàn hình ảnh (imageboard) tiếng Anh. Người dùng thường đăng (post) một cách ẩn danh, với những bài đăng mới nhất xếp trên. 4chan được chia thành nhiều bảng (board) với nội dung và nguyên tắc khác nhau. Người dùng không cần và cũng không thể đăng nhập (trừ khi tuyển nhân sự).

Web deep là gì
4chan

Loại website

Diễn đàn hình ảnh (imageboard)Có sẵn bằngTiếng AnhChủ sở hữuHiroyuki NishimuraTạo bởiChristopher PooleWebsitewww.4chan.orgThứ hạng Alexa
Web deep là gì
780 (May 2016[cập nhật])[1]Thương mạiCóYêu cầu đăng kýKhôngBắt đầu hoạt độngNgày 1 tháng 10 năm 2003[2]

4chan mở cửa ngày 1 tháng 10 năm 2003, nó ban đầu được dùng để đăng hình và tranh luận về manga và anime, và dựa trên những diễn đàn hình ảnh Nhật Bản, đặc biệt là 2chan. 4chan nhanh chóng phổ biến và mở rộng, dù một phần lớn 4chan vẫn tập trung vào otaku, anime, và nền văn hóa Nhật Bản.

Trang này liên quan đến một số tiểu văn hóa và hoạt động Internet, đáng chú ý là Anonymous và Project Chanology. Người dùng 4chan cũng đã tạo nên hoặc phổ biến các meme trên Internet như lolcat, Rickrolling, "Chocolate Rain", Pedobear. Bảng "Random", hay "/b/", là bảng đầu tiên của trang, và cũng nhận nhiều lược truy cập nhất.[3][4] Như tên, bảng Random chỉ có luật lệ đăng bài tối thiểu. Gawker từng phát biểu rằng "đọc /b/ sẽ làm bạn chảy não".[5] The Guardian từng tóm tắt cộng đồng 4chan là "điên rồ, trẻ con... thông minh, nực cười và đáng báo động."[6]

 

Christopher Poole ("moot") tại XOXO Festival (2012)

4chan khởi đầu 2003 trong phòng một học sinh 15 tuổi tên Christopher Poole, người đăng bài dưới tên "moot".[7] Trước khi bắt đầu 4chan, Poole đóng góp thường xuyên trên diễn đàn Something Awful.[8] Anh có ý định làm 4chan trở thành nơi tranh luận về manga và anime, một phiên bản của diễn đàn hình ảnh Futaba Channel ("2chan") Nhật Bản.[9][10]

Trang web được chia làm sáu phần: Japanese culture (văn hóa Nhật Bản), Interests (thú vui), Creative (sáng tạo), Adult (người lớn - 18+), Other (khác), và Misc (18+). Các phần này lại được chia thành các bảng để tranh luận về các chủ đề như anime và manga (/a/), kỹ thuật và công nghệ (/g/), thể thao (/sp/), nhiếp ảnh (/p/), âm nhạc (/mu/), hentai (/h/), torrent (/t/), du lịch (/trv/), thể chất (/fit/), cũng như một bảng hỗn tạp (/b/).

Japanese culture (văn hóa Nhật Bản):

  • Anime & Manga
  • Anime/Cute
  • Anime/Wallpapers
  • Mecha
  • Cosplay & EGL
  • Cute/Male
  • Flash
  • Transportation
  • Otaku Culture
  • Virtual YouTubers

Video Games

  • Video Games
  • Video Game Generals
  • Video Games/Multiplayer
  • Video Games/Mobile
  • Pokémon
  • Retro Games
  • Video Games/RPG
  • Video Games/Strategy

Interests (Sở thich)

  • Comics & Cartoons
  • Technology
  • Television & Film
  • Weapons
  • Auto
  • Animals & Nature
  • Traditional Games
  • Sports
  • Extreme Sports
  • Professional Wrestling
  • Science & Math
  • History & Humanities
  • International
  • Outdoors
  • Toys

Creative (sáng tạo)

  • Oekaki
  • Papercraft & Origami
  • Photography
  • Food & Cooking
  • Artwork/Critique
  • Wallpapers/General
  • Literature
  • Music
  • Fashion
  • 3DCG
  • Graphic Design
  • Do-It-Yourself
  • Worksafe GIF
  • Quests

Other (Khác)

  • Business & Finance
  • Travel
  • Fitness
  • Paranormal
  • Advice
  • LGBT
  • Pony
  • Current News
  • Worksafe Requests
  • Very Important Posts

Misc. (NSFW)

  • Random
  • ROBOT9001
  • Politically Incorrect
  • International/Random
  • Cams & Meetups
  • Shit 4chan Says

Adult (NSFW) (Người lớn)

  • Sexy Beautiful Women
  • Hardcore
  • Handsome Men
  • Hentai
  • Ecchi
  • Yuri
  • Hentai/Alternative
  • Yaoi
  • Torrents
  • High Resolution
  • Adult GIF
  • Adult Cartoons
  • Adult Requests

  1. ^ “4chan.org Site Info”. Alexa Internet. Truy cập ngày 26 tháng 5 năm 2016.
  2. ^ moot (ngày 1 tháng 10 năm 2003). “Welcome”. 4chan. Truy cập ngày 2 tháng 8 năm 2008.
  3. ^ Bernstein, M. S., Monroy-Hernandez, A., Harry, D., Andre, P., Panovich, K., & Vargas, G. (2011). “4chan and /b/: An Analysis of Anonymity and Ephemerality in a Large Online Community” (PDF). MIT Computer Science and Artificial Intelligence Lboratory. Association for the Advancement of Artificial Intelligence. Truy cập ngày 27 tháng 2 năm 2014.Quản lý CS1: nhiều tên: danh sách tác giả (liên kết)
  4. ^ Bartlett, Jamie (ngày 1 tháng 10 năm 2013). “4chan: The Role of Anonymity in the Meme-Generating Cesspool of the Web”. Wired.co.uk. Wired. Truy cập ngày 27 tháng 2 năm 2014.
  5. ^ Nick Douglas (ngày 18 tháng 1 năm 2008). “What The Hell Are 4chan, ED, Something Awful, And "b"?”. Gawker.com. Bản gốc lưu trữ ngày 24 tháng 7 năm 2008. Truy cập ngày 15 tháng 7 năm 2008.
  6. ^ Sean Michaels (ngày 19 tháng 3 năm 2008). “Taking the Rick”. The Guardian. London. Lưu trữ bản gốc ngày 27 tháng 7 năm 2008. Truy cập ngày 24 tháng 7 năm 2008.
  7. ^ Jamin Brophy-Warren (ngày 9 tháng 7 năm 2008). “Modest Web Site Is Behind a Bevy of Memes”. Wall Street Journal. Lưu trữ bản gốc ngày 29 tháng 8 năm 2008. Truy cập ngày 24 tháng 7 năm 2008.
  8. ^ Jerry Langton (ngày 22 tháng 9 năm 2007). “Funny how `stupid' site is addictive”. The Toronto Star. Lưu trữ bản gốc ngày 22 tháng 6 năm 2008. Truy cập ngày 16 tháng 7 năm 2008.
  9. ^ Danny O'Brien (ngày 2 tháng 5 năm 2008). “Tuning into innovation outside the confines of English-speaking web”. The Irish Times. Truy cập ngày 17 tháng 1 năm 2009.
  10. ^ “FAQ – What is 4chan?”. 4chan. Truy cập ngày 15 tháng 7 năm 2008.

  • Trang web chính thức
  • TED talk on 4chan
  • Now 10 years old, 4chan is the most important site you never visit Daily Dot interview with Christopher Poole
  • A more complete history of 4chan

Lấy từ “https://vi.wikipedia.org/w/index.php?title=4chan&oldid=66596538”