Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu

5/5 - (1 bình chọn)

Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu. Bạn đang chuẩn bị làm bài báo cáo thực tập nghề nghiệp, hay bạn đang làm đồ án tốt nghiệp, nhưng các bạn lại chưa biết lựa chọn đề tài nào cho phù hợp với trường hợp của bạn, giờ đây các bạn không còn phải lo lắng về vấn đề đó nữa, vì dưới đây Dịch Vụ Hỗ Trợ Viết Luận Văn sẽ chia sẻ đến các bạn sinh viên một bài Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu các bạn có thể tham khảo thử nhé.

LỜI MỞ ĐẦU

Sự phát triển của xã hội dẫn đến bùng nổ dữ liệu trong những thập niên gần đây. Những sản phẩm công nghệ mới đem lại nhiều tiện ích trong cuộc sống, được ứng dụng ở nhiều lĩnh vực thông tin truyền thông. Hệ thống thông tin điện tử, trực tuyến, các website của những doanh nghiệp tổ chức được phát triển mạnh mẽ góp phần tăng cường mối quan hệ, hợp tác ở nhiều lĩnh vực như văn hóa xã hội, khoa học công nghệ, y tế, giáo dục, giải trí… Con người có trong tay nhiều công cụ để chia sẻ thông tin qua blog, website, diễn đàn, các mạng xã hội trực tuyến như Facebook, Twitter, Youtube…Cách đây không lâu, vào năm 2000, chỉ mới có một phần tư lượng thông tin lưu trữ ở dạng kỹ thuật số trên thế giới. Ba phần tư còn lại được lưu trữ trên giấy tờ, phim, và các phương tiện analog khác. Nhưng do lượng dữ liệu kỹ thuật số bùng nổ quá nhanh – cứ 3 năm lại tăng gấp đôi – cục diện trên nhanh chóng đảo ngược. Ngày nay, chỉ dưới 2% tổng lượng thông tin chưa được chuyển sang lưu trữ ở dạng kỹ thuật số.

Tuy nhiên những phương thức lưu trữ dữ liệu đã bộc lộ rất nhiều hạn chế. Ngày nay khối lượng dữ liệu vô cùng lớn, kích cỡ lên đến hàng trăm terabyte cho đến petabyte chỉ cho một tập hợp dữ liệu. Cùng với đó khi mà hơn 80% dữ liệu sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, bài hát, dữ liệu cảm biến, thiết bị chăm sóc sức khỏe…) thì những phương pháp lưu trữ dữ liệu truyền thống không thể đảm đương được. Những phương pháp đó không cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau. Khối lượng dữ liệu gia tăng nhanh nhưng tốc độ xử lý dữ liệu (thu nhận, xử lý, đáp trả) mất rất nhiều thời gian trong khi nhu cầu của con người muốn xử lý được ngay dữ liệu tức thời (tính đến bằng mili giây). Điều đó thúc đẩy con người tạo ra một phương pháp và quản lý dữ liệu khác phù hợp hơn. (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)

Và Big data ra đời đã đánh dấu một trang mới trong lịch sử phát triển công nghệ. Big data là một hệ thống dữ liệu liệu vô cùng lớn, đến mức không thể lưu trữ trong các hệ thống cơ sở dữ liệu truyền thống. Sự phức tạp và không thể định hình thành một thể thống nhất của dữ liệu Big data cũng là một nhân tố làm nó trở nên khó đồng bộ để lưu trữ trong một hệ thống cơ sở dữ liệu truyền thống. Dữ liệu được thu thập từ nhiều nguồn khác nhau bao gồm: dữ liệu không giới hạn từ internet, web 2.0, từ các thiết bị nghiên cứu (dữ liệu thiên văn, dịch vụ y tế…), dữ liệu từ các thiết bị thông minh (hay còn gọi là smart device). Do đó nó mang cấu trúc không cố định. Big data đã thể hiện được sức mạnh và tầm ảnh hưởng đến mọi lĩnh vực trong xã hội.

Trong đề tài này em sẽ trình bày về công nghệ quản lý Big data, mô hình xử lý dữ liệu phân tán Mapreduce và hệ thống Hadoop.

CHƯƠNG 1: CÔNG NGHỆ QUẢN LÝ DỮ LIỆU LỚN (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)

1.1 Công nghệ nền tảng áp dụng cho Big data

1.1.1 Tìm hiểu các thành phần công nghệ Big data

Big data có số lượng dữ liệu lưu trữ rất lớn và thường lưu trữ các dòng dữ liệu có kiểu khác nhau ở tốc độ cao. Nhiều kĩ sư phần mềm dầy dặn kinh nghiệm và các nhà phát triển biết cách để nhắm đến một thậm chí là hai tình huống này hoàn toàn dễ dàng. Ví dụ, nếu bạn phải đối mặt dữ liệu lớn cần giải quyết cùng với yêu cầu khả năng chịu lỗi, bạn có thể lựa chọn triển khai cụm cơ sở dữ liệu dư thừa trong trung tâm cơ sở dữ liệu với cơ sở hạ tầng mạng rất nhanh. Tương tự, nếu yêu cầu là kết hợp nhiều loại dữ liệu khác nhau từ sự hiểu biết và các nguồn thông tin ẩn danh, lựa chọn có thể là xây dựng một mô hình di chuyển kho dữ liệu theo yêu cầu của khách hàng.

Tuy nhiên bạn có thể không có không đủ điều kiện để triển khai cụ thể. Khi bạn rời khỏi nơi mình có quyền điều khiển và kiểm soát dữ liệu chặt chẽ, bạn cần tạo ra một mô hình kiến trúc để nhắm đến loại môi trường lai. Môi trường mới này đòi hỏi kiến trúc này phải hiểu về tính chất của Big data và yêu cầu để đưa kiến thức vào giải pháp kinh doanh. Trong chương này chúng ta sẽ tìm hiểu về kiến trúc liên quan đến dữ liệu lớn. (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)

1.1.1.1 Sự dư thừa cơ sở hạ tầng vật lý

  • cấp thấp nhất là cơ sở hạ tầng vật lý như phần cứng, mạng, … Công ty của bạn có thể đã có trung tâm dữ liệu hoặc được đầu tư cơ sở vật chất nên bạn muốn tìm một cách để sử dụng dữ liệu hiện hữu. Thi hành dữ liệu lớn có yêu cầu rất cụ thể trên tất cả các phần tử trong kiến trúc tham khảo, vì thế bạn cần kiểm tra những yêu cầu này về nền tảng cơ sở lớp – lớp để đảm bảo sẽ thực hiện và nâng cấp theo đúng yêu cầu của công ty. Điều quan trọng là phải thực hiện theo đúng nguyên tắc. Mức độ ưu tiên theo danh sách nguyên tắc này bao gồm:
  • Performance (Hiệu năng): Thực thi thường được tiến hành nối đuôi nhau dựa trên một giao dịch hay một câu hỏi có yêu cầu ở tốc độ rất nhanh (hiệu suất cao), do vậy chi phí cho cơ sở hạ tầng thường rất tốn kém.
  • Availability (Tính sẵn có): Bạn có cần đảm bảo thời gian dịch vụ 100%? Công ty của bạn có thể chờ được bao lâu trong trường hợp dịch vụ gián đoạn hoặc không đạt yêu cầu? Cơ sở hạ tầng đảm bảo tính sẵn sàng cao cũng rất tốn kém.
  • Scalability (Khả năng mở rộng): Cơ sở hạ tầng của bạn cần được mở rộng như thế nào? Dung lượng đĩa cần bao nhiêu để đảm bao yêu cầu trong thời điểm hiện tại và tương lai?
  • Flexibility (Linh hoạt): Bạn thêm tài nguyên vào cơ sở hạ tầng sớm nhất là khi nào? Cơ sở hạ tầng khôi phục sau thất bại nhanh mức nào? Cơ sở hạ tầng đạt mức linh hoạt nhất rất tốn kém nhưng có thể kiểm soát bằng dịch vụ điện toán đám mây, nơi bạn chỉ trả tiền cho những gì bạn thực sự sử dụng.
  • Cost (Chi phí): Bạn có thể đủ khả năng chi trả cho cái gì? Bởi cơ sở hạ tầng là tập hợp của rất nhiều thành phần, bạn có thể mua hệ thống mạng tốt nhất và tiết kiệm tiền cho việc lưu trữ hoặc ngược lại. Bạn cần lập yêu cầu đối với mỗi lĩnh vực trong hoàn cảnh ngân sách cụ thể và chi trả cho những nơi cần thiết.

Big data hoàn toàn tập trung vào tốc độ xử lý cao, khả năng lưu trữ dữ liệu lớn và đa dạng nên cơ sở vật chất theo nghĩa đen sẽ quyết định đến sự thành bại của việc thực hiện. Hầu hết việc thực thi Big data cần ở mức độ sẵn sàng cao nên mạng, server và bộ lưu trữ phải vừa có thể thay đổi (mở rộng, thu hẹp), vừa phải tránh dư thừa. Khả năng thay đổi và dư thừa có mối quan hệ với nhau. Về bản chất luôn có lý do khiến cho ngay cả hệ thống mạng tốt nhất cũng có thể bị lỗi như là một trục trặc phần cứng. Do đó công nghệ dự phòng đảm bảo rằng trục trặc này sẽ không gây ra ngưng trệ. (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)

  • Sự dư thừa mạng

Mạng nên dư thừa và phải có đủ khả năng thích ứng trước số lượng và tốc độ của dữ liệu ra vào trong mạng lưới giao thông trên mạng. Khi bạn bắt đầu làm về Big data, mạng là phần thiết yếu trong chiến lược tin học của bạn. Nó là cơ sở để gia tăng số lượng và vận tốc.

Những người thiết kế cơ sở hạ tầng nên lập kế hoạch cho hệ thống mạng. Khi lưu lượng giao thông mạng thay đổi (tăng, giảm), có sự ảnh hưởng tới tài sản vật chất liên quan đến việc triển khai thực hiện. Cơ sở hạ tầng của bạn nên đưa ra khả năng giám sát giúp người điều hành có thể phản ứng khi lượng tài nguyên tăng lên dẫn đến thay đổi khối lượng công việc.

  • Quản lý phần cứng: Bộ lưu trữ và Server

Phần cứng (bộ lưu trữ và server) phải có đủ tốc độ và năng lực xử lý tất cả các khả năng của Big data. Đó là sử dụng một ít để có mạng tốc độ cao cùng với các server chậm bởi vì các máy chủ có thể trong tình trạng thắt nút cổ chai. Tuy nhiên một bộ lưu trữ dữ liệu nhanh và tính toán các máy chủ có thể vượt qua hiệu suất mạng. Tất nhiên, sẽ không có gì hoạt động tốt nếu hiệu suất mạng thấp và kém chất lượng.

  • Hoạt động cơ sở hạ tầng

Một thiết kế quan trọng cần quan tâm là quản lý hoạt động cơ sở hạ tầng. Mức cao nhất về hiệu suất và tính linh hoạt chỉ xuất hiện trong một môi trường được quản lý tốt. Các nhà quản lý dữ liệu có thể dự đoán và ngăn chặn các thất bại thảm hại, như vậy giữ được sự toàn vẹn của dữ liệu và duy trì quy trình nghiệp vụ. (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)

1.1.1.2 Cơ sở hạ tầng an ninh

An ninh và bảo mật trong Big data tương tự như các yêu cầu về môi trường dữ liệu thông thường. Các yêu cầu về an ninh phải được liên kết chặt chẽ với nhu cầu nghiệp vụ cụ thể. Một số thách thức phát sinh khi Big data trở thành một phần của chiến lược bao gồm:

  • Truy cập dữ liệu: Khả năng truy cập dữ liệu của người dùng để tính toán dữ liệu lớn có cùng mức độ yêu cầu kĩ thuật như triển khai dữ liệu không lớn. Dữ liệu cần có chỉ dành cho những người có nhu cầu nghiệp vụ để kiểm tra hoặc tương tác với nó. Hầu hết các nền tảng lưu trữ dữ liệu có hệ thống an ninh nghiêm ngặt và thường được tăng cường với mộ khả năng nhận dạng hợp nhất, cung cấp truy cập thích hợp trên nhiều lớp của kiến trúc.
  • Truy cập ứng dụng: Truy cập dữ liệu ứng dụng cũng tương đối đơn giản từ góc độ kĩ thuật. Hầu hết các giao diện lập trình ứng dụng (API) cung cấp bảo vệ từ việc sử dụng trái phép hoặc truy cập. Mức độ bảo vệ thích hợp nhất cho triển khai thực hiện Big data
  • Mã hóa dữ liệu: Mã hóa dữ liệu là thách thức lớn nhất về bảo mật trong môi trường Big data. Trong môi trường truyền thống, mã hóa và giải mã dữ liệu thực sự cần nguồn lực lớn của hệ thống. Với khối lượng, tốc độ và sự đa dạng của Big data, vấn đề này càng khó khăn hơn. Mã hóa dữ liệu là cách tốt nhất để cung cấp khả năng tính toán nhiều hơn và nhanh hơn. Tuy nhiên điều này đi kèm với một bảng giá. Do vậy cần xác định phần dữ liệu nào cần bảo mật và để mã hóa các mục cần thiết. (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)
  • Phát hiện đe dọa: Bao gồm các thiết bị di động và các mạng xã hội theo cấp số nhân tăng cả số lượng dữ liệu và các mối đe dọa an ninh. Do đó điều quan trọng là các tổ chức có cách tiếp cận vòng ngoài an ninh.

1.1.2 Ảo hóa và hỗ trợ tính toán phân tán

Ảo hóa là một công nghệ nền tảng áp dụng đối với việc thực hiện điện toán đám mây và dữ liệu lớn. Nó cung cấp cơ sở cho nhiều thuộc tính nền tảng cần thiết để truy cập, lưu trữ, phân tích và quản lý các thành phần tính toán phân tán trong môi trường dữ liệu lớn. Ảo hóa – quá trình sử dụng tài nguyên máy tính bắt chước các nguồn lực khác – được đánh giá cao vì khả năng của nó để tăng nguồn lực CNTT hiệu quả và khả năng mở rộng. Một ứng dụng chính của ảo hóa là hợp nhất máy chủ, giúp các tổ chức nâng cao việc sử dụng các máy chủ vật lý và có khả năng tiết kiệm chi phí cơ sở hạ tầng. Tuy nhiên, có thể tìm thấy nhiều lợi ích của ảo hóa. Các công ty mà ban đầu chỉ tập trung vào công nghệ ảo hóa máy chủ hiện nay đang nhận ra rằng nó có thể được áp dụng trên cơ sở hạ tầng CNTT toàn bộ, bao gồm cả các phần mềm, lưu trữ và hệ thống mạng.

1.1.3 Kiểm tra đám mây và Big data

Sức mạnh của đám mây là người dùng có thể truy cập vào tài nguyên máy tính và lưu trữ cần thiết với rất ít hoặc không có hỗ trợ IT hay phải mua thêm phần cứng hoặc phần mềm. Một trong những đặc điểm quan trọng của đám mây là khả năng mở rộng đàn hồi: Người dùng có thể thêm hoặc bớt đi các nguồn lực trong gần như thời gian thực dựa trên yêu cầu thay đổi. Các đám mây đóng một vai trò quan trọng trong thế giới dữ liệu lớn. Những thay đổi lớn xảy ra khi các thành phần cơ sở hạ tầng được kết hợp với những tiến bộ trong quản lý dữ liệu. Mở rộng chiều ngang và tối ưu hóa cơ sở hạ tầng hỗ trợ việc thực hiện thực tế của dữ liệu lớn.

1.2 Quản lý dữ liệu lớn (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)

1.2.1 Cơ sở dữ liệu hoạt động

Dữ liệu lớn đang trở thành một yếu tố quan trọng trong cách tổ chức tận dụng dữ liệu có dung lượng lớn với tốc độ cao để giải quyết vấn đề dữ liệu cụ thể. Tuy nhiên, dữ liệu lớn không tồn tại độc lập. Để có hiệu quả, các công ty thường cần kết hợp các kết quả phân tích dữ liệu lớn với các dữ liệu hiện có trong kinh doanh. Nói cách khác, bạn không thể nghĩ về dữ liệu lớn trong sự độc lập từ các nguồn dữ liệu hoạt động. Có một loạt các dịch vụ dữ liệu hoạt động quan trọng.

Một trong những dịch vụ quan trọng nhất được cung cấp bởi cơ sở dữ liệu hoạt động (các cửa hàng cũng được gọi là dữ liệu) là kiên trì. Sự kiên trì đảm bảo rằng các dữ liệu được lưu trữ trong cơ sở dữ liệu sẽ không được thay đổi mà không cần sự cho phép và nó sẽ có sẵn miễn là nó quan trọng đối với các doanh nghiệp. Những gì tốt là một cơ sở dữ liệu, nếu nó không thể được tin cậy để bảo vệ dữ liệu mà bạn đặt vào nó? Với yêu cầu quan trọng này, bạn phải suy nghĩ về những loại dữ liệu bạn muốn lưu giữ, làm thế nào bạn có thể truy cập và cập nhật nó, và làm thế nào bạn có thể sử dụng nó để đưa ra quyết định nghiệp vụ. Ở cấp độ cơ bản này, sự lựa chọn của các công cụ cơ sở dữ liệu là rất quan trọng để thành công trong việc thực hiện dữ liệu lớn của bạn. (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)

Cơ sở dữ liệu quan hệ được xây dựng trên một hoặc nhiều mối quan hệ và được đại diện bởi các bảng. Các bảng này được định nghĩa bởi các cột, và các dữ liệu được lưu trữ trong các hàng. Các khóa chính thường là cột đầu tiên trong bảng. Sự nhất quán của cơ sở dữ liệu và phần lớn giá trị của nó được thực hiện bằng cách “bình thường hóa” các dữ liệu. Như tên của nó, dữ liệu được chuẩn hóa đã được chuyển đổi từ định dạng gốc vào một chia sẻ, được thoả thuận định dạng. Ví dụ trong một cơ sở dữ liệu bạn có thể có “điện thoại” như XXX-XXX-XXXX trong khi ở khác nó có thể là XXXXXXXXX. Để đạt được một cái nhìn nhất quán của thông tin, lĩnh vực này sẽ cần phải được bình thường đến một hình thức này hay cách khác. Năm mức độ tiêu chuẩn tồn tại bình thường. Các bộ sưu tập của các bảng, chìa khóa, các yếu tố, và như vậy được gọi là giản đồ cơ sở dữ liệu.

Qua nhiều năm, các ngôn ngữ truy vấn có cấu trúc (SQL) đã tiến hóa với công nghệ RDBMS và là cơ chế sử dụng rộng rãi nhất cho việc tạo ra, truy vấn, bảo trì và vận hành cơ sở dữ liệu quan hệ. Những nhiệm vụ này được gọi là CRUD: Tạo, truy xuất, cập nhật và xóa là phổ biến, hoạt động liên quan bạn có thể sử dụng trực tiếp trên một cơ sở dữ liệu hoặc thông qua một giao diện lập trình ứng dụng (API). (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)

1.2.2 Thiết bị và kho dữ liệu lớn

1.2.2.1 Tích hợp dữ liệu lớn với các kho dữ liệu truyền thống

Không giống như các hệ thống cơ sở dữ liệu hoạt động truyền thống và các ứng dụng, các kho dữ liệu đã được sử dụng bởi các ngành nghề kinh doanh và các nhà phân tích tài chính giúp đưa ra quyết định về hướng đi của một chiến lược kinh doanh. Dữ liệu đã được thu thập từ nhiều nguồn cơ sở dữ liệu quan hệ khác nhau, sau đó đảm bảo rằng các siêu dữ liệu là phù hợp, và các dữ liệu là không có lỗi và sau đó tích hợp tốt. Bill Inmon, được coi là cha đẻ của các kho dữ liệu hiện đại, thành lập một tập hợp các nguyên tắc của các kho dữ liệu, trong đó bao gồm các đặc điểm sau:

  • Nó nên là đối tượng theo định hướng.
  • Nó cần được tổ chức để các sự kiện liên quan được liên kết với nhau.
  • Các thông tin không thể vô tình thay đổi.
  • Thông tin trong kho nên bao gồm tất cả các nguồn hoạt động áp dụng. Các thông tin cần được lưu trữ trong một cách có định nghĩa thống nhất.

1.2.2.2 Phân tích dữ liệu lớn và các kho dữ liệu

Bạn cần phải tạo ra một môi trường lai, nơi dữ liệu lớn có thể làm việc với kho dữ liệu. Đầu tiên, điều quan trọng là nhận ra các kho dữ liệu vì ngày nay nó được thiết kế sẽ không thay đổi trong ngắn hạn. Vì vậy, nó thực dụng hơn để sử dụng kho dữ liệu cho những gì nó đã được thiết kế để làm – cung cấp một phiên bản tốt. Các kho có thể bao gồm thông tin về các dòng của một công ty cụ thể sản phẩm, khách hàng, nhà cung cấp của nó, và các chi tiết của giá trị của giao dịch trong một năm. Các thông tin quản lý trong kho dữ liệu của bộ đã được xây dựng một cách cẩn thận để siêu dữ liệu là chính xác. Với sự phát triển của thông tin trên web mới, nó thực tế và thường cần thiết để phân tích số lượng lớn các dữ liệu này trong bối cảnh với các dữ liệu lịch sử. Đây là nơi mà các mô hình lai đến. (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)

Rất nhiều các nguồn dữ liệu lớn đến từ các nguồn bao gồm siêu dữ liệu được thiết kế riêng của họ. Các trang web thương mại điện tử phức tạp bao gồm các yếu tố được xác định rõ dữ liệu (khách hàng, giá cả, và do đó trên). Do đó, khi tiến hành phân tích giữa các kho hàng và các nguồn dữ liệu lớn, các tổ chức quản lý thông tin đang làm việc với hai bộ dữ liệu và mô hình siêu dữ liệu thiết kế cẩn thận mà phải được hợp lý hóa.

Trước khi một nhà phân tích có thể kết hợp lịch suer giao dịch các dữ liệu với các dữ liệu lớn ít có cấu trúc, công việc đã được thực hiện. Thông thường, phân tích ban đầu của dữ liệu petabytes sẽ tiết lộ những điều thú vị mà có thể giúp dự đoán những thay đổi tinh tế trong giải pháp kinh doanh hoặc tiềm năng để chẩn đoán một bệnh nhân. Các phân tích ban đầu có thể được hoàn thành các công cụ như MapReduce tận dụng với khuôn khổ hệ thống tập tin Hadoop phân phối. Tại thời điểm này, bạn có thể bắt đầu hiểu được cho dù nó có thể giúp đánh giá các vấn đề được giải quyết. Trong quá trình phân tích, nó cũng quan trọng để loại bỏ dữ liệu không cần thiết vì nó là để xác định dữ liệu có liên quan đến bối cảnh kinh doanh. Khi giai đoạn này hoàn tất, các dữ liệu còn lại cần được chuyển hóa để định nghĩa siêu dữ liệu là chính xác. Bằng cách này, khi các dữ liệu lớn được kết hợp với truyền thống, dữ liệu lịch sử từ các kho hàng, các kết quả sẽ chính xác và có ý nghĩa.

CÓ THỂ BẠN QUAN TÂM ĐẾN DỊCH VỤ:

===>>> Dịch Vụ Viết Thuê Đồ Án Tốt Nghiệp

CHƯƠNG 2: XÂY DỰNG KHO DỮ LIỆU VĂN BẢN (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)

Hầu hết các dữ liệu là phi cấu trúc. Dữ liệu phi cấu trúc bao gồm các thông tin được lưu trữ nội bộ, chẳng hạn như tài liệu, e-mail, và thư từ của khách hàng, cũng như các nguồn thông tin bên ngoài rất quan trọng cho tổ chức của bạn (tweet, blog, video YouTube, và hình ảnh vệ tinh). Số lượng và sự đa dạng loại dữ liệu này được phát triển nhanh chóng. Ngày càng có nhiều công ty muốn tận dụng lợi thế dữ liệu để phát triển doanh nghiệp của họ ngày hôm nay và trong tương lai.

Trong khi phân tích hình ảnh và âm thanh vẫn còn đang trong giai đoạn đầu, phân tích văn bản được phát triển thành một công nghệ chủ đạo. Dưới đây là một ví dụ về làm thế nào một công ty có thể tận dụng dữ liệu văn bản của mình để hỗ trợ việc ra quyết định kinh doanh. Một nhà sản xuất ô tô lớn cần thiết để cải thiện các vấn đề chất lượng với chiếc xe của mình. Họ phát hiện ra rằng bằng cách phân tích các văn bản từ các đối tác sửa chữa, họ có thể xác định các vấn đề chất lượng với chiếc xe của mình khi tham gia vào thị trường. Công ty phân tích này xem như một hệ thống cảnh báo sớm. Trước đó họ có thể xác định những vấn đề, những thay đổi họ có thể thực hiện trên sàn nhà máy. Trước khi sử dụng phân tích văn bản, các công ty khai thác thông tin từ dòng các hệ thống kinh doanh. Các hệ thống truyền thống không thể tiết lộ những vấn đề ẩn.

Trong thực tế, phân tích văn bản đang được sử dụng trong một loạt các trường hợp sử dụng dữ liệu lớn từ phân tích phương tiện truyền thông xã hội đếm phân tích bảo hành, phân tích lừa đảo. Ngoài ra, các doanh nghiệp đang bắt đầu phân tích một cái nhìn hợp nhất dữ liệu có cấu trúc và phi cấu trúc với nhau để có được một bức tranh đầy đủ. Trong chương này, sẽ đi sâu vào công nghệ này và cung cấp một chiều sâu ví dụ về cách thức hoạt động. Đồng thời cũng cung cấp một số trường hợp sử dụng khác của phân tích văn bản trong hành động, bao gồm cả khả năng để kết hợp dữ liệu phi cấu trúc với các dữ liệu có cấu trúc. Kết thúc chương với tên của một số nhà cung cấp đang cung cấp các công cụ phân tích văn bản cho dữ liệu lớn. (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)

2.1 Khám phá dữ liệu phi cấu trúc

Dữ liệu phi cấu trúc hiểu đơn giản là cấu trúc của dữ liệu đó không thể đoán biết được. Một số người cho rằng dữ liệu phi cấu trúc giới hạn là sai lầm bởi vì mỗi nguồn văn bản có thể chứa các cấu trúc cụ thể cho riêng mình hoặc định dạng được dựa trên phần mềm tạo ra nó. Trong thực tế nội dung của các tài liệu thực sự không có cấu trúc.

Ví dụ, một note cho vay ngân hàng có một số cấu trúc về câu. Một e-mail có thể có cấu trúc nhỏ. Một tweet hoặc tin nhắn Facebook có thể có chữ viết tắt lạ hoặc ký tự. Một tập tin log có thể có cấu trúc riêng của mình. Vì vậy, câu hỏi là, làm thế nào để bạn phân tích loại khác nhau của dữ liệu phi cấu trúc văn bản?

2.2 Tìm hiểu về phân tích văn bản (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)

Nhiều phương pháp tồn tại cho việc phân tích dữ liệu phi cấu trúc. Trong lịch sử, những kỹ thuật này ra khỏi khu vực kỹ thuật như xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP), phát hiện kiến thức, khai thác dữ liệu, tìm kiếm thông tin và thống kê. Phân tích văn bản là quá trình xử lý văn bản phi cấu trúc, giải nén thông tin có liên quan, và biến nó thành thông tin có cấu trúc mà sau đó có thể được tận dụng theo những cách khác nhau. Các quá trình phân tích và khai thác tận dụng lợi thế của kỹ thuật có nguồn gốc từ ngôn ngữ toán học, thống kê và các ngành khoa học máy tính khác.

Giả sử rằng bạn làm việc cho bộ phận tiếp thị của một công ty điện thoại không dây. Bạn vừa tung ra hai kế hoạch kêu gọi mới – Kế hoạch A và kế hoạch B- và bạn không nhận được sự tiếp nhận mà bạn muốn vào Kế hoạch A. Các văn bản không có cấu trúc từ các ghi chú trung tâm cuộc gọi có thể cung cấp cho bạn một số thông tin như tại sao điều này xảy ra.

Các từ được gạch chân cung cấp các thông tin mà bạn có thể cần phải hiểu lý do tại sao kế hoạch A không áp dụng nhanh chóng. Ví dụ, các thông tin kế hoạch A xuất hiện trong suốt những cuộc gọi chỉ ra rằng các báo cáo đề cập đến kế hoạch. Roll-over minutes, 4GB data, data plan, và expensive là bằng chứng cho thấy một vấn đề tồn tại với kế hoạch dữ liệu và giá cả. Những từ như vô lý và ngu ngốc cung cấp mức độ đánh giá của khách hàng.

Quá trình phân tích văn bản sử dụng thuật toán khác nhau, chẳng hạn như hiểu cấu trúc câu, để phân tích văn bản phi cấu trúc và sau đó trích xuất thông tin, và chuyển thông tin vào dữ liệu có cấu trúc. (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)

Bạn có thể xem xét điều này và nói: “Nhưng tôi có thể đã đoán ra bằng cách nhìn vào hồ sơ trung tâm cuộc gọi”. Tuy nhiên, đây chỉ là một phần nhỏ của các thông tin được ghi lại bởi hàng ngàn đại lý trung tâm cuộc gọi. Mỗi đại lý cá nhân không thể đảm đương được một lượng thông tin quá rộng liên quan đến các vấn đề được cung cấp bởi các công ty. Đại lý không có thời gian và yêu cầu chia sẻ thông tin này trên tất cả các đại lý trung tâm cuộc gọi khác, những người có thể nhận được con số tương tự của các cuộc gọi về Kế hoạch A. Tuy nhiên, sau khi thông tin này được tổng hợp và xử lý bằng các thuật toán phân tích văn bản, một xu hướng có thể xuất hiện từ dữ liệu phi cấu trúc này. Đó là những gì làm cho phân tích văn bản.

Sự khác biệt phân tích văn bản và tìm kiếm

Chú ý rằng đây là giải nén văn bản, không phải trên từ khóa tìm kiếm. Tìm kiếm là lấy về một tài liệu dựa trên những gì người dùng đã biết họ đang tìm kiếm. Phân tích văn bản là việc khám phá ra thông tin. Trong khi phân tích văn bản khác với tìm kiếm, nó có thể làm tăng thêm kỹ thuật tìm kiếm. Ví dụ, phân tích văn bản kết hợp với tìm kiếm có thể được sử dụng để cung cấp phân loại tốt hơn. (Đồ án: Áp dụng kỹ thuật trong BIG DATA vào lưu trữ dữ liệu)

Ở phía bên trái của bảng là truy vấn và tìm kiếm, mà là cả hai về thu hồi. Ví dụ, một người dùng cuối có thể truy vấn một cơ sở dữ liệu để tìm ra bao nhiêu khách hàng ngừng sử dụng dịch vụ của công ty trong tháng vừa qua. Các truy vấn sẽ trả về một số duy nhất. Chỉ bằng cách hỏi nhiều hơn và khác nhau truy vấn sẽ cho người dùng cuối có được các thông tin cần thiết để xác định lý do tại sao khách hàng đang rời. Tương tự như vậy, từ khóa tìm kiếm cho phép người dùng cuối để tìm các tài liệu có chứa tên của các đối thủ cạnh tranh của công ty. Việc tìm kiếm sẽ trả về một nhóm tài liệu. Chỉ có bằng cách đọc các tài liệu này sẽ cho người dùng cuối đến với bất kỳ câu trả lời liên quan đến câu hỏi của mình.

Các công nghệ trên thu thập các mảnh thông tin và yêu cầu tương tác của con người để tổng hợp và phân tích các thông tin đó. Các công nghệ trên bên phải: khai thác dữ liệu và phân tích văn bản cung cấp cái nhìn sâu sắc nhanh hơn nhiều.

0 0 đánh giá
Article Rating
Theo dõi
Thông báo của
guest


0 Comments
Phản hồi nội tuyến
Xem tất cả bình luận
0
Rất thích suy nghĩ của bạn, hãy bình luận.x
()
x
Contact Me on Zalo
0877682993