Skip to content
BRINGING BUSINESS & TECHNOLOGY TOGETHER
Khoa Công nghệ Thông tin Kinh doanh
283-526-5816
bit@ueh.edu.vn
279 Nguyễn Tri Phương, Quận 10
  • Giới thiệu
    • Lịch sử phát triển
    • Ban chủ nhiệm
    • Ban lãnh đạo
    • Ban Thư Ký
    • Hội Đồng Khoa Học
  • Đào tạo
    • Chương trình Đại học
    • CT Liên thông Đại học
    • Chương trình Sau đại học
    • Chương trình quốc tế
  • Nghiên cứu
    • Hội thảo khoa học
    • Đề tài khoa học
    • Công bố khoa học
    • Nhiệm vụ khoa học
    • Hợp tác trong nước
    • Hợp tác quốc tế
  • Giảng viên
    • Lịch giảng các khóa
    • Thông báo KHOA VÀ UEH
    • Lĩnh vực Công nghệ thông tin
    • Lĩnh vực CN Thương mại điện tử
    • Lĩnh vực Hệ thống thông tin
    • Cựu giảng viên
  • Sinh viên
    • Thông báo về đào tạo
    • Hoạt động Đoàn – Hội
    • Tăng cường kỹ năng CNTT
    • Cuộc thi trong sinh viên
    • Thông tin học bổng
    • Thông tin việc làm
    • Cựu sinh viên

Phân tích Google Trends với C# sử dụng R

Home > Giảng viên > Tài liệu chia sẻ > Lê Ngọc Thạnh > Phân tích Google Trends với C# sử dụng R

Phân tích Google Trends với C# sử dụng R

Posted on 03/07/202024/09/2022 by Thanh Le
0

Google trends (GT) là công cụ phân tích dữ liệu tìm kiếm trực tuyến của Google được sử dụng phổ biến hiện nay. Nó cung cấp thông tin về xu thế (trend) tìm kiếm của người dùng Internet, nhận diện các chủ đề và nội dung liên quan, làm cơ sở cho nghiên cứu phân tích dự báo, giúp nâng cao hiệu quả hoạt động đào tạo, sản xuất, kinh doanh.

Hiện nay, GT được khai thác chủ yếu thông qua công cụ trực tuyến do Google cung cấp, dễ sử dụng và đáp ứng các nhu cầu thông thường. Tuy nhiên, công cụ này có nhiều hạn chế ở tính tự động và khả năng ứng dụng các phương pháp công nghệ mới nhằm sử dụng hiệu quả dữ liệu của GT phục vụ cho vấn đề cụ thể của doanh nghiệp, tổ chức hoặc cá nhân.

Việc sử dụng R, một nền tảng tính toán tiên tiến của khoa học dữ liệu (KHDL), có thể giúp tự động hóa việc thu thập, tiền xử lý và phân tích dữ liệu GT. Thư viện đồ sộ của R cung cấp đầy đủ công cụ xử lý cho nhiều loại bài toán và dữ liệu khác nhau. Ở đây, chúng tôi sử dụng các thư viện gtrendsR, outliers và ggplot2 lần lượt cho việc thu thập dữ liệu từ GT, tiền xử lý, phân tích dữ liệu và trình bày kết quả.

Lập trình với R có thể được thực hiện trên môi trường tương tác cài đặt sẵn trong R, nhưng nó kém thân thiện người dùng và nhiều hạn chế. Sự phát triển của Jupyter, công cụ KHDL kết hợp lập trình và ghi chú giải thích trong cùng 1 tài liệu, đã đem đến cho cộng đồng KHDL một môi trường phát triển tiện dụng và mạnh mẽ. Gần đây, việc Microsoft tích hợp hoàn hảo Jupyter vào VsCode (Visual Studio Code), một công cụ khá phổ biến của công nghệ phần mềm (CNPM) đã biến VsCode thành môi trường phát triển lý tưởng cho cả CNPM lẫn KHDL. Trong demo này, chúng tôi sử dụng VsCode cho lập trình R từ xa trên máy chủ Cloud.

Một nhóm từ khóa bao gồm: bún đậu mắm tôm, trà sữa, phở và covid-19 được sử dụng để truy vấn trên GT trong khoảng thời gian 6 tháng đầu năm 2020, thời điểm diễn ra dịch cúm Covid-19. Dữ liệu thu thập được khám phá sơ lược. Một số phát hiện khá thú vị như: bún đậu mắm tôm được quan tâm nhiều nhất ở TP.HCM; Hà tĩnh là địa phương quan tâm covid-19 nhiều nhất.

Tương tự, Đà nẵng là quán quân tìm kiếm trà sữa, đặc biệt là các thương hiệu mới. Trong phần tiếp theo, dữ liệu sẽ được tiền xử lý và biểu diễn trực quan với biểu đồ (chart).

Kết quả biểu diễn trực quan với biểu đồ như sau:

Dịch cúm Covid-19 là nguyên nhân khiến tìm kiếm từ khóa này tăng đột biến. Do đó cần kiểm tra đánh giá mức độ tăng tìm kiếm từ khóa này, rất có thể đây là một dị biệt (outlier). Có nhiều phương pháp kiểm tra outlier, trong đó Chi-squared test là một trong các phương pháp phổ dụng:

Cần lưu ý là không có phương pháp nào tức thời xác định và loại bỏ tất cả outliers. Ở đây chúng tôi tiến hành chọn khoảng 1st-3rd quartiles. Đây là lựa chọn an toàn. Tuy nhiên, outliers đôi khi cũng là 1 xu thế/cơ hội mới trong kinh doanh.

Hình trên là biểu đồ kết quả sau khi thực hiện tiền xử lý dữ liệu. Có thể thấy tâm lý e ngại “covid-19” càng cao thì người ta càng ít tìm kiếm “phở”.

Phần sau cùng là trình bày kết quả phân tích, trên website để truy cập trực tuyến. Việc sử dụng R cho lập trình web khá bất tiện. Ở đây chúng tôi sử dụng C# hiển thị kết quả phân tích từ R lên website. Thư viện Rserve được sử dụng để kết nối C# và R; C# gửi lệnh phân tích đến R và nhận kết quả. Do máy chủ chạy R và máy chạy website khác nhau, việc kết nối sử dụng mật khẩu như dưới đây.

Trong C#, các lệnh phân tích dữ liệu, như đã trình bày, được cài đặt và thử nghiệm trên môi trường Jupyter với VsCode, như sau:

Biểu đồ từ R được mã hóa thành chuỗi ký tự định dạng HTML. C# sẽ gửi chuỗi này lên trang web trình bày. Toàn bộ demo này được thiết lập trực tuyến ở đây.

Nếu sử dụng ngôn ngữ Java, bạn cũng có thể lập trình R với công cụ kết nối Rserve như trình bày ở trên, hoặc tải R vào Java (nếu trên cùng 1 máy và R được biên dịch chế độ share) sử dụng thư viện JRI (Java/R Interface) là thư viện có chức năng tương tự thư viện RDotNet cho C#. Lập trình R với Java dễ dàng hơn vì các thư viện cần thiết đều được R tích hợp sẵn. Hơn nữa R được phát triển chủ yếu với Java và C/C++.

Cảm ơn bạn đã đọc bài viết này.

Tags: C#, DS, Google, KHDL, R

An toàn thông tin
Giới thiệu Sinh viên được trang bị kiến thức chuyên sâu về xây dựng, triển khai, quản trị và tiến tới có thể đưa ra chiến lược cũng như tư vấn kiến trúc các hệ thống ATTT tiên tiến. Đặc biệt,...
Công nghệ thông tin
Giới thiệu Sinh viên được trang bị kiến thức chuyên sâu về xây dựng, triển khai, quản lý, bảo trì và vận hành các hệ thống CNTT. Đặc biệt là khả năng phân tích vấn đề, xây dựng, lựa chọn giải...
Khoa học máy tính
Giới thiệu Sinh viên được trang bị kiến thức chuyên sâu về tư duy, khai thác, phát triển các giải thuật, ứng dụng các công nghệ mới trong các lĩnh vực Trí tuệ nhân tạo, Khai phá dữ liệu, Thị giác...
Thạc sĩ Công nghệ thiết kế thông tin & truyền thông (áp dụng từ năm 2022)
1. THÔNG TIN VỀ CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ TIÊN TIẾN QUỐC TẾ UEH - CHUYÊN NGÀNH CÔNG NGHỆ THIẾT KẾ THÔNG TIN VÀ TRUYỀN THÔNG - HƯỚNG ỨNG DỤNG                                                                  ÁP DỤNG TỪ NĂM...
Khoa học dữ liệu
Giới thiệu Chương trình đào tạo cử nhân Khoa học dữ liệu giúp người học nắm vững kiến thức cơ bản và chuyên sâu về dữ liệu, các công cụ và công nghệ liên quan; có khả năng tổ chức thực...
HT hoạch định nguồn lực doanh nghiệp (ERP)
Giới thiệu Chương trình đào tạo Hệ thống hoạch định nguồn lực doanh nghiệp thuộc ngành Hệ thống thông tin quản lý tại UEH được xây dựng theo tiêu chuẩn tiên tiến hướng đến mục tiêu đào tạo nguồn nhân lực...
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
279 Nguyễn Tri Phương B1#1004, Q. 10, TP. HCM
283-526-5816
bit@ueh.edu.vn


59C Nguyễn Đình Chiểu, Quận 3, TP. Hồ Chí Minh
Điện thoại: 84.283.8295299 – Fax: 84.283.8250359
E-mail: info@ueh.edu.vn

Thông báo mới nhất

  • OLYMPIC TIN HỌC SINH VIÊN VN NĂM 2024
  • HỘI THẢO KHOA HỌC QUỐC TẾ RTD 2024
  • SINH VIÊN KHOA CNTT KINH DOANH BIT(CTD-UEH) ĐẠT GIẢI BEST PAPER TẠI HỘI NGHỊ QUỐC TẾ ISI/SCOPUS – ICDDAM 2025 TỔ CHỨC TẠI VƯƠNG QUỐC ANH
  • Chương trình đào tạo: JAVA DEVELOPER BOOTCAMP – 100% MIỄN PHÍ
  • CÔNG TY TNHH STACK TECH TUYỂN THỰC TẬP SINH
  • UEH Intership hướng dẫn sử dụng (dành cho Giảng viên hướng dẫn và SV thực tập)
  • [MỞ LINK ĐĂNG KÝ] CUỘC THI OLYMPIC TIN HỌC SINH VIÊN UEH MÙA 2 NĂM 2025

ĐẠI HỌC UEH

  • UEH Portal
  • UEH Tuyển sinh
  • UEH Future
  • UEH Global
  • UEH Virtual Tour

© 2017–2025 Khoa Công nghệ Thông tin Kinh doanh