Việc sử dụng Profile có những ưu điểm vượt trội hơn hẳn và tinh vi hơn rất nhiều so với việc chỉ tạo và sử dụng cookie.
Profile là một phiên bản nâng cấp toàn diện của phương pháp dùng cookie.
So sánh chi tiết: Profile vs. Cookie
Hãy tưởng tượng việc đăng nhập vào một trang web giống như việc bạn đi qua cổng an ninh sân bay.
-
Sử dụng Cookie: Giống như bạn chỉ đưa ra một chiếc vé máy bay. Nó chứng minh bạn có quyền lên chuyến bay, nhưng an ninh có thể sẽ hỏi thêm nhiều thứ khác.
-
Sử dụng Profile (Crawl4AI): Giống như bạn đưa ra cả một bộ hồ sơ đầy đủ: hộ chiếu, vé máy bay, thẻ căn cước, và cả lịch sử du lịch của bạn. Nó chứng minh bạn là một hành khách hợp lệ một cách toàn diện hơn rất nhiều.
Dưới đây là bảng so sánh chi tiết:
| Tính năng | Phương pháp dùng Cookie | Phương pháp dùng Profile (Crawl4AI) |
| Bao gồm những gì? | Chỉ chứa các chuỗi văn bản (cookies) để xác thực phiên làm việc. | Lưu toàn bộ “dấu vân tay” của trình duyệt: Cookies, Local Storage, Session Storage, cache, lịch sử duyệt web, và các cài đặt riêng của trình duyệt. |
| Hiệu quả chống-bot | Thấp. Các trang web hiện đại dễ dàng phát hiện ra một trình duyệt “trống trơn” chỉ có mỗi cookie. Họ sẽ nghi ngờ và yêu cầu xác thực thêm (captcha, 2FA). | Rất cao. Bằng cách tải lại toàn bộ profile, trình duyệt tự động của bạn trông giống hệt như một trình duyệt của người dùng thật đã sử dụng trong một thời gian dài. Điều này giúp vượt qua hầu hết các cơ chế chống-bot cơ bản. |
| Độ bền của phiên đăng nhập | Thấp. Cookie hết hạn rất nhanh. Một số trang web sẽ vô hiệu hóa cookie ngay khi phát hiện có sự thay đổi về địa chỉ IP hoặc “dấu vân tay” trình duyệt. | Cao. Vì toàn bộ trạng thái được lưu lại, phiên đăng nhập có thể duy trì trong một thời gian rất dài, giống như khi bạn chọn “Ghi nhớ đăng nhập” trên trình duyệt của mình. |
| Bảo trì | Cao. Bạn phải thường xuyên đăng nhập lại thủ công, lấy cookie mới và cập nhật vào kịch bản của mình. Rất tốn thời gian. | Rất thấp. Bạn chỉ cần đăng nhập tương tác một lần duy nhất để tạo profile. Sau đó, bạn có thể tái sử dụng profile đó cho hàng trăm, hàng nghìn lần chạy mà không cần làm gì thêm. |
| Khả năng tương thích | Chỉ hoạt động với các trang web có cơ chế xác thực đơn giản. | Hoạt động với hầu hết các trang web hiện đại, kể cả những trang sử dụng các phương pháp lưu trữ phức tạp trong Local Storage (ví dụ: các trang Single Page Application). |
Việc Crawl4AI sử dụng cơ chế Profile không phải là một sự lựa chọn ngẫu nhiên. Đây là phương pháp hiện đại và chuyên nghiệp nhất để xử lý việc cào dữ liệu có xác thực.
Nó không chỉ giúp bạn tiết kiệm thời gian bảo trì mà còn tăng đáng kể khả năng thành công của các tác vụ cào dữ liệu bằng cách làm cho bot của bạn trông giống người dùng thật nhất có thể.
“Profile” là một tính năng rất mạnh của Crawl4AI, cho phép bạn cào dữ liệu từ các trang web yêu cầu đăng nhập (ví dụ: Facebook, LinkedIn, các trang diễn đàn…).
Kịch bản này sẽ mở ra một trình duyệt đồ họa để bạn có thể đăng nhập thủ công một lần. Crawl4AI sẽ lưu lại toàn bộ hồ sơ phiên đăng nhập đó vào một profile. Sau này, bạn có thể ra lệnh cho Crawl4AI cào dữ liệu bằng chính profile đó mà không cần đăng nhập lại.
Dưới đây là hướng dẫn chi tiết từng bước, “lưu ý bạn đã cài đặt craw4ai lên VPS, cài đặt ngay
✔️ Cài đặt craw4ai tại đây ✔️
## Bước 1: Chuẩn bị Môi trường Đồ họa (VNC)
Vì bạn cần tương tác trực tiếp với một trình duyệt, chúng ta cần tạo một “màn hình desktop từ xa” trên VPS của bạn.
- Đăng nhập vào VPS chứa dịch vụ Crawl4AI qua SSH.
- Khởi động VNC Server:Chạy lệnh sau. Lệnh này sẽ tạo ra một màn hình desktop ảo ở “display :1”.
Bash
vncserver -localhost no :1 - Mở cổng Firewall cho VNC:Để bạn có thể kết nối vào màn hình ảo này, hãy mở cổng 5901 (cổng mặc định cho display :1).
Bash
sudo ufw allow 5901/tcp

## Bước 2: Kết nối vào Desktop từ xa
- Tải một phần mềm VNC Viewer: Nếu bạn chưa có, hãy tải một phần mềm VNC Viewer về máy tính của mình. Một lựa chọn phổ biến và miễn phí là
.RealVNC Viewer - Kết nối:
- Mở VNC Viewer.
- Ở ô địa chỉ, nhập địa chỉ IP của VPS và số display, ví dụ:
18.217.137.63:1 - Nhấn Enter để kết nối.
- Phần mềm sẽ hỏi mật khẩu. Hãy nhập mật khẩu VNC mà bạn đã tạo khi chạy kịch bản cài đặt.

Sau khi kết nối thành công, bạn sẽ thấy một màn hình desktop XFCE đơn giản của VPS.
## Bước 3: Chạy kịch bản tạo Profile
Đây là bước quan trọng nhất.
- Mở Terminal Emulator:Trên màn hình desktop VNC, hãy tìm và mở ứng dụng Terminal Emulator.
- Cho phép hiển thị đồ họa:Trong cửa sổ terminal vừa mở, chạy lệnh sau để cho phép các ứng dụng Docker hiển thị giao diện đồ họa ra màn hình VNC.
Bash
xhost + - Chạy kịch bản tạo profile:Bây giờ, hãy chạy kịch bản create_profile.py bên trong container crawl4ai_api.
Bash
sudo docker exec -it crawl4ai_api python create_profile.py

## Bước 4: Đăng nhập và Lưu Profile
- Trình duyệt sẽ tự động mở ra: Ngay sau khi bạn chạy lệnh trên, một cửa sổ trình duyệt Chromium sẽ xuất hiện trên màn hình VNC.
- Đăng nhập: Hãy sử dụng trình duyệt này để truy cập vào trang web bạn muốn cào (ví dụ: facebook.com) và đăng nhập bằng tài khoản của bạn. Hãy hoàn tất tất cả các bước xác thực, lưu mật khẩu nếu được hỏi.
- Đặt tên và Lưu Profile:
- Quay trở lại cửa sổ terminal (nơi bạn chạy lệnh
docker exec). - Nó sẽ hỏi bạn đặt tên cho profile này (ví dụ:
facebook_account_1). - Sau khi đặt tên, nhấn
qvà Enter để thoát. Crawl4AI sẽ lưu lại toàn bộ phiên đăng nhập của bạn vào profile đó.
- Quay trở lại cửa sổ terminal (nơi bạn chạy lệnh
Bây giờ bạn đã có một profile sẵn sàng. Khi gọi API /crawl-with-profile, bạn chỉ cần truyền đúng profile_name mà bạn đã tạo, và Crawl4AI sẽ cào dữ liệu như thể nó đang đăng nhập bằng chính tài khoản của bạn.
