Tìm giải pháp AI/ML phù hợp cho ứng dụng của bạn

Hướng dẫn này được thiết kế để giúp bạn tích hợp các giải pháp trí tuệ nhân tạo tạo sinh và học máy (AI/ML) của Google vào các ứng dụng của mình. Tài liệu này cung cấp hướng dẫn giúp bạn tìm hiểu các giải pháp trí tuệ nhân tạo và học máy hiện có, đồng thời chọn giải pháp phù hợp nhất với nhu cầu của bạn. Mục tiêu của tài liệu này là giúp bạn xác định công cụ cần sử dụng và lý do sử dụng bằng cách tập trung vào nhu cầu và trường hợp sử dụng của bạn.

Để hỗ trợ bạn chọn giải pháp AI/học máy phù hợp nhất với các yêu cầu cụ thể của mình, tài liệu này có hướng dẫn về các giải pháp. Bằng cách trả lời một loạt câu hỏi về mục tiêu và các hạn chế của dự án, hướng dẫn này sẽ hướng dẫn bạn sử dụng các công cụ và công nghệ phù hợp nhất.

Hướng dẫn này giúp bạn chọn giải pháp AI phù hợp nhất cho ứng dụng của mình. Hãy cân nhắc những yếu tố sau: loại dữ liệu (văn bản, hình ảnh, âm thanh, video), độ phức tạp của tác vụ (từ tóm tắt đơn giản đến các tác vụ phức tạp cần kiến thức chuyên môn) và kích thước dữ liệu (đầu vào ngắn so với tài liệu lớn). Điều này sẽ giúp bạn quyết định nên sử dụng Gemini Nano trên thiết bị hay AI dựa trên đám mây của Firebase (Gemini Flash, Gemini Pro hoặc Imagen).

Sơ đồ quy trình ra quyết định cho các trường hợp sử dụng AI tạo sinh. Các tiêu chí bao gồm Phương thức (văn bản, hình ảnh so với âm thanh, video, tạo hình ảnh), Độ phức tạp (tóm tắt, viết lại so với kiến thức về miền) và Cửa sổ ngữ cảnh (đầu vào/đầu ra ngắn so với tài liệu/đa phương tiện mở rộng), dẫn đến GenAI trên thiết bị (Gemini Nano) hoặc Logic AI của Firebase (Gemini Flash, Pro, Imagen).
Hình 1: Hình minh hoạ này trình bày hướng dẫn chung về các giải pháp để giúp bạn tìm ra giải pháp AI/ML phù hợp cho ứng dụng Android của mình. Để biết thông tin chi tiết hơn về các lựa chọn AI và ML, hãy tham khảo hướng dẫn về các giải pháp ở phần sau của tài liệu này.

Khai thác sức mạnh của tính năng suy luận trên thiết bị

Khi thêm các tính năng AI và ML vào ứng dụng Android, bạn có thể chọn nhiều cách để phân phối các tính năng đó – trên thiết bị hoặc bằng cách sử dụng đám mây.

Các giải pháp trên thiết bị như Gemini Nano mang lại kết quả mà không tốn thêm chi phí, tăng cường quyền riêng tư của người dùng và cung cấp chức năng ngoại tuyến đáng tin cậy vì dữ liệu đầu vào được xử lý cục bộ. Những lợi ích này có thể rất quan trọng đối với một số trường hợp sử dụng nhất định, chẳng hạn như tóm tắt tin nhắn, ưu tiên việc xử lý trên thiết bị khi chọn giải pháp phù hợp.

Gemini Nano cho phép bạn chạy suy luận ngay trên thiết bị chạy Android. Nếu bạn đang làm việc với văn bản, hình ảnh hoặc âm thanh, hãy bắt đầu bằng các API GenAI của Bộ công cụ học máy để có các giải pháp sẵn có. Các API GenAI của Bộ công cụ học máy được hỗ trợ bởi Gemini Nano và được tinh chỉnh cho các tác vụ cụ thể trên thiết bị. Các API GenAI của Bộ công cụ học máy là một lựa chọn lý tưởng để phát hành công khai cho các ứng dụng của bạn do giao diện cấp cao và khả năng mở rộng của chúng. Những API này cho phép bạn triển khai các trường hợp sử dụng để tóm tắt, hiệu đínhviết lại văn bản, tạo nội dung mô tả hình ảnh và thực hiện nhận dạng giọng nói.

Để vượt ra ngoài các trường hợp sử dụng cơ bản do API GenAI của Bộ công cụ học máy cung cấp, hãy cân nhắc Quyền truy cập thử nghiệm Gemini Nano. Quyền truy cập thử nghiệm Gemini Nano giúp bạn có quyền truy cập trực tiếp hơn vào tính năng tạo câu lệnh tuỳ chỉnh bằng Gemini Nano.

Đối với các tác vụ học máy truyền thống, bạn có thể linh hoạt triển khai các mô hình tuỳ chỉnh của riêng mình. Chúng tôi cung cấp các công cụ mạnh mẽ như ML Kit, MediaPipe, LiteRT và các tính năng phân phối của Google Play để đơn giản hoá quy trình phát triển của bạn.

Đối với những ứng dụng yêu cầu các giải pháp chuyên biệt cao, bạn có thể sử dụng mô hình tuỳ chỉnh của riêng mình, chẳng hạn như Gemma hoặc một mô hình khác được điều chỉnh cho phù hợp với trường hợp sử dụng cụ thể của bạn. Chạy mô hình trực tiếp trên thiết bị của người dùng bằng LiteRT. LiteRT cung cấp các cấu trúc mô hình được thiết kế sẵn để tối ưu hoá hiệu suất.

Bạn cũng có thể cân nhắc xây dựng một giải pháp kết hợp bằng cách tận dụng cả mô hình trên thiết bị và mô hình đám mây.

Các ứng dụng di động thường sử dụng các mô hình cục bộ cho dữ liệu văn bản nhỏ, chẳng hạn như cuộc trò chuyện hoặc bài viết trên blog. Tuy nhiên, đối với các nguồn dữ liệu lớn hơn (như PDF) hoặc khi cần thêm kiến thức, bạn có thể cần một giải pháp dựa trên đám mây với các mô hình Gemini mạnh mẽ hơn.

Tích hợp các mô hình Gemini tiên tiến

Nhà phát triển Android có thể tích hợp các chức năng AI tạo sinh nâng cao của Google (bao gồm cả các mô hình Gemini Pro, Gemini Flash và Imagen mạnh mẽ) vào ứng dụng của họ bằng SDK Firebase AI Logic. SDK này được thiết kế cho nhu cầu về dữ liệu lớn hơn và cung cấp các chức năng cũng như khả năng thích ứng mở rộng bằng cách cho phép truy cập vào các mô hình AI đa phương thức, có hiệu suất cao này.

Với SDK Firebase AI Logic, các nhà phát triển có thể thực hiện các lệnh gọi phía máy khách đến các mô hình AI của Google một cách dễ dàng. Những mô hình này (chẳng hạn như Gemini Pro và Gemini Flash) chạy suy luận trên đám mây và cho phép các ứng dụng Android xử lý nhiều loại dữ liệu đầu vào, bao gồm hình ảnh, âm thanh, video và văn bản. Gemini Pro vượt trội trong việc suy luận về các vấn đề phức tạp và phân tích dữ liệu trên diện rộng, trong khi dòng Gemini Flash mang đến tốc độ vượt trội và cửa sổ ngữ cảnh đủ lớn cho hầu hết các tác vụ.

Trường hợp sử dụng phương pháp học máy truyền thống

Mặc dù AI tạo sinh hữu ích trong việc tạo và chỉnh sửa nội dung như văn bản, hình ảnh và mã, nhưng nhiều vấn đề trong thế giới thực sẽ được giải quyết hiệu quả hơn bằng các kỹ thuật Học máy (ML) truyền thống. Những phương pháp đã được thiết lập này có ưu điểm vượt trội trong các nhiệm vụ liên quan đến dự đoán, phân loại, phát hiện và hiểu các mẫu trong dữ liệu hiện có, thường có hiệu quả cao hơn, chi phí tính toán thấp hơn và cách triển khai đơn giản hơn so với các mô hình tạo sinh.

Các khung ML truyền thống cung cấp các giải pháp mạnh mẽ, được tối ưu hoá và thường thiết thực hơn cho các ứng dụng tập trung vào việc phân tích dữ liệu đầu vào, xác định các tính năng hoặc đưa ra dự đoán dựa trên các mẫu đã học được thay vì tạo ra đầu ra hoàn toàn mới. Các công cụ như Bộ công cụ học máy, LiteRT và MediaPipe của Google cung cấp những chức năng mạnh mẽ được điều chỉnh cho phù hợp với các trường hợp sử dụng không mang tính tạo sinh này, đặc biệt là trong môi trường điện toán di động và điện toán biên.

Bắt đầu tích hợp học máy bằng Bộ công cụ học máy

Bộ công cụ học máy cung cấp các giải pháp sẵn sàng sản xuất, được tối ưu hoá cho thiết bị di động cho các nhiệm vụ học máy phổ biến mà không yêu cầu kiến thức chuyên môn về học máy. SDK di động dễ sử dụng này mang chuyên môn về học máy của Google đến thẳng các ứng dụng Android và iOS của bạn, cho phép bạn tập trung vào việc phát triển tính năng thay vì huấn luyện và tối ưu hoá mô hình. Bộ công cụ học máy cung cấp các API được tạo sẵn và các mô hình sẵn sàng sử dụng cho các tính năng như quét mã vạch, nhận dạng văn bản (OCR), phát hiện khuôn mặt, gắn nhãn hình ảnh, phát hiện và theo dõi vật thể, nhận dạng ngôn ngữ và trả lời thông minh.

Các mô hình này thường được tối ưu hoá để thực thi trên thiết bị, đảm bảo độ trễ thấp, chức năng ngoại tuyến và tăng cường quyền riêng tư của người dùng vì dữ liệu thường vẫn nằm trên thiết bị. Chọn Bộ công cụ học máy để nhanh chóng thêm các tính năng học máy đã được thiết lập vào ứng dụng di động mà không cần huấn luyện mô hình hoặc yêu cầu đầu ra tạo sinh. Đây là lựa chọn lý tưởng để nâng cao hiệu quả các ứng dụng bằng các tính năng "thông minh" thông qua việc sử dụng các mô hình được tối ưu hoá của Google hoặc bằng cách triển khai các mô hình TensorFlow Lite tuỳ chỉnh.

Hãy bắt đầu bằng cách tham khảo hướng dẫn và tài liệu toàn diện của chúng tôi trên trang web dành cho nhà phát triển ML Kit.

Triển khai mô hình học máy tuỳ chỉnh bằng LiteRT

Để kiểm soát tốt hơn hoặc triển khai các mô hình học máy của riêng bạn, hãy sử dụng một ngăn xếp học máy tuỳ chỉnh được xây dựng trên LiteRT và Các dịch vụ của Google Play. Ngăn xếp này cung cấp những yếu tố cần thiết để triển khai các tính năng ML hiệu suất cao. LiteRT là một bộ công cụ được tối ưu hoá để chạy các mô hình TensorFlow một cách hiệu quả trên các thiết bị di động, thiết bị nhúng và thiết bị biên có tài nguyên hạn chế, giúp bạn có thể chạy các mô hình nhỏ hơn và nhanh hơn đáng kể, đồng thời tiêu thụ ít bộ nhớ, điện năng và bộ nhớ hơn. Thời gian chạy LiteRT được tối ưu hoá cao cho nhiều bộ tăng tốc phần cứng (GPU, DSP, NPU) trên các thiết bị biên, cho phép suy luận có độ trễ thấp.

Chọn LiteRT khi bạn cần triển khai hiệu quả các mô hình học máy đã được huấn luyện (thường là để phân loại, hồi quy hoặc phát hiện) trên các thiết bị có sức mạnh tính toán hoặc thời lượng pin hạn chế, chẳng hạn như điện thoại thông minh, thiết bị IoT hoặc vi điều khiển. Đây là giải pháp được ưu tiên để triển khai các mô hình dự đoán tuỳ chỉnh hoặc tiêu chuẩn ở rìa mạng, nơi tốc độ và việc tiết kiệm tài nguyên là tối quan trọng.

Tìm hiểu thêm về việc triển khai ML bằng LiteRT.

Xây dựng nhận thức theo thời gian thực vào ứng dụng của bạn bằng MediaPipe

MediaPipe cung cấp các giải pháp học máy nguồn mở, đa nền tảng và có thể tuỳ chỉnh, được thiết kế cho nội dung nghe nhìn trực tiếp và phát trực tuyến. Tận dụng các công cụ được tối ưu hoá, dựng sẵn cho các tác vụ phức tạp như theo dõi bàn tay, ước tính tư thế, phát hiện lưới khuôn mặt và phát hiện đối tượng, tất cả đều cho phép tương tác theo thời gian thực, hiệu suất cao ngay cả trên thiết bị di động.

Các quy trình dựa trên biểu đồ của MediaPipe có khả năng tuỳ chỉnh cao, cho phép bạn điều chỉnh các giải pháp cho ứng dụng Android, iOS, web, máy tính và ứng dụng phụ trợ. Chọn MediaPipe khi ứng dụng của bạn cần hiểu và phản ứng ngay lập tức với dữ liệu cảm biến trực tiếp, đặc biệt là luồng video, cho các trường hợp sử dụng như nhận dạng cử chỉ, hiệu ứng thực tế tăng cường, theo dõi thể dục hoặc điều khiển hình đại diện – tất cả đều tập trung vào việc phân tích và diễn giải dữ liệu đầu vào.

Khám phá các giải pháp và bắt đầu xây dựng bằng MediaPipe.

Chọn một phương pháp: Trên thiết bị hoặc trên đám mây

Khi tích hợp các tính năng AI/ML vào ứng dụng Android, một quyết định quan trọng ban đầu là có nên thực hiện quy trình xử lý trực tiếp trên thiết bị của người dùng hay trên đám mây. Các công cụ như Bộ công cụ học máy, Gemini Nano và TensorFlow Lite hỗ trợ các chức năng trên thiết bị, trong khi các API đám mây của Gemini với Firebase AI Logic có thể cung cấp khả năng xử lý mạnh mẽ dựa trên đám mây. Việc đưa ra lựa chọn phù hợp phụ thuộc vào nhiều yếu tố cụ thể cho trường hợp sử dụng và nhu cầu của người dùng.

Hãy cân nhắc những khía cạnh sau để đưa ra quyết định:

  • Khả năng kết nối và hoạt động khi không có mạng: Nếu ứng dụng của bạn cần hoạt động một cách đáng tin cậy mà không cần kết nối Internet, thì các giải pháp trên thiết bị như Gemini Nano là lựa chọn lý tưởng. Về bản chất, quy trình xử lý trên đám mây cần có quyền truy cập vào mạng.
  • Quyền riêng tư đối với dữ liệu: Đối với những trường hợp sử dụng mà dữ liệu người dùng phải được lưu trữ trên thiết bị vì lý do quyền riêng tư, hoạt động xử lý trên thiết bị mang lại một lợi thế riêng biệt bằng cách lưu giữ thông tin nhạy cảm trên thiết bị.
  • Khả năng của mô hình và độ phức tạp của nhiệm vụ: Các mô hình dựa trên đám mây thường lớn hơn, mạnh mẽ hơn và được cập nhật thường xuyên hơn đáng kể, khiến chúng phù hợp với các nhiệm vụ AI có độ phức tạp cao hoặc khi xử lý dữ liệu đầu vào lớn hơn, trong đó chất lượng đầu ra cao hơn và khả năng mở rộng là tối quan trọng. Các mô hình trên thiết bị có thể xử lý tốt những tác vụ đơn giản hơn.
  • Các yếu tố cần cân nhắc về chi phí: Các API trên đám mây thường có mức giá dựa trên mức sử dụng, nghĩa là chi phí có thể tăng theo số lượng suy luận hoặc lượng dữ liệu được xử lý. Mặc dù thường không phải trả phí trực tiếp cho mỗi lần sử dụng, nhưng suy luận trên thiết bị sẽ phát sinh chi phí phát triển và có thể ảnh hưởng đến các tài nguyên của thiết bị như thời lượng pin và hiệu suất tổng thể.
  • Tài nguyên thiết bị: Các mô hình trên thiết bị tiêu thụ dung lượng lưu trữ trên thiết bị của người dùng. Bạn cũng cần lưu ý đến khả năng tương thích của thiết bị đối với các mô hình cụ thể trên thiết bị (chẳng hạn như Gemini Nano) để đảm bảo đối tượng mục tiêu có thể sử dụng các tính năng này.
  • Tinh chỉnh và tuỳ chỉnh: Nếu bạn cần có khả năng tinh chỉnh các mô hình cho trường hợp sử dụng cụ thể của mình, thì các giải pháp dựa trên đám mây thường mang lại tính linh hoạt cao hơn và nhiều lựa chọn tuỳ chỉnh hơn.
  • Tính nhất quán trên nhiều nền tảng: Nếu các tính năng AI nhất quán trên nhiều nền tảng (kể cả iOS) là yếu tố quan trọng, hãy lưu ý rằng một số giải pháp trên thiết bị (như Gemini Nano) có thể chưa dùng được trên tất cả các hệ điều hành.

Bằng cách xem xét kỹ các yêu cầu về trường hợp sử dụng và các lựa chọn hiện có, bạn có thể tìm thấy giải pháp AI/ML phù hợp để nâng cao ứng dụng Android và mang đến trải nghiệm thông minh và phù hợp cho người dùng.


Hướng dẫn về các giải pháp AI/ML

Hướng dẫn về các giải pháp này có thể giúp bạn xác định các công cụ phù hợp dành cho nhà phát triển để tích hợp công nghệ AI/ML vào các dự án Android của mình.

Mục tiêu chính của tính năng AI là gì?

  • A) Tạo nội dung mới (văn bản, nội dung mô tả hình ảnh) hoặc thực hiện quy trình xử lý văn bản đơn giản (tóm tắt, hiệu đính hoặc viết lại văn bản)? → Chuyển đến phần AI tạo sinh
  • B) Phân tích dữ liệu/đầu vào hiện có để dự đoán, phân loại, phát hiện, hiểu các mẫu hoặc xử lý các luồng dữ liệu theo thời gian thực (chẳng hạn như video/âm thanh)? → Chuyển đến phần Traditional ML & Perception (Học máy truyền thống và nhận thức)

Học máy và nhận thức truyền thống

Bạn cần phân tích dữ liệu đầu vào, xác định các đặc điểm hoặc đưa ra dự đoán dựa trên các mẫu đã học, thay vì tạo ra dữ liệu đầu ra hoàn toàn mới.

Bạn đang thực hiện nhiệm vụ cụ thể nào?

  • A) Bạn cần tích hợp nhanh các tính năng học máy phổ biến, được tạo sẵn trên thiết bị di động? (ví dụ: quét mã vạch, nhận dạng văn bản (OCR), phát hiện khuôn mặt, gắn nhãn hình ảnh, phát hiện và theo dõi vật thể, nhận dạng ngôn ngữ, tính năng trả lời thông minh cơ bản)
    • → Sử dụng: Bộ công cụ học máy (API truyền thống)
    • Lý do: Dễ dàng tích hợp nhất cho các tác vụ ML trên thiết bị di động đã thiết lập, thường được tối ưu hoá để sử dụng trên thiết bị (độ trễ thấp, ngoại tuyến, quyền riêng tư).
  • B) Bạn có cần xử lý dữ liệu phát trực tuyến theo thời gian thực (chẳng hạn như video hoặc âm thanh) cho các tác vụ nhận thức không? (ví dụ: tính năng theo dõi bàn tay, ước tính tư thế, lưới khuôn mặt, phát hiện và phân đoạn đối tượng theo thời gian thực trong video)
    • → Sử dụng: MediaPipe
    • Lý do: Khung hình chuyên dụng cho các quy trình nhận thức theo thời gian thực, hiệu suất cao trên nhiều nền tảng.
  • C) Bạn cần chạy hiệu quả mô hình ML tuỳ chỉnh của riêng mình (ví dụ: để phân loại, hồi quy, phát hiện) trên thiết bị, ưu tiên hiệu suất và mức sử dụng tài nguyên thấp?
    • → Sử dụng: LiteRT (Thời gian chạy TensorFlow Lite)
    • Lý do: Thời gian chạy được tối ưu hoá để triển khai hiệu quả các mô hình tuỳ chỉnh trên thiết bị di động và thiết bị biên (kích thước nhỏ, suy luận nhanh, tăng tốc phần cứng).
  • D) Bạn cần huấn luyện mô hình học máy tuỳ chỉnh của riêng mình cho một tác vụ cụ thể?
    • → Sử dụng: LiteRT (Thời gian chạy TensorFlow Lite) + hoạt động huấn luyện mô hình tuỳ chỉnh
    • Lý do: Cung cấp các công cụ để huấn luyện và triển khai các mô hình tuỳ chỉnh, được tối ưu hoá cho thiết bị di động và thiết bị biên.
  • E) Bạn cần phân loại nội dung nâng cao, phân tích tình cảm hoặc dịch nhiều ngôn ngữ với sắc thái tinh tế?
    • Cân nhắc xem các mô hình học máy truyền thống (có thể được triển khai bằng LiteRT hoặc đám mây) có phù hợp hay không, hoặc liệu NLU nâng cao có yêu cầu các mô hình tạo sinh hay không (quay lại phần Bắt đầu, chọn A). Đối với việc phân loại, phân tích tình cảm hoặc dịch dựa trên đám mây:
    • → Sử dụng: Giải pháp dựa trên đám mây (ví dụ: Google Cloud Natural Language API, Google Cloud Translation API, có thể được truy cập bằng một phụ trợ tuỳ chỉnh hoặc Vertex AI). (Mức độ ưu tiên thấp hơn so với các lựa chọn trên thiết bị nếu không có mạng hoặc quyền riêng tư là yếu tố quan trọng).
    • Lý do: Các giải pháp đám mây cung cấp những mô hình mạnh mẽ và hỗ trợ nhiều ngôn ngữ, nhưng cần có kết nối và có thể phát sinh chi phí.

AI tạo sinh

Bạn cần tạo nội dung mới, tóm tắt, viết lại hoặc thực hiện các tác vụ tương tác hoặc hiểu biết phức tạp.

Bạn có yêu cầu AI hoạt động ngoại tuyến, cần có quyền riêng tư tối đa về dữ liệu (giữ dữ liệu người dùng trên thiết bị) hoặc muốn tránh chi phí suy luận trên đám mây không?

  • A) Có, chế độ ngoại tuyến, quyền riêng tư tối đa hoặc không tốn chi phí trên đám mây là điều quan trọng.
  • B) Không, có kết nối và kết nối này chấp nhận được, các chức năng và khả năng mở rộng trên đám mây quan trọng hơn hoặc các tính năng cụ thể yêu cầu có đám mây.

AI tạo sinh trên thiết bị (Sử dụng Gemini Nano)

Lưu ý: Yêu cầu thiết bị Android tương thích, hỗ trợ có giới hạn cho iOS, giới hạn mã thông báo cụ thể (1024 câu lệnh, 4096 ngữ cảnh), các mô hình kém mạnh mẽ hơn so với các mô hình trên đám mây.

Trường hợp sử dụng của bạn có cụ thể khớp với các nhiệm vụ tinh giản do API GenAI của Bộ công cụ học máy cung cấp không? (tóm tắt văn bản, hiệu đính văn bản, viết lại văn bản, tạo nội dung mô tả hình ảnh hoặc thực hiện tính năng nhận dạng giọng nói) VÀ giới hạn mã thông báo có đủ không?

  • A) Có:
    • → Sử dụng: API GenAI của Bộ công cụ học máy (dựa trên Gemini Nano)
    • Lý do: Cách dễ nhất để tích hợp các tác vụ tạo sinh cụ thể, phổ biến trên thiết bị, giải pháp ưu tiên cao nhất trên thiết bị.
  • B) Không (Bạn cần lời nhắc hoặc các tác vụ linh hoạt hơn ngoài các API GenAI cụ thể của Bộ công cụ học máy, nhưng vẫn muốn thực thi trên thiết bị trong phạm vi khả năng của Nano):
    • → Sử dụng: Quyền truy cập vào Gemini Nano phiên bản thử nghiệm
    • Lý do: Cung cấp khả năng tạo câu lệnh mở trên thiết bị cho các trường hợp sử dụng ngoài các API GenAI có cấu trúc của Bộ công cụ học máy, đồng thời tuân thủ các giới hạn của Nano.

AI tạo sinh trên đám mây

Sử dụng các mô hình mạnh mẽ hơn, yêu cầu kết nối, thường liên quan đến chi phí suy luận, cung cấp phạm vi tiếp cận thiết bị rộng hơn và tính nhất quán dễ dàng hơn trên nhiều nền tảng (Android và iOS).

Mức độ ưu tiên của bạn là gì: Dễ dàng tích hợp trong Firebase HAY có tính linh hoạt/khả năng kiểm soát tối đa?

  • A) Bạn muốn tích hợp dễ dàng hơn, có trải nghiệm API được quản lý và có khả năng đang sử dụng Firebase?
  • B) Cần có tính linh hoạt tối đa, quyền truy cập vào nhiều mô hình nhất (bao gồm cả mô hình của bên thứ ba/tuỳ chỉnh), khả năng tinh chỉnh nâng cao và sẵn sàng quản lý quy trình tích hợp phụ trợ của riêng bạn (phức tạp hơn)?
    • → Sử dụng: Gemini API với một Phụ trợ đám mây tuỳ chỉnh (sử dụng Google Cloud Platform)
    • Lý do: Cung cấp nhiều quyền kiểm soát nhất, quyền truy cập vào mô hình rộng nhất và các lựa chọn huấn luyện tuỳ chỉnh nhưng đòi hỏi nhiều nỗ lực phát triển phụ trợ. Phù hợp với các nhu cầu phức tạp, quy mô lớn hoặc được tuỳ chỉnh cao.

(Bạn chọn SDK Firebase AI Logic) Bạn cần loại tác vụ tạo sinh và hồ sơ hiệu suất nào?

  • A) Bạn cần cân bằng giữa hiệu suất và chi phí, phù hợp với các ứng dụng tạo văn bản, tóm tắt hoặc trò chuyện chung mà tốc độ là yếu tố quan trọng?
  • B) Bạn cần chất lượng và khả năng cao hơn để tạo văn bản phức tạp, suy luận, NLU nâng cao hoặc làm theo hướng dẫn?
    • → Sử dụng: SDK Firebase AI Logic với Gemini Pro
    • Lý do: Mô hình văn bản mạnh mẽ hơn cho các tác vụ đòi hỏi nhiều tài nguyên, được truy cập thông qua Firebase.
  • C) Bạn cần tạo hình ảnh tinh vi hoặc hiểu/thao tác hình ảnh nâng cao dựa trên câu lệnh bằng văn bản?