Modelet e familjes Gemini të inteligjencës artificiale (AI) është ndërtuar për të trajtuar lloje të ndryshme të të dhënave hyrëse, duke përfshirë tekstin, imazhet dhe audion. Meqenëse këto modele mund të trajtojnë më shumë se një lloj ose mënyrë të dhënash, modelet Gemini quhen modele multimodale ose shpjegohen se kanë aftësi multimodale .
Ky udhëzues ju tregon se si të punoni me skedarët media duke përdorur Files API. Veprimet bazë janë të njëjta për skedarët audio, imazhet, videot, dokumentet dhe llojet e tjera të skedarëve të mbështetur.
Për udhëzime për nxitjen e skedarëve, shikoni seksionin e udhëzuesit të kërkesës së skedarit .
Ngarko një skedar
Ju mund të përdorni Files API për të ngarkuar një skedar media. Përdorni gjithmonë API-në e skedarëve kur madhësia totale e kërkesës (përfshirë skedarët, kërkesën për tekst, udhëzimet e sistemit, etj.) është më e madhe se 20 MB.
Kodi i mëposhtëm ngarkon një skedar dhe më pas përdor skedarin në një thirrje për generateContent
.
Python
from google import genai
client = genai.Client(api_key="GOOGLE_API_KEY")
myfile = client.files.upload(file="path/to/sample.mp3")
response = client.models.generate_content(
model="gemini-2.0-flash", contents=["Describe this audio clip", myfile]
)
print(response.text)
JavaScript
import {
GoogleGenAI,
createUserContent,
createPartFromUri,
} from "@google/genai";
const ai = new GoogleGenAI({ apiKey: "GOOGLE_API_KEY" });
async function main() {
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const response = await ai.models.generateContent({
model: "gemini-2.0-flash",
contents: createUserContent([
createPartFromUri(myfile.uri, myfile.mimeType),
"Describe this audio clip",
]),
});
console.log(response.text);
}
await main();
Shkoni
file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
defer client.DeleteFile(ctx, file.Name)
model := client.GenerativeModel("gemini-2.0-flash")
resp, err := model.GenerateContent(ctx,
genai.FileData{URI: file.URI},
genai.Text("Describe this audio clip"))
if err != nil {
log.Fatal(err)
}
printResponse(resp)
PUSHIMI
AUDIO_PATH="path/to/sample.mp3"
MIME_TYPE=$(file -b --mime-type "${AUDIO_PATH}")
NUM_BYTES=$(wc -c < "${AUDIO_PATH}")
DISPLAY_NAME=AUDIO
tmp_header_file=upload-header.tmp
# Initial resumable request defining metadata.
# The upload url is in the response headers dump them to a file.
curl "${BASE_URL}/upload/v1beta/files?key=${GOOGLE_API_KEY}" \
-D upload-header.tmp \
-H "X-Goog-Upload-Protocol: resumable" \
-H "X-Goog-Upload-Command: start" \
-H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
-H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
-H "Content-Type: application/json" \
-d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null
upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"
# Upload the actual bytes.
curl "${upload_url}" \
-H "Content-Length: ${NUM_BYTES}" \
-H "X-Goog-Upload-Offset: 0" \
-H "X-Goog-Upload-Command: upload, finalize" \
--data-binary "@${AUDIO_PATH}" 2> /dev/null > file_info.json
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri
# Now generate content using that file
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent?key=$GOOGLE_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [{
"parts":[
{"text": "Describe this audio clip"},
{"file_data":{"mime_type": "${MIME_TYPE}", "file_uri": '$file_uri'}}]
}]
}' 2> /dev/null > response.json
cat response.json
echo
jq ".candidates[].content.parts[].text" response.json
Merrni meta të dhëna për një skedar
Mund të verifikoni që API e ka ruajtur me sukses skedarin e ngarkuar dhe të marrë meta të dhënat e tij duke telefonuar files.get
.
Python
myfile = client.files.upload(file='path/to/sample.mp3')
file_name = myfile.name
myfile = client.files.get(name=file_name)
print(myfile)
JavaScript
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const fileName = myfile.name;
const fetchedFile = await ai.files.get({ name: fileName });
console.log(fetchedFile);
Shkoni
file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
gotFile, err := client.GetFile(ctx, file.Name)
if err != nil {
log.Fatal(err)
}
fmt.Println("Got file:", gotFile.Name)
PUSHIMI
# file_info.json was created in the upload example
name=$(jq ".file.name" file_info.json)
# Get the file of interest to check state
curl https://generativelanguage.googleapis.com/v1beta/files/$name > file_info.json
# Print some information about the file you got
name=$(jq ".file.name" file_info.json)
echo name=$name
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri
Listoni skedarët e ngarkuar
Mund të ngarkoni shumë skedarë duke përdorur API-në e skedarëve. Kodi i mëposhtëm merr një listë të të gjithë skedarëve të ngarkuar:
Python
print('My files:')
for f in client.files.list():
print(' ', f.name)
JavaScript
const listResponse = await ai.files.list({ config: { pageSize: 10 } });
for await (const file of listResponse) {
console.log(file.name);
}
Shkoni
iter := client.ListFiles(ctx)
for {
ifile, err := iter.Next()
if err == iterator.Done {
break
}
if err != nil {
log.Fatal(err)
}
fmt.Println(ifile.Name)
}
PUSHIMI
echo "My files: "
curl "https://generativelanguage.googleapis.com/v1beta/files?key=$GOOGLE_API_KEY"
Fshi skedarët e ngarkuar
Skedarët fshihen automatikisht pas 48 orësh. Ju gjithashtu mund të fshini manualisht një skedar të ngarkuar:
Python
myfile = client.files.upload(file='path/to/sample.mp3')
client.files.delete(name=myfile.name)
JavaScript
const myfile = await ai.files.upload({
file: "path/to/sample.mp3",
config: { mimeType: "audio/mpeg" },
});
const fileName = myfile.name;
await ai.files.delete({ name: fileName });
Shkoni
file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
log.Fatal(err)
}
client.DeleteFile(ctx, file.Name)
PUSHIMI
curl --request "DELETE" https://generativelanguage.googleapis.com/v1beta/files/$name?key=$GOOGLE_API_KEY
Informacioni i përdorimit
Ju mund të përdorni Files API për të ngarkuar dhe ndërvepruar me skedarët media. Files API ju lejon të ruani deri në 20 GB skedarë për projekt, me një madhësi maksimale për skedar 2 GB. Skedarët ruhen për 48 orë. Gjatë asaj kohe, mund të përdorni API-në për të marrë meta të dhëna për skedarët, por nuk mund t'i shkarkoni skedarët. Files API ofrohet pa kosto në të gjitha rajonet ku disponohet Gemini API.
Strategjitë e nxitjes së skedarëve
Ky seksion ofron udhëzime dhe praktika më të mira për përdorimin e skedarëve mediatikë me kërkesa për Gemini API.
Aftësia për të përdorur lloje të ndryshme të dhënash në kërkesat tuaja ju jep më shumë fleksibilitet për sa i përket detyrave që mund të trajtoni me Gemini API. Për shembull, mund t'i dërgoni modeles një foto të një vakti të shijshëm dhe t'i kërkoni të shkruajë një blog të shkurtër rreth vaktit.
Prompt | Përgjigje |
Shkruani një postim të shkurtër, tërheqës në blog bazuar në këtë foto. Duhet të përfshijë një përshkrim të vaktit në foto dhe të flasë për përgatitjen e vaktit tim të udhëtimit. ![]() | Përgatitja e vaktit është një mënyrë e shkëlqyer për të kursyer kohë dhe para, dhe gjithashtu mund t'ju ndihmojë të ushqeheni më shëndetshëm. Ky vakt është një shembull i shkëlqyer i një vakti të shëndetshëm dhe të shijshëm që mund të përgatitet lehtësisht para kohe. Ky vakt përmban oriz kaf, perime të pjekura dhe teriyaki pule. Orizi kaf është një karbohidrat i shëndetshëm dhe kompleks që do t'ju japë energji të qëndrueshme. Perimet e pjekura janë një mënyrë e shkëlqyer për të marrë dozën tuaj ditore të vitaminave dhe mineraleve, dhe teriyaki i pulës është një opsion i shijshëm dhe i pasur me proteina. Ky ushqim është gjithashtu shumë i lehtë për t'u përgatitur. Thjesht gatuaj orizin kaf, pjek perimet dhe gatuaj teriyaki pule. Pasi gjithçka të jetë gatuar, ndajeni në enë për përgatitjen e ushqimit dhe ruajini në frigorifer. Më pas mund të kapni një enë dhe të shkoni në mëngjeset e zënë! Nëse jeni duke kërkuar për një vakt të shëndetshëm dhe të shijshëm që mund të përgatitet lehtësisht para kohe, ky vakt është një opsion i shkëlqyeshëm. Është i mbushur me lëndë ushqyese dhe shije, dhe me siguri do t'ju mbajë të ndiheni të ngopur dhe të kënaqur. Ja për përgatitjen e vakteve të shëndetshme dhe të shijshme! |
Nëse keni probleme për të marrë rezultatin që dëshironi nga kërkesat që përdorin skedarë media, ka disa strategji që mund t'ju ndihmojnë të merrni rezultatet që dëshironi. Seksionet e mëposhtme ofrojnë qasje të projektimit dhe këshilla për zgjidhjen e problemeve për përmirësimin e kërkesave që përdorin të dhëna multimodale.
Ju mund të përmirësoni kërkesat tuaja multimodale duke ndjekur këto praktika më të mira:
Bazat e shpejta të projektimit
- Jini specifik në udhëzimet tuaja : Hartoni udhëzime të qarta dhe koncize që lënë hapësirë minimale për keqinterpretim.
- Shtoni disa shembuj në kërkesën tuaj: Përdorni shembuj realistë për të ilustruar atë që dëshironi të arrini.
- Zbërthejeni atë hap pas hapi : Ndani detyrat komplekse në nën-qëllime të menaxhueshme, duke e udhëhequr modelin gjatë procesit.
- Specifikoni formatin e daljes : Në kërkesën tuaj, kërkoni që dalja të jetë në formatin që dëshironi, si markdown, JSON, HTML dhe më shumë.
- Vendosni imazhin tuaj në fillim për kërkesat me një imazh të vetëm : Ndërsa Gemini mund të trajtojë futjet e imazhit dhe tekstit në çdo mënyrë, për kërkesat që përmbajnë një imazh të vetëm, mund të funksionojë më mirë nëse ajo imazh (ose video) vendoset përpara kërkesës për tekst. Megjithatë, për kërkesat që kërkojnë që imazhet të ndërthuren shumë me tekstet për të pasur kuptim, përdorni çfarëdo renditjeje që është më e natyrshme.
Zgjidhja e problemeve me kërkesën tuaj multimodale
- Nëse modeli nuk po tërheq informacion nga pjesa përkatëse e figurës: Hiqni sugjerime se nga cilat aspekte të imazhit dëshironi që kërkesa të nxjerrë informacione.
- Nëse dalja e modelit është shumë e përgjithshme (nuk është përshtatur mjaftueshëm me hyrjen e imazhit/videos): Në fillim të kërkesës, provoni t'i kërkoni modelit të përshkruajë imazhin(et) ose videon përpara se të jepni udhëzimin e detyrës, ose provoni t'i kërkoni modelit t'i referohet asaj që është në imazh.
- Për të zgjidhur se cila pjesë dështoi: Kërkojini modelit të përshkruajë imazhin, ose kërkoni modelin të shpjegojë arsyetimin e tij, për të vlerësuar kuptimin fillestar të modelit.
- Nëse kërkesa juaj rezulton në përmbajtje halucinative: Provoni të telefononi cilësimin e temperaturës ose kërkoni modelin për përshkrime më të shkurtra, në mënyrë që të ketë më pak gjasa të ekstrapolojë detaje shtesë.
- Sintonizimi i parametrave të marrjes së mostrave: Eksperimentoni me cilësime të ndryshme të temperaturës dhe përzgjedhje top-k për të rregulluar kreativitetin e modelit.
Jini specifik në udhëzimet tuaja
Kërkesat kanë më shumë sukses kur janë të qarta dhe të detajuara. Nëse keni një rezultat specifik në mendje, është më mirë ta përfshini atë kërkesë në kërkesë për të siguruar që të merrni produktin që dëshironi.
Për këtë imazh të një bordi aeroporti, duke i kërkuar modeles që thjesht të "përshkruajë këtë imazh" mund të gjenerojë një përshkrim të përgjithshëm. Nëse keni nevojë që modeli të analizojë kohën dhe qytetin nga imazhi, mund ta përfshini atë kërkesë direkt në kërkesën tuaj.
Prompt | Përgjigja e modelit |
---|---|
![]() Përshkruani këtë imazh. | Imazhi tregon një bord të mbërritjeve dhe nisjeve të aeroportit. |
Kërkesa e përditësuar | Përgjigje e përmirësuar |
---|---|
![]() Analizoni kohën dhe qytetin nga bordi i aeroportit të paraqitur në këtë imazh në një listë. |
Shtoni disa shembuj
Modeli Gemini mund të pranojë hyrje të shumta të cilat mund t'i përdorë si shembuj për të kuptuar outputin që dëshironi. Shtimi i këtyre shembujve mund ta ndihmojë modelin të identifikojë modelet dhe të zbatojë marrëdhënien midis imazheve të dhëna dhe përgjigjeve ndaj shembullit të ri. Ky quhet edhe të mësuarit "me disa goditje".
Në shembullin e mëposhtëm, prodhimi fillestar është shkruar në formë fjalie, dhe gjithashtu përmban vendin (Brazil). Supozoni se dëshironi rezultatin në një format ose stil tjetër, dhe dëshironi vetëm qytetin, jo vendin. Shtimi i disa shembujve në kërkesën tuaj mund ta drejtojë modelin të përgjigjet në mënyrën që dëshironi.
Prompt | Përgjigja e modelit |
---|---|
![]() Përcaktoni qytetin së bashku me pikën referuese. | Pika historike është statuja e Krishtit Shëlbues në Rio de Zhaneiro, Brazil. |
Kërkesa e përditësuar | Përgjigje e përmirësuar |
---|---|
Përcaktoni qytetin së bashku me pikën referuese. ![]() | qyteti: Roma, pikë referimi: Koloseu. |
![]() | qyteti: Pekin, pikë referimi: Qyteti i Ndaluar |
![]() | qyteti: Rio de Zhaneiro, pikë referimi: statuja e Krishtit Shëlbues |
Zbërthejeni atë hap pas hapi
Për detyra komplekse si ato që kërkojnë kuptim vizual dhe arsyetim, mund të jetë e dobishme të ndash detyrën në hapa më të vegjël dhe më të drejtpërdrejtë. Përndryshe, mund të jetë gjithashtu efektive nëse i kërkoni drejtpërdrejt modelit të "mendojë hap pas hapi" në kërkesën tuaj.
Prompt | Përgjigja e modelit |
---|---|
![]() Kur do të më mbarojë letra higjienike? | Së shpejti, ju kanë mbetur vetëm 3 rrotulla. |
Kërkesa e përditësuar | Përgjigje e përmirësuar |
---|---|
![]()
|
|
Problemet e matematikës ose llojet e tjera të problemeve me fjalë janë kandidatë të mirë për t'i kërkuar modelit të mendojë hap pas hapi.
Prompt | Përgjigje |
---|---|
![]() Cili është termi i katërt në sekuencë? | -135 |
Përgjigja nga modeli është e pasaktë. Disa mënyra për ta përmirësuar këtë është t'i kërkoni modelit të analizojë problemin përpara se t'i përgjigjeni kërkesës.
Prompt | Përgjigje |
---|---|
![]() Së pari analizoni formulën në imazh. Më pas, bazuar në formulën, përgjigjuni "cila është termi i katërt në sekuencë?". | \( b(n) = b(n-1) * (-3) \) \( b(1) = 15 \) \( b(4) = b(4-1) * (-3) \) \( b(4) = b(3) * (-3) \) \( b(3) = b(3-1) * (-3) \) \( b(3) = b(2) * (-3) \) \( b(2) = b(2-1) * (-3) \) \( b(2) = b(1) * (-3) \) \( b(2) = 15 * (-3) \) \( b(2) = -45 \) \( b(3) = b(2) * (-3) \) \( b(3) = -45 * (-3) \) \( b(3) = 135 \) \( b(4) = b(3) * (-3) \) \( b(4) = 135 * (-3) \) \( b(4) = -405 \) Prandaj, termi i 4-të në sekuencë është -405. |
Kjo përgjigje model është e saktë - tani për ta bërë përgjigjen edhe më të efektshme, mund t'i kërkoni modelit të mendojë hap pas hapi.
Kërkesa e përditësuar | Përgjigje e përmirësuar |
---|---|
![]() Cili është termi i katërt në sekuencë? Mendoni hap pas hapi. | Termi i parë është 15. Termi i dytë është b(1) * (-3) = 15 * (-3) = -45. Termi i tretë është b(2) * (-3) = -45 * (-3) = 135. Termi i katërt është b(3) * (-3) = 135 * (-3) = -405. |
Specifikoni formatin e daljes
Një problem i zakonshëm është nevoja që prodhimi i modelit të jetë në një format të caktuar (p.sh. markdown, JSON, HTML), veçanërisht nëse prodhimi i modelit duhet të përfshihet nga një detyrë e poshtme. Mund të provoni të prodhoni rezultate në atë format duke e udhëzuar modelin ta bëjë këtë brenda kërkesës. Më poshtë janë dy shembuj:
Prompt | Përgjigja e modelit |
---|---|
![]() Analizoni tabelën në këtë imazh në formatin e shënimit | | Tema | Statusi | Koha | Data e fillimit | Afati në | | ------- | ------ | ---- | --------- | ------ | | Matematikë | U krye | 1.5 orë | 29.11.2023 | 1/12/2023 | | Gjeografia | U krye | 30 min | 12/2/2023 | 12/4/2023 | | Fizika | Në vazhdim | 2 orë | 12/3/2023 | 12/5/2023 | | Biologji | Nuk ka filluar | 6 orë | 11/2/2016 | 12/6/2023 | |
Prompt | Përgjigja e modelit |
---|---|
![]() Jepni një listë të të gjitha atributeve të mëposhtme: përbërësit, lloji i kuzhinës, vegjetariane ose jo, në format JSON | ```json``` { "përbërësit": [ "oriz", "karkaleca", "mishkë", "midhje", "bizele", "domate", "qepë", "hudhër", "vaj ulliri", "paprika", "kripë", "piper" ], "lloji i kuzhinës": "Spanjisht", "vegjetarian": i rremë |
Vendosni imazhin tuaj në fillim për kërkesat me një imazh të vetëm
Ndërsa Binjakët mund të interpretojnë imazhin dhe tekstin në çdo mënyrë brenda një prompt, vendosja e një imazhi të vetëm përpara kërkesës së tekstit mund të çojë në rezultate më të mira. Në mostrat e mëposhtme, do të vini re se imazhi vjen i pari përpara tekstit në secilën kërkesë.
Zgjidhja e problemeve me kërkesën tuaj multimodale
Mund t'ju duhet të zgjidhni problemin e kërkesës tuaj nëse nuk po merrni një përgjigje të dobishme. Këtu janë disa strategji që mund të provoni.
Nëse modeli nuk po tërheq informacion nga pjesa përkatëse e figurës
Për të marrë një përgjigje më specifike, mund të vini në dukje se nga cilat aspekte të imazhit dëshironi që kërkesa të nxjerrë informacione për të informuar përgjigjen e saj.
Prompt | Përgjigja e modelit |
---|---|
![]() Sa ditë do t'i qëndrojnë këto pelena një bebeje? | Pelenat do të zgjasin 198 ditë para se të mbarojnë. |
Kërkesa e përditësuar | Përgjigje e përmirësuar |
---|---|
![]() Sa kohë do të zgjasin këto pelena para se të mbaroj? Përdorni peshën e treguar në kuti për të përcaktuar moshën e fëmijës dhe përdorni numrin total të pelenave në kuti. Pjesëtoni numrin total me sa pelena kalon fëmija në ditë. | Kutia përmban 198 pelena. Kutia thotë se pelenat janë për një fëmijë që peshon 22-37 paund. Fëmija mesatar në këtë gamë peshe ka të ngjarë të jetë midis 1 dhe 2 vjeç. Një 2-vjeçar zakonisht kalon 6 pelena në ditë, prandaj, pelenat do të zgjasin rreth 33 ditë (198/6). |
Nëse dalja e modelit është shumë e përgjithshme dhe nuk është e përshtatur sa duhet për hyrjen e imazhit
Për ta ndihmuar modelin të përshtatë përgjigjen e tij ndaj imazhit(ve), provoni t'i kërkoni të përshkruajë imazhet përpara se të kryejë detyrën e tij të arsyetimit.
Prompt | Përgjigja e modelit |
---|---|
![]() ![]() ![]() ![]() Çfarë është e përbashkët mes këtyre imazheve? | Të katër imazhet janë shembuj të fotografisë së peizazhit. |
Kërkesa e përditësuar | Përgjigje e përmirësuar |
---|---|
![]() ![]() ![]() ![]() Së pari, përshkruani në detaje se çfarë është në çdo imazh. Çfarë është e përbashkët mes këtyre imazheve? | Imazhi i parë tregon një person duke paketuar një valixhe. Imazhi i dytë tregon një korridor të zbrazët në një qendër tregtare. Imazhi i tretë tregon një rrotull letre higjienike. Imazhi i katërt tregon një det të errët dhe të stuhishëm. E përbashkëta midis këtyre imazheve është se ato janë të gjitha shembuj të hapësirave kufitare. Hapësirat kufitare janë vende ose situata që ndodhen midis dy vendeve ose situatave të tjera. Ato shpesh karakterizohen nga një ndjenjë pasigurie ose paqartësie. Imazhi i parë tregon personin ndërmjet të qenit në shtëpi dhe udhëtimit. Imazhi i dytë tregon korridorin midis dy dyqaneve. Imazhi i tretë është i letrës higjienike, e cila mund të përfaqësojë një banjë. Një banjo është një hapësirë kalimtare midis mbretërive private dhe publike. Është një vend ku ne përgatitemi për të hyrë ose dalë nga bota e jashtme. Imazhi i katërt tregon detin mes të qenit i qetë dhe stuhishëm. Hapësirat kufitare mund të jenë emocionuese dhe shqetësuese. Ato mund të jenë një vend i fillimit të ri ose një vend mbarimi. Ato mund të jenë një vend reflektimi ose një vend veprimi. |
Ju gjithashtu mund të provoni t'i kërkoni në mënyrë eksplicite modelit t'i referohet asaj që është në imazh.
Kërkesa e përditësuar | Përgjigje e përmirësuar |
---|---|
![]() ![]() ![]() ![]() Çfarë është e përbashkët mes këtyre imazheve? Referojuni asaj që është në imazhet në përgjigjen tuaj. | Të gjitha imazhet lidhen me udhëtimin. Imazhi i parë tregon një person duke paketuar një valixhe, imazhi i dytë tregon një korridor të zbrazët në një qendër tregtare, imazhi i tretë tregon një pirg letre higjienike dhe imazhi i katërt tregon një det të errët dhe të stuhishëm. Këto imazhe janë të gjitha të lidhura me udhëtimin, sepse janë të gjitha gjërat që njerëzit kanë nevojë ose i përdorin kur udhëtojnë. Imazhi i parë tregon një person duke paketuar një valixhe, gjë që njerëzit bëjnë kur shkojnë në një udhëtim. Imazhi i dytë tregon një korridor të zbrazët në një qendër tregtare, e cila është një vend ku njerëzit shpesh shkojnë për të blerë gjëra për udhëtimet e tyre. Imazhi i tretë tregon një tufë letre higjienike, e cila është diçka që njerëzit përdorin shpesh kur janë në udhëtim. Imazhi i katërt tregon një det të errët dhe të stuhishëm, gjë që njerëzit e ndeshen shpesh kur janë në udhëtim. |
Të njëjtat këshilla funksionojnë për rezultatet krijuese nga imazhet. Në shembullin e mëposhtëm me lepurin, duke i kërkuar në mënyrë eksplicite modelit të përfshijë aspekte nga imazhi mund të përmirësojë rezultatin.
Prompt | Përgjigja e modelit |
---|---|
![]() Mund të më shkruani një poezi për këtë imazh? | Lepurush i vogël, kaq i butë dhe kafe, Ju gërmoni barin, kaq të gjelbër dhe të ëmbël, |
Kërkesa e përditësuar | Përgjigje e përmirësuar |
---|---|
![]() A mund të më shkruani një poezi përshkruese dhe dramatike për këtë imazh dhe të përfshini vendndodhjen? | Lepuri i vogël në të gjelbër, A është oqeani blu, Lepurushi i vogël, më thuaj të vërtetën, Ndoshta është pafundësia e të gjithave, Lepurush i vogël, pyes veten se çfarë ëndërron, Sido që të jetë, lepurush i vogël, |
Zgjidhja e problemeve se cila pjesë e kërkesës dështoi
Mund të jetë e vështirë të dihet nëse një kërkesë dështoi sepse modeli nuk e kuptoi imazhin në fillim, ose nëse e kuptoi imazhin, por nuk kreu hapat e saktë të arsyetimit më pas. Për të sqaruar këto arsye, kërkojini modeles të përshkruajë se çfarë është në imazh.
Në shembullin e mëposhtëm, nëse modeli përgjigjet me një meze të lehtë që duket befasuese kur shoqërohet me çaj (p.sh. kokoshka), fillimisht mund të zgjidhni problemet për të përcaktuar nëse modeli e ka njohur saktë që imazhi përmban çaj.
Prompt | Kërkesa për zgjidhjen e problemeve |
---|---|
![]() Çfarë është një rostiçeri që mund të bëj në 1 minutë që do të shkonte mirë me këtë? | ![]() Përshkruani se çfarë është në këtë imazh. |
Një strategji tjetër është t'i kërkohet modelit të shpjegojë arsyetimin e tij. Kjo mund t'ju ndihmojë të kufizoni se cila pjesë e arsyetimit u prish, nëse ka.
Prompt | Kërkesa për zgjidhjen e problemeve |
---|---|
![]() Çfarë është një rostiçeri që mund të bëj në 1 minutë që do të shkonte mirë me këtë? | ![]() Çfarë është një rostiçeri që mund të bëj në 1 minutë që do të shkonte mirë me këtë? Ju lutemi shpjegoni pse. |
Çfarë është më pas
- Provoni të shkruani kërkesat tuaja multimodale duke përdorur Google AI Studio .
- Për informacion mbi përdorimin e Gemini Files API për ngarkimin e skedarëve mediatikë dhe përfshirjen e tyre në kërkesat tuaja, shihni udhëzuesit e përpunimit të Vizionit , Audios dhe Dokumentit .
- Për më shumë udhëzime mbi hartimin e shpejtë, si p.sh. akordimi i parametrave të kampionimit, shihni faqen e Strategjive të Prompt .