Implementing Backpropagation

Salah satu manfaat menggunakan TensorFlow, adalah dapat melacak operasi dan secara otomatis memperbarui variabel model berdasarkan back propagation. Pada Post ini, kita akan mencoba cara menggunakan aspek ini untuk keuntungan kita saat melatih model machine learning.

Sekarang kita akan mencoba cara mengubah variabel dalam model sedemikian rupa sehingga loss function diminimalkan. Kita telah belajar tentang cara menggunakan objek dan operasi, dan membuat loss function yang akan mengukur jarak antara prediksi dan target. Sekarang kita hanya perlu memberi tahu TensorFlow bagaimana cara back propagate errors melalui grafik komputasional kita untuk memperbarui variabel dan meminimalkan loss function. Ini dilakukan melalui mendeklarasikan fungsi pengoptimalan. Setelah kita memiliki fungsi pengoptimalan, TensorFlow akan menelusuri dan mencari tahu back propagation untuk semua perhitungan kita dalam grafik. Saat kita memasukkan data ke dalam dan meminimalkan loss function, TensorFlow akan memodifikasi variabel dalam grafik yang sesuai.

Untuk post ini, kita akan melakukan algoritma regresi yang sangat sederhana. Kita akan mengambil sampel angka acak dari normal, dengan mean 1 dan standar deviasi 0,1. Kemudian kita akan menjalankan angka melalui satu operasi, yang akan mengalikannya dengan variabel, A. Dari ini, loss function akan menjadi L2 norm antara output dan target, yang akan selalu menjadi nilai 10. Secara teoritis, nilai terbaik untuk A akan menjadi angka 10 karena data kita memiliki arti 1.

Contoh kedua adalah algoritma klasifikasi biner yang sangat sederhana. Di sini kita akan menghasilkan 100 angka dari dua distribusi normal, N (-1,1) dan N (3,1). Semua angka dari N (-1, 1) akan berada di kelas target 0, dan semua angka dari N (3, 1) akan berada di kelas target 1. Model untuk membedakan angka-angka ini akan menjadi fungsi sigmoid. Dengan kata lain, model akan menjadi sigmoid (x + A) di mana A adalah variabel yang akan kita fit. Secara teoritis, A akan sama dengan -1. Kita menggunakan angka ini karena jika m1 dan m2 adalah sarana dari dua fungsi normal, nilai yang ditambahkan ke mereka untuk menerjemahkannya sama dengan nol akan menjadi - (m1 + m2) / 2.

Sementara menentukan learning rate yang baik membantu konvergensi algoritma, kita juga harus menentukan jenis pengoptimalan. Dari dua contoh sebelumnya, kami menggunakan standard gradient descent. Ini diimplementasikan dengan fungsi TensorFlow GradientDescentOptimizer ().

Berikut adalah bagaimana contoh regresi berfungsi, untuk full codenya silahkan download DISINI:

Kami mulai dengan memuat library numerik Python, numpy dan tensorflow, kemudian memulai graph session :

	import numpy as np
	import tensorflow as tf
	sess = tf.Session()

view raw 1 implementing backprop hosted with ❤ by GitHub

Selanjutnya kita membuat data, placeholder, dan variabel A:

	x_vals = np.random.normal(1, 0.1, 100)
	y_vals = np.repeat(10., 100)
	x_data = tf.placeholder(shape=[1], dtype=tf.float32)
	y_target = tf.placeholder(shape=[1], dtype=tf.float32)
	A = tf.Variable(tf.random_normal(shape=[1]))

view raw 2 implementing backprop hosted with ❤ by GitHub

Kita menambahkan operasi perkalian ke grafik :

my_output = tf.multiply(x_data, A)

view raw 3 implementing backprop hosted with ❤ by GitHub

Selanjutnya kita menambahkan loss function L2 antara hasil perkalian dan data target:

loss = tf.square(my_output - y_target)

view raw 4 implementing backprop hosted with ❤ by GitHub

Sebelum kita dapat menjalankan apa pun, kita harus menginisialisasi variable

	init = tf.initialize_all_variables()
	sess.run(init)

view raw 5 implementing backprop hosted with ❤ by GitHub

Sekarang kita harus menyatakan cara untuk mengoptimalkan variabel dalam grafik kita. Kita mendeklarasikan algoritma optimizer. Sebagian besar algoritma optimisasi harus mengetahui seberapa jauh langkah dalam setiap iterasi. Jarak ini dikendalikan oleh learning rate. Jika learning rate kita terlalu besar, algoritma kita mungkin melampaui minimum, tetapi jika learning rate kita terlalu kecil, algoritma keluar mungkin membutuhkan waktu terlalu lama untuk konvergen. Learning rate memiliki pengaruh besar pada konvergensi. Sementara di sini kita menggunakan algoritma standard gradient descent, ada banyak algoritma pengoptimalan berbeda yang beroperasi secara berbeda dan dapat melakukan lebih baik atau lebih buruk tergantung pada masalahnya.

	my_opt = tf.train.GradientDescentOptimizer(learning_rate=0.02)
	train_step = my_opt.minimize(loss)

view raw 6 implementing backprop hosted with ❤ by GitHub

Langkah terakhir adalah looping melalui algoritma pelatihan kita dan memberi tahu TensorFlow untuk melatih berkali-kali. Kita akan melakukan ini 100 kali dan mencetak hasil setiap 25 iterasi. Untuk melatih, kita akan memilih entri x dan y acak dan memberinya feed melalui grafik. TensorFlow secara otomatis akan menghitung loss, dan sedikit mengubah bias A untuk meminimalkan loss:

	for i in range(100):
	rand_index = np.random.choice(100)
	rand_x = [x_vals[rand_index]]
	rand_y = [y_vals[rand_index]]
	sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y})
	if (i+1)%25==0:
	print('Step #' + str(i+1) + ' A = ' + str(sess.run(A)))
	print('Loss = ' + str(sess.run(loss, feed_dict= {x_data: rand_x, y_target: rand_y})))

view raw 7 implementing backprop hosted with ❤ by GitHub

Here is the output:

	Step #25 A = [10.15203]
	Loss = [0.00057263]
	Step #50 A = [9.61337]
	Loss = [1.3620443]
	Step #75 A = [9.800864]
	Loss = [0.00731934]
	Step #100 A = [9.729551]
	Loss = [3.0841105]

view raw 8 implementing backprop hosted with ❤ by GitHub

Sekarang kami akan memperkenalkan kode untuk contoh klasifikasi sederhana. Kita dapat menggunakan skrip TensorFlow yang sama jika kita mengatur ulang grafik terlebih dahulu. Ingat kita akan berusaha menemukan terjemahan optimal, A yang akan menerjemahkan dua distribusi ke asal dan fungsi sigmoid akan membagi keduanya menjadi dua kelas yang berbeda.
Pertama-tama, kami menyetel ulang grafik dan memulai kembali graph session:

	from tensorflow.python.framework import ops
	ops.reset_default_graph()
	sess = tf.Session()

	x_vals = np.concatenate((np.random.normal(-1, 1, 50), np.random.normal(3, 1, 50)))
	y_vals = np.concatenate((np.repeat(0., 50), np.repeat(1., 50)))
	x_data = tf.placeholder(shape=[1], dtype=tf.float32)
	y_target = tf.placeholder(shape=[1], dtype=tf.float32)
	A = tf.Variable(tf.random_normal(mean=10, shape=[1]))

view raw 9 implementing backprop hosted with ❤ by GitHub

Perhatikan bahwa kami menginisialisasi A ke sekitar nilai 10, jauh dari nilai teoritis -1. Kami melakukan ini dengan sengaja untuk menunjukkan bagaimana algoritma menyatu dari nilai 10 ke nilai optimal, -1.

Selanjutnya kita menambahkan operasi terjemahan ke grafik. Ingat bahwa kita tidak harus membungkus ini dalam fungsi sigmoid karena loss function akan melakukannya untuk kita:

my_output = tf.add(x_data, A)

view raw 10 implementing backprop hosted with ❤ by GitHub

Karena specific loss function mengharapkan batch data yang memiliki dimensi ekstra yang terkait dengannya (dimensi tambahan yang merupakan nomor batch), kita akan menambahkan dimensi ekstra ke output dengan fungsi, expand_dims () Di bagian selanjutnya kita akan diskusikan cara menggunakan kumpulan ukuran variabel dalam pelatihan. Untuk saat ini, kami akan kembali hanya menggunakan satu titik data acak pada satu waktu:

	my_output_expanded = tf.expand_dims(my_output, 0)
	y_target_expanded = tf.expand_dims(y_target, 0)

view raw 11 implementing backprop hosted with ❤ by GitHub

Selanjutnya kita akan menginisialisasi satu variabel kita, A:

	init = tf.initialize_all_variables()
	sess.run(init)

view raw 12 implementing backprop hosted with ❤ by GitHub

Sekarang kita mendeklarasikan loss function kita. kita akan menggunakan cross entropy dengan unscaled logits yang mengubahnya dengan fungsi sigmoid. TensorFlow memiliki semua ini dalam satu fungsi untuk kita dalam paket jaringan saraf yang disebut nn.sigmoid_cross_entropy_with_logits ().

xentropy = tf.nn.sigmoid_cross_entropy_with_logits( labels = my_output_expanded, logits = y_target_expanded)

view raw 13 implementing backprop hosted with ❤ by GitHub

Sama seperti contoh regresi, kita perlu menambahkan fungsi pengoptimal ke grafik sehingga TensorFlow tahu cara memperbarui variabel bias dalam grafik:

	my_opt = tf.train.GradientDescentOptimizer(0.05)
	train_step = my_opt.minimize(xentropy)

view raw 14 implementing backprop hosted with ❤ by GitHub

Akhirnya, kita loop melalui titik data yang dipilih secara acak beberapa ratus kali dan memperbarui variabel A . Setiap 200 iterasi, kami akan mencetak nilai A dan loss:

	for i in range(1400):
	rand_index = np.random.choice(100)
	rand_x = [x_vals[rand_index]]
	rand_y = [y_vals[rand_index]]
	sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y})
	if (i+1)%200==0:
	print('Step #' + str(i+1) + ' A = ' + str(sess.run(A)))
	print('Loss = ' + str(sess.run(xentropy, feed_dict= {x_data: rand_x, y_target: rand_y})))

view raw 15 implementing backprop hosted with ❤ by GitHub

Kemudian didapatkan output berikut

	Step #200 A = [15.346574]
	Loss = [[-15.571952]]
	Step #400 A = [20.39651]
	Loss = [[-22.285715]]
	Step #600 A = [25.046438]
	Loss = [[0.6931472]]
	Step #800 A = [29.796366]
	Loss = [[0.6931472]]
	Step #1000 A = [35.046288]
	Loss = [[-35.617138]]
	Step #1200 A = [39.54622]
	Loss = [[0.6931472]]
	Step #1400 A = [44.846138]
	Loss = [[0.6931472]]